DATALINK

데이터

프레임, 시각화, 설명

모델링

연구계획, 확률모델, 통계모델, 실험설계

데이터분석

모수비교

프레임

표본종류, 확률변수 가정

확률모델

새로운 확률변수, 표집

통계모델

검정확률분포, 검정통계량

모수비교

귀무가설, 검정

대응표본: 두 변수

두 변수의 선형성, 정규성

공분산/표준편차곱

상관계수 중심극한정리

t분포

표본상관계수조합

마스와 등지함의 상관계수는 0

유의확률과 유의수준으로 판정

정규분포

$$f(y \, ; \mu_Y, \sigma_Y^2)=\dfrac{1}{\sqrt{2\pi}\sigma_Y} \mathrm{exp} \left(-\dfrac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$$

여기서, $y$는 정규분포를 나타내는 확률변수, $Y$의 값(변량)

$\mu_Y$는 확률변수, $Y$의 기대값: 집단의 모평균

$\sigma_Y^2$는 확률변수, $Y$의 모분산: 집단의 모분산

확률변수 t

$$t = \dfrac{Z}{\sqrt{\dfrac{V}  {\nu}}}$$

여기서, $Z$는 표준정규분포를 나타내는 확률변수
$V$는 자유도 $\nu$의 $\chi^2$분포를 나타내는 확률변수
$\nu$는 $V$의 자유도

t분포

$$f(t \, ; \nu)=\dfrac{\Gamma \left({\frac{\nu +1}{2}}\right)}{\sqrt{\nu \pi}\Gamma \left(\dfrac{\nu }{2}\right)}\left(1+\dfrac {t^2}{\nu }\right)^{-\frac{\nu +1}{2}}$$

여기서, $t$는 t분포를 나타내는 확률변수

$\nu$는 자유도

$\Gamma(\,\,)$는 감마함수

F = 집단간분산 / 집단내분산

$$F=\dfrac{MS_{B}}{MS_{W}}=\dfrac{\dfrac{SS_{B}}{k-1}}{\dfrac{SS_{W}}{n-k}}$$

여기서, $MS_B$는 집단간분산

$MS_W$는 집단내분산

$SS_B$는 집단간변동

$SS_W$는 집단내변동

$k$는 집단수

$n$은 표본크기

F = 회귀분산 / 잔차분산

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{k-1}}{\dfrac{SS_{Res}}{n-k}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$$

여기서, $MS_{Reg}$는 회귀분산: 회귀집단의 분산

$MS_{Res}$는 잔차분산: 잔차집단내분산 $\because$ 회귀집단내분산=0

$SS_{Reg}$는 회귀변동

$SS_{Res}$는 잔차변동

$k$는 집단수: 회귀집단과 잔차집단 $\therefore k=2$

$n$은 표본크기

결정계수 = 설명된 변동 / 총 변동

$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$

여기서, $SS_{Reg}$는 회귀제곱합

$SS_{Res}$는 잔차제곱합

$SS_T$는 총제곱합

$SS_{Reg}$/$SS_{Res}$

$$\dfrac{SS_{Reg}}{SS_{Res}}=\dfrac{R^2}{1-R^2}$$

$$\therefore F=(n-2)\dfrac{R^2}{1-R^2}$$

여기서, $n$은 표본크기

$R^2$은 결정계수

상관의 유의성

대응된 두 변수가 정규분포를 나타내는 확률변수이면 결정계수는 상관계수의 제곱

$$R^2 = r^2$$

$$F=(n-2)\dfrac{r^2}{1-r^2}$$

$$t=\sqrt{F}=\sqrt{(n-2)\dfrac{r^2}{1-r^2}}=\dfrac{r}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}$$

여기서, $n$은 표본크기

$r$은 표본피어슨상관계수

상관분석표

변수

편차곱합

or

편차제곱합

자유도

편차곱평균

or

편차제곱평균

검정통계량
$X,Y$$SM_{XY}$$n-1$

$MM_{XY}=\dfrac{SM_{XY}}{n-1}=S_{XY}$ :

$X$, $Y$의 표본공분산

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{R^2}{1-R^2}∼F_{1,n-2}$$

여기서, $R^2=\dfrac{s^2_{XY}}{s^2_{X}s^2_{Y}}$

$X$$SS_X$$n-1$

$MS_X=\dfrac{SS_X}{n-1}= S_X^2$ :

$X$의 표본분산

$Y$$SS_X$$n-1$

$MS_Y=\dfrac{SS_Y}{n-1}=S_Y^2$ :

$Y$의 표본분산

상관분석 t검정표

귀무가설$(H_0)$검정통계량대립가설$(H_1)$귀무가설 기각역
$\rho=\rho_0$

$$t=\dfrac{r-\rho_0}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}$$

여기서,  $\rho_0$는 모상관계수

표본의 두 집단의 상관관계가 없으면 $\rho_0=0$

$r$은 표본상관계수

$\rho<\rho_0$$t<-t_{n-2\ ;\ \alpha}$
$\rho>\rho_0$$t>t_{n-2\ ;\ \alpha}$
$\rho\neq \rho_0$$\mid{t}\mid>t_{n-2\ ;\ \frac{\alpha}{2}}$
대응표본: 두 변수

두 변수의 선형성, 잔차의 등분산성, 독립성, 정규성

공분산제곱과 분산곱의 비

결정계수 중심극한정리

F분포

신호와 노이즈의 비

마스로 설명되는 등지함은 0

유의확률과 유의수준으로 판정

정규분포

$$f(y \, ; \mu_Y, \sigma_Y^2)=\dfrac{1}{\sqrt{2\pi}\sigma_Y} \mathrm{exp} \left(-\dfrac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$$

여기서, $y$는 정규분포를 나타내는 확률변수, $Y$의 값(변량)

$\mu_Y$는 확률변수, $Y$의 기대값: 집단의 모평균

$\sigma_Y^2$는 확률변수, $Y$의 모분산: 집단의 모분산

확률변수 카이제곱

$$\chi^2= Z_1^2 + Z_2^2 + \cdots = \sum\limits_{i=1}^{k}Z_{i}^2$$

여기서, $Z_i$는 표준정규분포 확률변수
$k$는 자유도: 표준정규분포 확률변수 개수

카이제곱분포

$$f(x \, ; k)=\dfrac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}$$

여기서, $x$는 카이제곱분포를 나타내는 확률변수의 값(변량)

$k$는 자유도: 확률변수제곱의 개수

확률변수 F

$$F = \dfrac{\frac{\chi^2_1}{d_1}}{\frac{\chi^2_2}{d_2}}$$

여기서, $F$는 F분포를 나타내는 확률변수

$\chi^2_1$과 $\chi^2_2$는 카이제곱분포를 나타내는 확률변수

$d_1$과 $d_2$는 $\chi^2_1$과 $\chi^2_2$가 나타내는 카이제곱분포의 자유도

F분포

$$f(x; d_1, d_2) = \frac{\left(\dfrac{d_1}{d_2}\right)^{\frac{d_1}{2}} x^{\frac{d_1}{2} – 1} \left(1 + \frac{d_1}{d_2}x\right)^{-\frac{d_1 + d_2}{2}}}{B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}
$$

여기서, $x$는 F분포를 나타내는 확률변수의 값(변량)

$d_1$과 $d_2$는 각각 분자와 분모의 자유도

$B(\,\,)$는 베타함수

$B(\frac{d_1}{2}, \frac{d_2}{2}) = \frac{\Gamma(\frac{d_1}{2}) \Gamma(\frac{d_2}{2})}{\Gamma(\frac{d_1}{2} + \frac{d_2}{2})}$

$\Gamma(\,\,)$는 감마함수

F = 집단간분산 / 집단내분산

$$F=\dfrac{MS_{B}}{MS_{W}}=\dfrac{\dfrac{SS_{B}}{k-1}}{\dfrac{SS_{W}}{n-k}}$$

여기서, $MS_B$는 집단간분산

$MS_W$는 집단내분산

$SS_B$는 집단간변동

$SS_W$는 집단내변동

$k$는 집단수

$n$은 표본크기

F = 회귀분산 / 잔차분산

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{k-1}}{\dfrac{SS_{Res}}{n-k}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$$

여기서, $MS_{Reg}$는 회귀분산: 회귀집단의 분산

$MS_{Res}$는 잔차분산: 잔차집단내분산 $\because$ 회귀집단내분산=0

$SS_{Reg}$는 회귀변동

$SS_{Res}$는 잔차변동

$k$는 집단수: 회귀집단과 잔차집단 $\therefore k=2$

$n$은 표본크기

결정계수 = 설명된 변동 / 총 변동

$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$

여기서, $SS_{Reg}$는 회귀제곱합

$SS_{Res}$는 잔차제곱합

$SS_T$는 총제곱합

$SS_{Reg}$/$SS_{Res}$

$$\dfrac{SS_{Reg}}{SS_{Res}}=\dfrac{R^2}{1-R^2}$$

$$F=(n-2)\dfrac{R^2}{1-R^2}$$

여기서, $n$은 표본크기

$R^2$은 결정계수

회귀직선의 적합성

$$R^2=r^2$$

$$F=(n-2)\dfrac{r^2}{1-r^2}$$

여기서, $n$은 표본크기

$r$은 표본피어슨상관계수

단순선형회귀분석표

  제곱합
(sum of squared)
자유도
(degrees of freedom)
제곱평균
(mean of squared)
검정통계량
(test statistic)
회귀
(Regression)
$SS_{Reg}$ $1$ ${MS}_{Reg}=\dfrac{SS_{Reg}}{1}$ $F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$
잔차
(Residual)
$SS_{Res}$ $n-2$ $MS_{Res}=\dfrac{SS_{Res}}{n-2}$
벡터합
(Total)
$SS_T$ $n-1$ $MS_T=\dfrac{SS_T}{n-1}$

단순선형회귀분석 F검정표

귀무가설$(H_0)$ 검정통계량 대립가설$(H_1)$ 귀무가설 기각역
$$ \beta_1=\beta_{1,0}$$ $F=\dfrac{MS_{Reg}}{MS_{Res}}$ $\beta_1<\beta_{1,0}$ 검정통계량으로 $\beta_1$이 $\beta_{1,0}$보다 작은 지 알 수 없다. 
$\beta_1>\beta_{1,0}$ 검정통계량으로 $\beta_1$이 $\beta_{1,0}$보다 큰 지 알 수 없다. 
$$ \beta_1 \ne \beta_{1,0}$$ $F\gt F_{1,\ n-2\ ;\ \alpha}$
대응표본: 두 변수

등분산성, 독립성, 정규성, 선형성

각 Cell 확률차이평균

확률차이평균 중심극한정리

카이제곱분포

확률차이 합

확률차이의 합은 0

유의확률과 유의수준으로 판정

정규분포

$$f(x \, ; \mu_X, \sigma_X^2)=\dfrac{1}{\sqrt{2\pi}\sigma_X} \mathrm{exp} \left(-\dfrac{(x-\mu_X)^2}{2\sigma_X^2}\right)$$

여기서, $x$는 정규분포를 나타내는 확률변수, $X$의 값(변량)

$\mu_X$는 확률변수, $X$의 기대값: 집단의 모평균

$\sigma_X^2$는 확률변수, $X$의 모분산: 집단의 모분산

확률변수 카이제곱

$$\chi^2= Z_1^2 + Z_2^2 + \cdots = \sum\limits_{i=1}^{k}Z_{i}^2$$

여기서, $Z_i$는 표준정규분포 확률변수
$k$는 자유도: 표준정규분포 확률변수 개수

카이제곱분포

$$f(x \, ; k)=\dfrac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}$$

여기서, $x$는 카이제곱분포를 나타내는 확률변수의 값(변량)

$k$는 자유도: 확률변수제곱의 개수

기대빈도수 산출

$$n×p_{i·}×p_{·j}$$ $$E_{ij}=n\left(\dfrac{T_{i·}}{n}\right)\left(\dfrac{T_{·j}}{n}\right)=T_{i·}\left(\dfrac{T_{·j}}{n}\right)$$

관측빈도수 표집

$i$행과 $j$열로 구분되는 범주(집단)에서의 관측빈도수를 $O_{ij}$로 표기하고 기대빈도수를 $E_{ij}$로 표기합니다. 표본크기($N$)가 큰 경우, 관측빈도수($O_{ij}$)는 중심극한정리에 의해 기대빈도수($E_{ij}$)를 평균으로 하고 $E_{ij}(1 – \frac{E_{ij}}{N})$를 분산으로 하는 이항분포를 따릅니다. 그리고 표본크기가 충분히 크다면 $i$번째 행과 $j$번째 열의 범주(집단)의 관측빈도수는 정규분포에 근사하고 다음식으로 표현할 수 있습니다.

$$O_{ij} ∼ N(E_{ij}, E_{ij})$$

여기서, $O_{ij}$는 확률변수이며 $ij$범주(집단)에서의 관측빈도수

이 정규분포를 표준정규분포로 변환하면 다음과 같습니다.

$$\dfrac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}} =Z_{ij}∼ N(0, 1)$$

각 집단의 표준정규분포를 나타내는 $Z_{ij}$를 모두 더한 확률변수는 카이제곱($\chi^2$)이고 카이제곱분포를 나타냅니다. 이 때 자유도는 (r-1)(c-1)이 됩니다.

$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$

여기서, (r-1)(c-1)은표본의 집단의 자유도

자유도 등식

$$(r \times c-1)=(r-1)+(c-1)+(r-1)(c-1)$$

여기서, (표본내 집단의 자유도)=(행 집단의 자유도)+(열 집단의 자유도)+(표본 관측빈도 집단의 자유도)

$r$과 $c$는 행과 열의 두 범주형 확률변수값의 개수

가설검정

가설

귀무가설 $H_{0}$ : 범주형 확률변수 $A$로 구분되는 범주형 확률변수 $B$의 확률분포는 동일하다.

대립가설 $H_{1}$ : 범주형 확률변수 $A$로 구분되는 범주형 확률변수 $B$의 확률분포는 동일하지 않다.

검정통계량

$$\mathop{\sum}\limits_{{i}{=}{1}}\limits^{r}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{c}{\frac{{\left({{O}_{ij}{-}{E}_{ij}}\right)}^{2}}{{E}_{ij}}}}$$

여기서 $O_{ij}$는 관측빈도수

 $E_{ij}$는 기대빈도수

그리고 $r$은 행으로 표현되는 범주형변수의  속성의 개수이고, $c$는 열로 표현되는 범주형변수의 속성의 개수입니다. 

새로운 확률변수의 확률분포는 근사적으로 자유도가 $(r-1)(c-1)$인 $\chi^2$분포를 따릅니다.

귀무가설($H_{0}$) 기각역 – 유의수준이 $α$일 때 

$$\chi_{obs}^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{\left(O_{ij}-E_{ij}\right)^2}{E_{ij}}>\chi^2_{(r-1)(c-1);\alpha}$$

여기서 $O_{ij}$는 관측빈도수

$E_{ij}$는 기대빈도수

$\alpha$는 유의수준

범주형 확률변수의 관찰도수($O_{ij}$) $r\times c$교차표

관찰도수 $O_{ij}$ 범주형 확률변수 $A$ 행의 합
$A_{1}$ $A_{2}$ $\cdots$ $A_{c}$
범주형 확률변수 $B$

$B_{1}$

$O_{11}$

$O_{12}$

$\cdots$

$O_{1c}$

$T_{1\cdot}$

$B_{2}$

$O_{21}$

$O_{22}$

$\cdots$

$O_{2c}$

$T_{2\cdot}$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$B_{r}$

$O_{r1}$

$O_{r2}$

$\cdots$

$O_{rc}$

$T_{r\cdot}$

열의 합 $T_{\cdot 1}$ $T_{\cdot 2}$ $\cdots$ $T_{\cdot c}$ $n$

두 범주형 확률변수의 기대도수($E_{ij}$) $r\times c$교차표

기대도수 $E_{ij}$ 범주형 확률변수 $B$ 행의합
$A_{1}$ $A_{2}$ $\cdots$ $A_{c}$
범주형 확률변수 $B$

$B_{1}$

$E_{11}=T_{1\cdot}{{T_{\cdot 1}}\over{n}}$

$E_{12}=T_{1\cdot}{{T_{\cdot 2}}\over{n}}$

$\cdots$

$E_{1c}=T_{1\cdot}{{T_{\cdot c}}\over{n}}$

$T_{1\cdot}$

$B_{2}$

$E_{21}=T_{2\cdot}{{T_{\cdot 1}}\over{n}}$

$E_{22}=T_{2\cdot}{{T_{\cdot 2}}\over{n}}$

$\cdots$

$E_{2c}=T_{2\cdot}{{T_{\cdot c}}\over{n}}$

$T_{2\cdot}$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

 $\cdots$
$B_{r}$

$E_{r1}=T_{r\cdot}{{T_{\cdot 1}}\over{n}}$

$E_{r2}=T_{r\cdot}{{T_{\cdot 2}}\over{n}}$

$\cdots$

$E_{rc}=T_{r\cdot}{{T_{\cdot c}}\over{n}}$

$T_{r\cdot}$

열의 합 $T_{\cdot 1}$ $T_{\cdot 2}$ $\cdots$ $T_{\cdot c}$ $n$

두 범주형 변수의 기대도수와 관측빈도수의 편차로 생성한 확률변수($Z^2$) $r\times c$ 교차표

$Z^2$ 범주형 변수 $B$ 행의 합
$B_{1}$ $B_{2}$ $\cdots$ $B_{c}$
범주형 변수 $A$ $A_{1}$ $\dfrac{(O_{11}-E_{11})^2}{E_{11}}$ $\dfrac{(O_{12}-E_{12})^2}{E_{12}}$ $\cdots$ $\dfrac{(O_{1c}-E_{1c})^2}{E_{1c}}$ $$\sum_{j=1}^{c}\dfrac{(O_{1j}-E_{1j})^2}{E_{1j}}$$
$A_{2}$ $\dfrac{(O_{21}-E_{21})^2}{E_{21}}$ $\dfrac{(O_{22}-E_{22})^2}{E_{22}}$ $\cdots$ $\dfrac{(O_{2c}-E_{2c})^2}{E_{2c}}$ $$\sum_{j=1}^{c}\dfrac{(O_{2j}-E_{2j})^2}{E_{2j}}$$
$\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$
$A_{r}$ $\dfrac{(O_{r1}-E_{r1})^2}{E_{r1}}$ $\dfrac{(O_{r2}-E_{r2})^2}{E_{r2}}$ $\cdots$ $\dfrac{(O_{rc}-E_{rc})^2}{E_{rc}}$ $$\sum_{j=1}^{c}\dfrac{(O_{rj}-E_{rj})^2}{E_{rj}}$$
열의 합 $$\sum_{i=1}^{r}\dfrac{(O_{i1}-E_{i1})^2}{E_{i1}}$$ $$\sum_{i=1}^{r}\dfrac{(O_{i2}-E_{i2})^2}{E_{i2}}$$ $\cdots$ $$\sum_{i=1}^{r}\dfrac{(O_{ic}-E_{ic})^2}{E_{ic}}$$ $$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$

교차분석 카이제곱검정표

귀무가설($H_0$) 검정통계량 대립가설($H_1$) 귀무가설 기각역
$\chi_{obs}^2=0$ $\chi_{obs}^2=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$ $\chi_{obs}^2<0$ $\chi_{obs}^2<-\chi^2_{n-2\ ;\ \alpha}$
$\chi_{obs}^2>0$ $\chi_{obs}^2>\chi^2_{n-2\ ;\ \alpha}$
$\chi_{obs}^2\neq0$ $\left|\chi_{obs}^2\right|>\chi^2_{n-2\ ;\ \frac{\alpha}{2}}$