Learning DATALINK

프로그래밍

구글시트

데이터

수집, 시각화, 설명

모델링

확률모델, 새 확률변수, 통계모델, 연구계획

데이터분석

모수추정, 모수비교

표본종류: 대응표본

확률변수가정: 등분산성, 독립성, 정규성

새확률변수: 각 Cell의 표본확률차이의 합

표집분포: 표본카이제곱 중심극한정리

검정확률분포: 카이제곱분포

검정통계량: 표본카이제곱과 표준오차의 비

귀무가설: 유전자형 별 마블링스코어의 확률분포는 같다.

가설검정: 유의확률과 유의수준을 비교

정규분포

$$f(x \, ; \mu_X, \sigma_X^2)=\dfrac{1}{\sqrt{2\pi}\sigma_X} \mathrm{exp} \left(-\dfrac{(x-\mu_X)^2}{2\sigma_X^2}\right)$$

여기서, $x$는 정규분포를 나타내는 확률변수, $X$의 값(변량)

$\mu_X$는 확률변수, $X$의 기대값: 집단의 모평균

$\sigma_X^2$는 확률변수, $X$의 모분산: 집단의 모분산

확률변수 카이제곱

$$\chi^2= Z_1^2 + Z_2^2 + \cdots = \sum\limits_{i=1}^{k}Z_{i}^2$$

여기서, $Z_i$는 표준정규분포 확률변수
$k$는 자유도: 표준정규분포 확률변수 개수

카이제곱분포

$$f(x \, ; k)=\dfrac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}$$

여기서, $x$는 카이제곱분포를 나타내는 확률변수의 값(변량)

$k$는 자유도: 확률변수제곱의 개수

기대빈도수 산출

$$n×p_{i·}×p_{·j}$$ $$E_{ij}=n\left(\dfrac{T_{i·}}{n}\right)\left(\dfrac{T_{·j}}{n}\right)=T_{i·}\left(\dfrac{T_{·j}}{n}\right)$$

관측빈도수 표집분포

$i$행과 $j$열로 구분되는 범주(집단)에서의 관측빈도수를 $O_{ij}$로 표기하고 기대빈도수를 $E_{ij}$로 표기합니다. 표본크기($N$)가 큰 경우, 관측빈도수($O_{ij}$)의 표집분포는 중심극한정리에 의해 기대빈도수($E_{ij}$)를 평균으로 하고 $E_{ij}(1 – \frac{E_{ij}}{N})$를 분산으로 하는 이항분포를 따릅니다. 그리고 표본크기가 충분히 크다면 $i$번째 행과 $j$번째 열의 범주(집단)의 관측빈도수의 표집분포는 정규분포에 근사하고 다음식으로 표현할 수 있습니다.

$$O_{ij} ∼ N(E_{ij}, E_{ij})$$

여기서, $O_{ij}$는 확률변수이며 $\text{집단}_{ij}$의 관측빈도수

이 정규분포를 표준정규분포로 변환하면 다음과 같습니다.

$$\dfrac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}} =Z_{ij}∼ N(0, 1)$$

각 집단의 표준정규분포를 나타내는 $Z_{ij}$의 제곱을 모두 더한 것은 확률변수이고 카이제곱($\chi^2$)이라 합니다. 카이제곱은 카이제곱분포를 나타냅니다. 이 때 표본의 집단의 자유도는 (r-1)(c-1)이 됩니다.

$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$

여기서, (r-1)(c-1)은표본의 집단의 자유도

표본의 자유도 등식

표본내 관측빈도 집단의 자유도 = 행 관측빈도 집단의 자유도 + 열 관측빈도 집단의 자유도 + 표본 상대빈도 집단의 자유도

$$(r \times c-1)=(r-1)+(c-1)+(r-1)(c-1)$$

여기서, $r$과 $c$는 행과 열의 두 범주형 확률변수값의 개수

가설검정

가설

귀무가설 $H_{0}$ : 범주형 확률변수 $A$로 구분되는 범주형 확률변수 $B$의 확률분포는 동일하다.

대립가설 $H_{1}$ : 범주형 확률변수 $A$로 구분되는 범주형 확률변수 $B$의 확률분포는 동일하지 않다.

검정통계량

$$\mathop{\sum}\limits_{{i}{=}{1}}\limits^{r}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{c}{\frac{{\left({{O}_{ij}{-}{E}_{ij}}\right)}^{2}}{{E}_{ij}}}}$$

여기서 $O_{ij}$는 관측빈도수

 $E_{ij}$는 기대빈도수

그리고 $r$은 행으로 표현되는 범주형변수의  속성의 개수이고, $c$는 열로 표현되는 범주형변수의 속성의 개수입니다. 

새로운 확률변수의 확률분포는 근사적으로 자유도가 $(r-1)(c-1)$인 $\chi^2$분포를 따릅니다.

$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$

여기서, (r-1)(c-1)은표본의 집단의 자유도

귀무가설($H_{0}$) 기각역 – 유의수준이 $α$일 때 

$$\chi_{obs}^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{\left(O_{ij}-E_{ij}\right)^2}{E_{ij}}>\chi^2_{(r-1)(c-1);\alpha}$$

여기서 $\chi_{obs}^2$은 검정통계량

$O_{ij}$는 관측빈도수

$E_{ij}$는 기대빈도수

$\alpha$는 유의수준

두 범주형 확률변수의 관찰도수분포표 : 관찰도수($O_{ij}$)의 $r\times c$ 교차표

관찰도수 $O_{ij}$ 범주형 확률변수 $A$ 행의 합
$A_{1}$ $A_{2}$ $\cdots$ $A_{c}$
범주형 확률변수 $B$

$B_{1}$

$O_{11}$

$O_{12}$

$\cdots$

$O_{1c}$

$T_{1\cdot}$

$B_{2}$

$O_{21}$

$O_{22}$

$\cdots$

$O_{2c}$

$T_{2\cdot}$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$B_{r}$

$O_{r1}$

$O_{r2}$

$\cdots$

$O_{rc}$

$T_{r\cdot}$

열의 합 $T_{\cdot 1}$ $T_{\cdot 2}$ $\cdots$ $T_{\cdot c}$ $n$

두 범주형 확률변수의 기대도수분포표 : 기대도수($E_{ij}$)의 $r\times c$ 교차표

기대도수 $E_{ij}$ 범주형 확률변수 $A$ 행의합
$A_{1}$ $A_{2}$ $\cdots$ $A_{c}$
범주형 확률변수 $B$ $B_{1}$ $E_{11}=T_{1\cdot}\dfrac{T_{\cdot 1}}{n}$ $E_{12}=T_{1\cdot}\dfrac{T_{\cdot 2}}{n}$ $\cdots$ $E_{1c}=T_{1\cdot}\dfrac{T_{\cdot c}}{n}$ $T_{1\cdot}$
$B_{2}$ $E_{21}=T_{2\cdot}\dfrac{T_{\cdot 1}}{n}$ $E_{22}=T_{2\cdot}\dfrac{T_{\cdot 2}}{n}$ $\cdots$ $E_{2c}=T_{2\cdot}\dfrac{T_{\cdot c}}{n}$ $T_{2\cdot}$
$\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$  $\cdots$
$B_{r}$ $E_{r1}=T_{r\cdot}\dfrac{T_{\cdot 1}}{n}$ $E_{r2}=T_{r\cdot}\dfrac{T_{\cdot 2}}{n}$ $\cdots$ $E_{rc}=T_{r\cdot}\dfrac{T_{\cdot c}}{n}$ $T_{r\cdot}$
열의 합 $T_{\cdot 1}$ $T_{\cdot 2}$ $\cdots$ $T_{\cdot c}$ $n$

두 범주형 확률변수의 카이제곱 확률분포표 : 카이제곱($\chi^2$)의 $r \times c$ 교차표

$Z^2$범주형 변수 $B$행의 합
$B_{1}$$B_{2}$$\cdots$$B_{c}$

범주형

변수 $A$

$A_{1}$$\dfrac{(O_{11}-E_{11})^2}{E_{11}}$$\dfrac{(O_{12}-E_{12})^2}{E_{12}}$$\cdots$$\dfrac{(O_{1c}-E_{1c})^2}{E_{1c}}$$$\sum_{j=1}^{c}\dfrac{(O_{1j}-E_{1j})^2}{E_{1j}}$$
$A_{2}$$\dfrac{(O_{21}-E_{21})^2}{E_{21}}$$\dfrac{(O_{22}-E_{22})^2}{E_{22}}$$\cdots$$\dfrac{(O_{2c}-E_{2c})^2}{E_{2c}}$$$\sum_{j=1}^{c}\dfrac{(O_{2j}-E_{2j})^2}{E_{2j}}$$
$\cdots$$\cdots$$\cdots$$\cdots$$\cdots$$\cdots$
$A_{r}$$\dfrac{(O_{r1}-E_{r1})^2}{E_{r1}}$$\dfrac{(O_{r2}-E_{r2})^2}{E_{r2}}$$\cdots$$\dfrac{(O_{rc}-E_{rc})^2}{E_{rc}}$$$\sum_{j=1}^{c}\dfrac{(O_{rj}-E_{rj})^2}{E_{rj}}$$
열의 합$$\sum_{i=1}^{r}\dfrac{(O_{i1}-E_{i1})^2}{E_{i1}}$$$$\sum_{i=1}^{r}\dfrac{(O_{i2}-E_{i2})^2}{E_{i2}}$$$\cdots$$$\sum_{i=1}^{r}\dfrac{(O_{ic}-E_{ic})^2}{E_{ic}}$$

$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$

$$ \sim \chi_{(r-1)(c-1)}^2$$

교차분석 카이제곱검정표

귀무가설($H_0$)검정통계량대립가설($H_1$)귀무가설 기각역
$\chi_{obs}^2=0$$\chi_{obs}^2=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$\chi_{obs}^2<0$$\chi_{obs}^2<-\chi^2_{(r-1)(c-1)\ ;\ \alpha}$
$\chi_{obs}^2>0$$\chi_{obs}^2>\chi^2_{(r-1)(c-1)\ ;\ \alpha}$
$\chi_{obs}^2\neq0$$\left|\chi_{obs}^2\right|>\chi^2_{(r-1)(c-1)\ ;\ \frac{\alpha}{2}}$