구글시트
수집, 시각화, 설명
확률모델, 새 확률변수, 통계모델, 연구계획
모수추정, 모수비교
확률변수가정: 정규성, 두 변수는 선형관계
표집분포: 상관계수 중심극한정리
검정통계량: 표본상관계수와 표준오차의 비
가설검정: 유의확률과 유의수준을 비교
$$f(y \, ; \mu_Y, \sigma_Y^2)=\dfrac{1}{\sqrt{2\pi}\sigma_Y} \mathrm{exp} \left(-\dfrac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$$
여기서, $y$는 정규분포를 나타내는 확률변수, $Y$의 값(변량)
$\mu_Y$는 확률변수, $Y$의 기대값: 집단의 모평균
$\sigma_Y^2$는 확률변수, $Y$의 모분산: 집단의 모분산
$$t = \dfrac{Z}{\sqrt{\dfrac{V} {\nu}}}$$
여기서, $Z$는 표준정규분포를 나타내는 확률변수
$V$는 자유도 $\nu$의 $\chi^2$분포를 나타내는 확률변수
$\nu$는 $V$의 자유도
$$f(t \, ; \nu)=\dfrac{\Gamma \left({\frac{\nu +1}{2}}\right)}{\sqrt{\nu \pi}\Gamma \left(\dfrac{\nu }{2}\right)}\left(1+\dfrac {t^2}{\nu }\right)^{-\frac{\nu +1}{2}}$$
여기서, $t$는 t분포를 나타내는 확률변수
$\nu$는 자유도
$\Gamma(\,\,)$는 감마함수
$$F=\dfrac{MS_{B}}{MS_{W}}=\dfrac{\dfrac{SS_{B}}{k-1}}{\dfrac{SS_{W}}{n-k}}$$
여기서, $MS_B$는 집단간분산
$MS_W$는 집단내분산
$SS_B$는 집단간변동
$SS_W$는 집단내변동
$k$는 집단수
$n$은 표본크기
$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{k-1}}{\dfrac{SS_{Res}}{n-k}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$$
여기서, $MS_{Reg}$는 회귀분산: 회귀집단의 분산
$MS_{Res}$는 잔차분산: 잔차집단내분산 $\because$ 회귀집단내분산=0
$SS_{Reg}$는 회귀변동
$SS_{Res}$는 잔차변동
$k$는 집단수: 회귀집단과 잔차집단 $\therefore k=2$
$n$은 표본크기
$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$
여기서, $SS_{Reg}$는 회귀제곱합
$SS_{Res}$는 잔차제곱합
$SS_T$는 총제곱합
$$\dfrac{SS_{Reg}}{SS_{Res}}=\dfrac{R^2}{1-R^2}$$
$$\therefore F=(n-2)\dfrac{R^2}{1-R^2}$$
여기서, $n$은 표본크기
$R^2$은 결정계수
대응된 두 변수가 정규분포를 나타내는 확률변수이면 결정계수는 상관계수의 제곱
$$R^2 = r^2$$
$$F=(n-2)\dfrac{r^2}{1-r^2}$$
$$t=\sqrt{F}=\sqrt{(n-2)\dfrac{r^2}{1-r^2}}=\dfrac{r}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}$$
여기서, $n$은 표본크기
$r$은 표본피어슨상관계수
변수 | 편차곱합 or 편차제곱합 | 자유도 | 편차곱평균 or 편차제곱평균 | 검정통계량 |
$X,Y$ | $SM_{XY}$ | $n-1$ | $MM_{XY}=\dfrac{SM_{XY}}{n-1}=S_{XY}$ : $X$, $Y$의 표본공분산 | $$F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{R^2}{1-R^2}∼F_{1,n-2}$$ 여기서, $R^2=\dfrac{s^2_{XY}}{s^2_{X}s^2_{Y}}$ |
$X$ | $SS_X$ | $n-1$ | $MS_X=\dfrac{SS_X}{n-1}= S_X^2$ : $X$의 표본분산 | |
$Y$ | $SS_X$ | $n-1$ | $MS_Y=\dfrac{SS_Y}{n-1}=S_Y^2$ : $Y$의 표본분산 |
귀무가설$(H_0)$ | 검정통계량 | 대립가설$(H_1)$ | 귀무가설 기각역 |
$\rho=\rho_0$ | $$t=\dfrac{r-\rho_0}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}$$ 여기서, $\rho_0$는 모상관계수 표본의 두 집단의 상관관계가 없으면 $\rho_0=0$ $r$은 표본상관계수 | $\rho<\rho_0$ | $t<-t_{n-2\ ;\ \alpha}$ |
$\rho>\rho_0$ | $t>t_{n-2\ ;\ \alpha}$ | ||
$\rho\neq \rho_0$ | $\mid{t}\mid>t_{n-2\ ;\ \frac{\alpha}{2}}$ |
확률변수가정: 두 변수의 선형성, 잔차의 등분산성, 독립성, 정규성
표집분포: 결정계수 중심극한정리
검정통계량: 표본결정계수와 표준오차의 비
가설검정: 유의확률과 유의수준을 비교
$$f(y \, ; \mu_Y, \sigma_Y^2)=\dfrac{1}{\sqrt{2\pi}\sigma_Y} \mathrm{exp} \left(-\dfrac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$$
여기서, $y$는 정규분포를 나타내는 확률변수, $Y$의 값(변량)
$\mu_Y$는 확률변수, $Y$의 기대값: 집단의 모평균
$\sigma_Y^2$는 확률변수, $Y$의 모분산: 집단의 모분산
$$\chi^2= Z_1^2 + Z_2^2 + \cdots = \sum\limits_{i=1}^{k}Z_{i}^2$$
여기서, $Z_i$는 표준정규분포 확률변수
$k$는 자유도: 표준정규분포 확률변수 개수
$$f(x \, ; k)=\dfrac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}$$
여기서, $x$는 카이제곱분포를 나타내는 확률변수의 값(변량)
$k$는 자유도: 확률변수제곱의 개수
$$F = \dfrac{\frac{\chi^2_1}{d_1}}{\frac{\chi^2_2}{d_2}}$$
여기서, $F$는 F분포를 나타내는 확률변수
$\chi^2_1$과 $\chi^2_2$는 카이제곱분포를 나타내는 확률변수
$d_1$과 $d_2$는 $\chi^2_1$과 $\chi^2_2$가 나타내는 카이제곱분포의 자유도
$$f(x; d_1, d_2) = \frac{\left(\dfrac{d_1}{d_2}\right)^{\frac{d_1}{2}} x^{\frac{d_1}{2} – 1} \left(1 + \frac{d_1}{d_2}x\right)^{-\frac{d_1 + d_2}{2}}}{B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}
$$
여기서, $x$는 F분포를 나타내는 확률변수의 값(변량)
$d_1$과 $d_2$는 각각 분자와 분모의 자유도
$B(\,\,)$는 베타함수
$B(\frac{d_1}{2}, \frac{d_2}{2}) = \frac{\Gamma(\frac{d_1}{2}) \Gamma(\frac{d_2}{2})}{\Gamma(\frac{d_1}{2} + \frac{d_2}{2})}$
$\Gamma(\,\,)$는 감마함수
$$F=\dfrac{MS_{B}}{MS_{W}}=\dfrac{\dfrac{SS_{B}}{k-1}}{\dfrac{SS_{W}}{n-k}}$$
여기서, $MS_B$는 집단간분산
$MS_W$는 집단내분산
$SS_B$는 집단간변동
$SS_W$는 집단내변동
$k$는 집단수
$n$은 표본크기
$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{k-1}}{\dfrac{SS_{Res}}{n-k}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$$
여기서, $MS_{Reg}$는 회귀분산: 회귀집단의 분산
$MS_{Res}$는 잔차분산: 잔차집단내분산 $\because$ 회귀집단내분산=0
$SS_{Reg}$는 회귀변동
$SS_{Res}$는 잔차변동
$k$는 집단수: 회귀집단과 잔차집단 $\therefore k=2$
$n$은 표본크기
$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$
여기서, $SS_{Reg}$는 회귀제곱합
$SS_{Res}$는 잔차제곱합
$SS_T$는 총제곱합
$$\dfrac{SS_{Reg}}{SS_{Res}}=\dfrac{R^2}{1-R^2}$$
$$F=(n-2)\dfrac{R^2}{1-R^2}$$
여기서, $n$은 표본크기
$R^2$은 결정계수
$$R^2=r^2$$
$$F=(n-2)\dfrac{r^2}{1-r^2}$$
여기서, $n$은 표본크기
$r$은 표본피어슨상관계수
변동: 편차제곱합 | 자유도 | 분산: 편차제곱평균 | 검정통계량 | |
회귀 (Regression) | $SS_{Reg}$ | $1$ | ${MS}_{Reg}=\dfrac{SS_{Reg}}{1}$ | $F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$ |
잔차 (Residual) | $SS_{Res}$ | $n-2$ | $MS_{Res}=\dfrac{SS_{Res}}{n-2}$ | |
벡터합 (Total) | $SS_T$ | $n-1$ | $MS_T=\dfrac{SS_T}{n-1}$ |
귀무가설$(H_0)$ | 검정통계량 | 대립가설$(H_1)$ | 귀무가설 기각역 |
$$ \beta_1=\beta_{1,0}$$ | $F=\dfrac{MS_{Reg}}{MS_{Res}}$ | $\beta_1<\beta_{1,0}$ | 검정통계량으로 $\beta_1$이 $\beta_{1,0}$보다 작은 지 알 수 없다. |
$\beta_1>\beta_{1,0}$ | 검정통계량으로 $\beta_1$이 $\beta_{1,0}$보다 큰 지 알 수 없다. | ||
$$ \beta_1 \ne \beta_{1,0}$$ | $F\gt F_{1,\ n-2\ ;\ \alpha}$ |
등분산성, 독립성, 정규성, 선형성
표집분포: 표본카이제곱 중심극한정리
검정통계량: 표본카이제곱과 표준오차의 비
가설검정: 유의확률과 유의수준을 비교
$$f(x \, ; \mu_X, \sigma_X^2)=\dfrac{1}{\sqrt{2\pi}\sigma_X} \mathrm{exp} \left(-\dfrac{(x-\mu_X)^2}{2\sigma_X^2}\right)$$
여기서, $x$는 정규분포를 나타내는 확률변수, $X$의 값(변량)
$\mu_X$는 확률변수, $X$의 기대값: 집단의 모평균
$\sigma_X^2$는 확률변수, $X$의 모분산: 집단의 모분산
$$\chi^2= Z_1^2 + Z_2^2 + \cdots = \sum\limits_{i=1}^{k}Z_{i}^2$$
여기서, $Z_i$는 표준정규분포 확률변수
$k$는 자유도: 표준정규분포 확률변수 개수
$$f(x \, ; k)=\dfrac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}$$
여기서, $x$는 카이제곱분포를 나타내는 확률변수의 값(변량)
$k$는 자유도: 확률변수제곱의 개수
$i$행과 $j$열로 구분되는 범주(집단)에서의 관측빈도수를 $O_{ij}$로 표기하고 기대빈도수를 $E_{ij}$로 표기합니다. 표본크기($N$)가 큰 경우, 관측빈도수($O_{ij}$)의 표집분포는 중심극한정리에 의해 기대빈도수($E_{ij}$)를 평균으로 하고 $E_{ij}(1 – \frac{E_{ij}}{N})$를 분산으로 하는 이항분포를 따릅니다. 그리고 표본크기가 충분히 크다면 $i$번째 행과 $j$번째 열의 범주(집단)의 관측빈도수의 표집분포는 정규분포에 근사하고 다음식으로 표현할 수 있습니다.
$$O_{ij} ∼ N(E_{ij}, E_{ij})$$
여기서, $O_{ij}$는 확률변수이며 $\text{집단}_{ij}$의 관측빈도수
이 정규분포를 표준정규분포로 변환하면 다음과 같습니다.
$$\dfrac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}} =Z_{ij}∼ N(0, 1)$$
각 집단의 표준정규분포를 나타내는 $Z_{ij}$의 제곱을 모두 더한 것은 확률변수이고 카이제곱($\chi^2$)이라 합니다. 카이제곱은 카이제곱분포를 나타냅니다. 이 때 표본의 집단의 자유도는 (r-1)(c-1)이 됩니다.
$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$
여기서, (r-1)(c-1)은표본의 집단의 자유도
표본내 관측빈도 집단의 자유도 = 행 관측빈도 집단의 자유도 + 열 관측빈도 집단의 자유도 + 표본 상대빈도 집단의 자유도
$$(r \times c-1)=(r-1)+(c-1)+(r-1)(c-1)$$
여기서, $r$과 $c$는 행과 열의 두 범주형 확률변수값의 개수
가설
귀무가설 $H_{0}$ : 범주형 확률변수 $A$로 구분되는 범주형 확률변수 $B$의 확률분포는 동일하다.
대립가설 $H_{1}$ : 범주형 확률변수 $A$로 구분되는 범주형 확률변수 $B$의 확률분포는 동일하지 않다.
검정통계량
$$\mathop{\sum}\limits_{{i}{=}{1}}\limits^{r}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{c}{\frac{{\left({{O}_{ij}{-}{E}_{ij}}\right)}^{2}}{{E}_{ij}}}}$$
여기서 $O_{ij}$는 관측빈도수
$E_{ij}$는 기대빈도수
그리고 $r$은 행으로 표현되는 범주형변수의 속성의 개수이고, $c$는 열로 표현되는 범주형변수의 속성의 개수입니다.
새로운 확률변수의 확률분포는 근사적으로 자유도가 $(r-1)(c-1)$인 $\chi^2$분포를 따릅니다.
$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$
여기서, (r-1)(c-1)은표본의 집단의 자유도
귀무가설($H_{0}$) 기각역 – 유의수준이 $α$일 때
$$\chi_{obs}^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{\left(O_{ij}-E_{ij}\right)^2}{E_{ij}}>\chi^2_{(r-1)(c-1);\alpha}$$
여기서 $\chi_{obs}^2$은 검정통계량
$O_{ij}$는 관측빈도수
$E_{ij}$는 기대빈도수
$\alpha$는 유의수준
관찰도수 $O_{ij}$ | 범주형 확률변수 $A$ | 행의 합 | ||||
$A_{1}$ | $A_{2}$ | $\cdots$ | $A_{c}$ | |||
범주형 확률변수 $B$ |
$B_{1}$ |
$O_{11}$ |
$O_{12}$ |
$\cdots$ |
$O_{1c}$ |
$T_{1\cdot}$ |
$B_{2}$ |
$O_{21}$ |
$O_{22}$ |
$\cdots$ |
$O_{2c}$ |
$T_{2\cdot}$ |
|
$\cdots$ |
$\cdots$ |
$\cdots$ |
$\cdots$ |
$\cdots$ |
$\cdots$ |
|
$B_{r}$ |
$O_{r1}$ |
$O_{r2}$ |
$\cdots$ |
$O_{rc}$ |
$T_{r\cdot}$ |
|
열의 합 | $T_{\cdot 1}$ | $T_{\cdot 2}$ | $\cdots$ | $T_{\cdot c}$ | $n$ |
기대도수 $E_{ij}$ | 범주형 확률변수 $A$ | 행의합 | ||||
$A_{1}$ | $A_{2}$ | $\cdots$ | $A_{c}$ | |||
범주형 확률변수 $B$ | $B_{1}$ | $E_{11}=T_{1\cdot}\dfrac{T_{\cdot 1}}{n}$ | $E_{12}=T_{1\cdot}\dfrac{T_{\cdot 2}}{n}$ | $\cdots$ | $E_{1c}=T_{1\cdot}\dfrac{T_{\cdot c}}{n}$ | $T_{1\cdot}$ |
$B_{2}$ | $E_{21}=T_{2\cdot}\dfrac{T_{\cdot 1}}{n}$ | $E_{22}=T_{2\cdot}\dfrac{T_{\cdot 2}}{n}$ | $\cdots$ | $E_{2c}=T_{2\cdot}\dfrac{T_{\cdot c}}{n}$ | $T_{2\cdot}$ | |
$\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | |
$B_{r}$ | $E_{r1}=T_{r\cdot}\dfrac{T_{\cdot 1}}{n}$ | $E_{r2}=T_{r\cdot}\dfrac{T_{\cdot 2}}{n}$ | $\cdots$ | $E_{rc}=T_{r\cdot}\dfrac{T_{\cdot c}}{n}$ | $T_{r\cdot}$ | |
열의 합 | $T_{\cdot 1}$ | $T_{\cdot 2}$ | $\cdots$ | $T_{\cdot c}$ | $n$ |
$Z^2$ | 범주형 변수 $B$ | 행의 합 | ||||
$B_{1}$ | $B_{2}$ | $\cdots$ | $B_{c}$ | |||
범주형 변수 $A$ | $A_{1}$ | $\dfrac{(O_{11}-E_{11})^2}{E_{11}}$ | $\dfrac{(O_{12}-E_{12})^2}{E_{12}}$ | $\cdots$ | $\dfrac{(O_{1c}-E_{1c})^2}{E_{1c}}$ | $$\sum_{j=1}^{c}\dfrac{(O_{1j}-E_{1j})^2}{E_{1j}}$$ |
$A_{2}$ | $\dfrac{(O_{21}-E_{21})^2}{E_{21}}$ | $\dfrac{(O_{22}-E_{22})^2}{E_{22}}$ | $\cdots$ | $\dfrac{(O_{2c}-E_{2c})^2}{E_{2c}}$ | $$\sum_{j=1}^{c}\dfrac{(O_{2j}-E_{2j})^2}{E_{2j}}$$ | |
$\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | |
$A_{r}$ | $\dfrac{(O_{r1}-E_{r1})^2}{E_{r1}}$ | $\dfrac{(O_{r2}-E_{r2})^2}{E_{r2}}$ | $\cdots$ | $\dfrac{(O_{rc}-E_{rc})^2}{E_{rc}}$ | $$\sum_{j=1}^{c}\dfrac{(O_{rj}-E_{rj})^2}{E_{rj}}$$ | |
열의 합 | $$\sum_{i=1}^{r}\dfrac{(O_{i1}-E_{i1})^2}{E_{i1}}$$ | $$\sum_{i=1}^{r}\dfrac{(O_{i2}-E_{i2})^2}{E_{i2}}$$ | $\cdots$ | $$\sum_{i=1}^{r}\dfrac{(O_{ic}-E_{ic})^2}{E_{ic}}$$ | $$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$ $$ \sim \chi_{(r-1)(c-1)}^2$$ |
귀무가설($H_0$) | 검정통계량 | 대립가설($H_1$) | 귀무가설 기각역 |
$\chi_{obs}^2=0$ | $\chi_{obs}^2=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$ | $\chi_{obs}^2<0$ | $\chi_{obs}^2<-\chi^2_{(r-1)(c-1)\ ;\ \alpha}$ |
$\chi_{obs}^2>0$ | $\chi_{obs}^2>\chi^2_{(r-1)(c-1)\ ;\ \alpha}$ | ||
$\chi_{obs}^2\neq0$ | $\left|\chi_{obs}^2\right|>\chi^2_{(r-1)(c-1)\ ;\ \frac{\alpha}{2}}$ |