Learning DATALINK

[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터시각화 > 개체의 시각화

독립된 두 집단의 모평균 비교: 독립표본 t검정

t검정
표1

[Q&A]

초등학생의 보드게임 사전과 사후의 수학적 창의력 점수 차이입니다.

절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.

귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.

일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다.

표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면 정확하지 않지만, 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.

독립표본은 독립된 두개 이상의 범주를 가집니다. 대응표본은 개체로 연결되어 있으며 같은 시간이나 공간의 이동으로 같은 개체의 속성변동을 반영합니다.

ARTICLE CONTENTS

Scatter plot

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

Abstract

독립표본 t검정은 두 집단의 평균 차이를 검정하는 방법으로, 달기 두 품종의 당도 차이를 예로 들 수 있습니다. 이 검정은 두 표본이 정규분포를 따르며, 모표준편차가 동일하다는 가정 하에 사용됩니다. 표본평균의 차이는 중심극한정리에 의해 정규분포를 나타내고, 표본평균 차이의 분산은 두 표본의 분산을 표본 크기로 조정한 값의 합으로 계산됩니다. 통합표준편차는 두 표본의 분산을 가중 평균하여 추정하며, 이를 기반으로 한 표준오차를 사용해 표본평균 차이의 신뢰구간과 검정통계량을 구합니다. 귀무가설은 두 딸기품종의 당도 모평균이 같다는 것을 검정하며, 스튜던트 t검정이나 웰치 t검정을 통해 이 가설을 검증합니다. 이 과정은 두 집단이 정규분포를 따르고 등분산을 가정할 때와 가정하지 않을 때로 나누어 적용됩니다.

Key Word

독립표본, t검정, 정규분포, 검정통계량

독립표본 t검정의 적용 예

딸기의 아키품종을 집단1이라고 하고 딸기의 설품종을 집단2라고 정합니다. 즉, 딸기품종이라는 범주형 변수가 있고 그 범주형 변수의 변수값은 아키품종(집단1), 설품종(집단2) 두개로 모델링 합니다. 그리고 딸기의 당도를 확률변수 $X$로 아키품종의 당도를 $X_1$으로 설품종의 당도를 $X_2$로 모델링합니다. 아키품종인 집단1에서 추출한 크기 $n_{1}$인 표본의 당도의 평균과 표준편차를 ${\bar X}_{1}$과  $S_{X_1}$라 합니다. 그리고 이 표본은 아키품종인 집단1에서 추출한 것입니다. 설품종인 집단2에서 추출한 크기 $n_{2}$인 표본의 당도의 평균과 표준편차를 ${\bar X}_{2}$과 $S_{X_2}$라 합니다. 그리고 이 표본은 설품종인 집단2에서 추출한 것입니다.

표본평균의 차이를 나타내는 확률변수는 ${\bar X}_{2} -{\bar X}_{2}$ 로 표현할 수 있습니다. 이 확률변수는 중심극한정리에 의해 정규분포를 나타냅니다. 그리고 표본평균의 차이를 확률변수로 하는 분포(표본평균의 표집분포)의 분산은 두 모집단 분산을 각각 표본의 크기로 표준화한 값의 합입니다. 표본평균의 차이를 확률변수로 하는 분포의 분산은 다음과 같습니다.

$$\dfrac{\sigma_{X_1}^2}{n_1} + \dfrac{\sigma_{X_2}^2}{n_2}$$

딸기품종 아키와 설은 딸기라는 전체집단에 속해 있고 딸기의 당도는 정규분포를 나타낸다는 것을 알고 있다면  두 집단이 정규분포를 이루고 두 집단의 모표준편차가 같다고 가정할 수 있습니다.

$$\sigma_X=\sigma_{X_1}=\sigma_{X_2}$$

그리고 두 집단의 표본표준편차인 $S_{X_1}$, $S_{X_2}$과 두 표본의 크기 $n_1$를 $n_2$를 이용하여 모표준편차를 대신할 통합표준편차( $S_{pooled}$)를 다음식으로 모델링합니다.  모표준편차 ($\sigma_{X_1}$, $\sigma_{X_2}$)를 통합표준편차($S_{pooled}$)로 대치하면 표본평균의 차이를 나타내는 확률변수는 $t$분포를 가지게 됩니다.

$$\sigma_X=\sigma_{X_1}=\sigma_{X_2}∼S_{p}$$

여기서,  $S_{p}$는 통합표준편차($S_{pooled}$)

표본크기가 $n_1$과 $n_2$인 경우에 통합분산($S_p^2$)는 두 표본분산의 자유도($n_1-1$, $n_2-1$)를 가중치로 하는 가중평균으로 다음과 같이 표현됩니다.

$$S_p^2=\dfrac{\left({{n}_{1}{-}{1}}\right)}{\left({{n}_{1}{+}{n}_{2}{-}{2}}\right)}{S}_{1}^{2}+\dfrac{\left({{n}_{2}{-}{1}}\right)}{\left({{n}_{1}{+}{n}_{2}{-}{2}}\right)}{S}_{2}^{2}=w_1S_1^2+w_2S_2^2$$

따라서, 두 독립표본평균 차이의 표준오차는 다음과 같습니다.

$${\rm SE}\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right){=}\sqrt{\dfrac{\sigma_{X_1}^{2}}{{n}_{1}}{+}\dfrac{\sigma_{X_2}^{2}}{{n}_{2}}} \sim \sqrt{\dfrac{{S}_{p}{}^{2}}{{n}_{1}}{+}\dfrac{{S}_{p}{}^{2}}{{n}_{2}}}$$

신뢰구간을 두 독립표본평균 차이의  ($1-\alpha$)100% 라고 한다면 다음식이 성립합니다.

$${\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{=}\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)\pm{t}_{\frac{\mathit{\alpha}}{2}}{\rm SE}\left({{\bar{X}}_{2}{-}{\bar{X}}_{1}}\right)$$

여기서,  $\alpha$는 유의수준(significant level)

가설검정은  두 딸기품종 당도의 모평균이 같다는 귀무가설을 검정합니다.

$$H_{0}:\mu_{X_1}=\mu_{X_2}$$

여기서, $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균

검정통계량은

$$t=\dfrac{({\bar X}_{2}-{\bar X}_{1})}{\rm {SE}({\bar X}_{2}-{\bar X}_{1})}$$

유의확률 $P$값은  $t$분포표나 통계패키지를 사용하여 구합니다.

t검정

$t$검정(t-test)은 집단의 모분산이나 모표준편차를 알지 못할 때, 표본으로부터 관측된 표본분산이나 표본표준편차를 이용하여 두 집단의 모평균의 차이를 검정하는 방법입니다. $t$검정은 “두 집단간 평균 차이가 없다”는 귀무가설(영가설, null hypothesis)과 “두 집단의 평균에는 차이가 있다”라는 대립가설(alternative hypothesis) 중 하나를 채택하고, 다른 하나는 기각하는 방식으로 이뤄집니다.

독립표본 t검정

$t$검정은 집단의 모분산이나 모표준편차를 알지 못할 때, 표본으로부터 측정된 표본분산이나 표본표준편차를 이용하여 두 집단의 모평균의 차이를 알아보는 검정 방법입니다. $t$검정은 “두 집단간 모평균 차이가 없다”는 영가설(null hypothesis)과 “두 집단의 모평균에는 차이가 있다”라는 대립가설(alternative hypothesis) 중 하나를 채택하고, 다른 하나는 기각하는 방식으로 이뤄집니다.

독립표본 $t$검정(Independent samples $t$-test)은 서로 독립적인 두 개의 집단 간의 평균 비교입니다. 표본이 독립이라는 말은 표본이 다음과 같은 조건에서 추출되었다는 것을 의미합니다.

1) 두 개의 표본이 서로 독립적인 집단에서 추출되었다. 따라서 표본 간에는 어떠한 관계도 없다.
2) 표본평균은 중심극한정리에 따라 정규성을 가진다. 즉, 표본을 추출할 때 임의로 추출하였다.

한편, 일반적으로 두 모평균에 대한 가설검정은 대립가설의 형태에 따라 다음의 세 가지로 나눌 수 있습니다. $D_{0}$는 모평균 차이값입니다.

1) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$ ,    ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{>}{D}_{0}$

2) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$ ,    ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}{<}{D}_{0}$

3) $H_{0}\colon\mu_{X_2}-\mu_{X_1}=D_{0}$ ,    ${H}_{1}\colon{\mathit{\mu}}_{X_2}{-}{\mathit{\mu}}_{X_1}\ne{D}_{0}$

두 집단의 확률변수의 차이를 새로운 확률변수로 생성하고 그 확률변수를 $D$로 표시하면 다음식이 성립합니다.

$$D = X_2 – {\bar {X}_1}$  or  $D = X_1 – {\bar {X}_2}$$

여기서,  $X_1$과 $X_2$는 두 집단의 확률변수

$\bar {X}_1$과 $\bar {X}_2$는 두 표본평균

두 표본평균의 차이를 다음과 같이 정의합니다. 표본평균의 차이는 양수와 음수를 가질 수 있으며 확률변수입니다.

$$\bar D={\bar X}_2 – {\bar X}_1$$

모든 가능한 표본평균의 차이는 표본이 충분히 클 경우, 정규분포를 따르고 기대값은 다음과 같습니다.

$${\rm E}[\bar D] = \mu_{\bar D}  = {\rm \mu}_{\bar {X_2}}-{\rm \mu}_{\bar {X_1}} ∼ {\rm \mu}_{X_2}-{\rm \mu}_{X_1}$$

새로운 확률변수($D$)의 기대값(모평균)은 다음과 같습니다.

$${\rm E}[D]=\mu_D={\rm \mu}_{X_2}-{\rm \mu}_{X_1} ∼{\rm \mu}_{\bar {X_2}}-{\rm \mu}_{\bar {X_1}}$$

독립적인 두 집단에서  각각 표본을 추출하였을 때  두 집단의 모평균차이의 점추정량은 두 표본평균의 차이입니다.

$$\mu_{X_2}-\mu_{X_1} ~{\bar X}_2-{\bar X}_1$$

여기서,  ~는 점추정

새로운 확률변수($D$)의 표본평균($\bar D$)의 분산, 즉, 표본평균 표집의 모분산인  ${\rm Var}[\bar D]$은 다음과 같습니다.

$${\rm Var}[\bar D]={\rm Var}[{\bar X}_2-{\bar X}_1]=\sigma_{{\bar X}_1}^2 + \sigma_{{\bar X}_2}^2 – 2{\rm Cov}({\bar X}_2, {\bar X}_1)$$

두 표본이 독립적이면 공분산항은 0이 됩니다.

$${\rm Cov}({\bar X}_2, {\bar X}_1)={\rm E}\left[(\bar {X}_2-\mu_{X_2})(\bar {X}_1-\mu_{X_1})\right]=0$$

따라서, 새로운 확률변수$D$의 표본평균($\bar D$) 표집의 분산($\sigma_{\bar D}^2$)은 다음과 같습니다.

$$\sigma_{\bar D}^2 = \sigma_{{\bar X}_1}^2 + \sigma_{{\bar X}_2}^2 = \dfrac{\sigma_{X_1}^2}{n_1}+\dfrac{\sigma_{X_2}^2}{n_2}$$
$${\rm Var}[\bar D]= \dfrac{\sigma_{X_1}^2}{n_1}+\dfrac{\sigma_{X_2}^2}{n_2}$$

여기서, ${\rm \sigma}_{X_1}^2$과  ${\sigma}_{X_2}^2$은 두 집단의 모분산

따라서, 새로운 확률변수($D$)의 표본평균($\bar D$) 표집의 표준편차는 다음과 같습니다.

$$\sigma_{\bar D}= \sqrt{\dfrac{\sigma_{X_1}^2}{n_1}+\dfrac{\sigma_{X_2}^2}{n_2}}$$

여기서, ${\rm \sigma}_{X_1}^2$과  ${\sigma}_{X_2}^2$은 두 집단의 모분산

독립표본 $t$검정은 다음과 같이 두 집단의 모분산의 같고 다름에 따라 두 가지가 있습니다. 그리고 두 가지 모두, 평균으로 검정하는 모수적 검정(parametric test)입니다.

1) 스튜던트 $t$검정(Student’s t-test): 두 집단의 모분산을 동일하다고 추정할 때(등분산, equal variance)
2) 웰치 $t$검정(Welch’s t-test): 두 집단 의 모분산이 동일하지 않다고 추정할 때(unequal variance)

스튜던트 t검정

스튜던트 $t$ 검정(Student’s t-test)은 두 집단의 모분산이 동일(등분산, equal variance)하다고 추정할 때 사용합니다.

두 집단을 나타내는 Notation

집단모평균모분산표본크기표본표본평균표본분산
집단 1$\mu_{X_1}$$\sigma_{X_1}^2$$n_1$$\begin{array}{cccc}{{x}_{11}}&{{x}_{12}}&{\cdots}&{{x}_{1{n}_{1}}}\end{array}$${\bar{X}}_{{1}}$$S_{X_1}^2$
집단 2$\mu_{X_2}$$\sigma_{X_2}^2$$n_2$$\begin{array}{cccc}{{x}_{21}}&{{x}_{22}}&{\cdots}&{{x}_{2{n}_{2}}}\end{array}$${\bar{X}}_{{2}}$$S_{X_2}^2$

두 집단의 모분산은 대부분 알 수 없으므로 표본분산의 관측값으로 추정하여 검정을 진행합니다. 두 집단이 정규분포를 따르고 모분산이 같다는 가정 하에 두 모평균의 차이가 $D_{0}$라는 가설검정은 다음과 같은 검정통계량(test statistic)을 사용합니다.

$$t=\dfrac{({\bar X}_2-{\bar X}_1)-(\mu_2 – \mu_1)}{\sqrt{\dfrac{S_p^2}{n_1}+\dfrac{S_p^2}{n_2}}}=\dfrac{({\bar X}_2-{\bar X}_1)-D_0}{\sqrt{\dfrac{S_p^2}{n_1}+\dfrac{S_p^2}{n_2}}}=\dfrac{{\bar D}-D_0}{\dfrac{S_p^2}{\sqrt{\dfrac{{n_1}{n_2}}{n_1+n_2}}}}$$

여기서,  $S_{p}^{2}=\dfrac{(n_{1}-1)S_{X_1}^{2}+(n_{2}-1)S_{X_2}^{2}}{n_{1}+n_{2}-2}$

$$S_{p}^{2}=\dfrac{\sum\limits_{i=1}^{n_1}(X_{1i} – \bar {X_1})^2+\sum\limits_{i=1}^{n_2}(X_{2i} – \bar {X_2})^2}{n_{1}+n_{2}-2}$$

$\bar D$ 표집의 표준편차를 구하면

$$\sigma_{\bar D} = \sqrt{{\rm Var}[\bar D]}= \sqrt{{\rm Var}(\bar X_2 – \bar X_1)}=\sqrt{\dfrac{\sigma_{X_1}^2}{n_1}+\dfrac{\sigma_{X_2}^2}{n_2}}∼\sqrt{\dfrac{S_p^2}{n_1}+\dfrac{S_p^2}{n_2}}$$

$\bar D$ 의 표준오차는  $\bar D$ 표집의 표준편차와 같습니다.

$$\sigma_{\bar D} = {\rm SE}(\bar D)$$

$S_{p}^{2}$은 모분산의 추정량으로 $S_{1}^{2}$과 $s_{2}^{2}$의 표본의 크기에 가중치를 주어 모분산을 추정한 것으로 공통분산(pooled variance)이라 합니다. 즉, 공통분산은 두 집단의 모분산이 같다고 가정했으므로 두 표본분산의 관측값의 표본크기에 비례한 가중평균이 됩니다. 위의 통계량은 자유도가  $((n_1-1)+(n_2-1))$인 $t$분포를 하는데 이를 이용하여 두 집단의 모평균의 차이에 대한 검정을 행합니다. 두 집단의 모분산이 같은 경우는 스튜던트 $t$검정을 행하고 다른 경우는 웰치 $t$검정을 행합니다.

표본의 크기가 충분히 크면 (${n}_{1}{>}{30}{, }{n}_{2}{>}{30}$) $t$분포는 표준정규분포에 근사하므로, $t$분포 대신에 표준정규분포($Z$분포)를 사용할 수도 있습니다.

독립된 두 집단의 모평균 차이를 가설검정하는데 있어 다음 검정표는 두 집단이 정규분포를 따르고, 모분산이 같은 경우의 가설검정을 나타냅니다.

두 모평균의 차이 $t$검정표 – 독립표본 – 집단이 정규분포 – 등분산가정 : 스튜던트 $t$검정

귀무가설($H_0$)검정통계량의 값대립가설($H_1$)귀무가설 기각역
$\mu_{X_2} – \mu_{X_1}=D_0$

$$\dfrac{(\bar{X}_2-\bar{X}_1)-D_0}{\sqrt{\dfrac{S_P^2}{n_1}+\dfrac{S_P^2}{n_2}}}$$

여기서,  $S_p^2=\dfrac{(n_1-1)S_{X_1}^2+(n_2-1)S_{X_2}^2}{n_1+n_2-2}$

$\mu_{X_2} – \mu_{X_1} \gt D_0$$t<-t(n-2 \,\, ; \,\, \alpha )$
$\mu_{X_2} – \mu_{X_1} \lt D_0$$t>-t(n-2 \,\, ; \,\, \alpha)$
$\mu_{X_2} – \mu_{X_1} \ne D_0$$\left|t\right|>-t(n-2 \,\, ; \,\, \frac{\alpha}{2})$

웰치 t검정

웰치 $t$검정(Welch’s t-test)는 두 집단의 모분산이 달라 표본분산이 다른(unequal variance) 경우에 사용합니다.

두 집단의 모분산이 달라 두 표본분산이 다른 경우는 다음과 같이 두 가지가 있을 수 있습니다.

1) 변수가 명목척도나 순위척도로 표현되는 범주형변수여서 분산자체가 없는 경우
2) 변수가 간격척도나 비례척도로 표시되는 연속형변수지만 간격이 다른 경우

두 집단의 모분산이 다를 경우, 정규분포를 따르더라도 다음식으로 표현되는 검정통계량은 $t$분포를 따르지 않습니다.

$$\dfrac{\bar{X_2}-\bar{X_1}}{\sqrt{\dfrac{S_{X_1}^{2}}{n_1}+\dfrac{S_{X_2}^{2}}{n_{2}}}}$$

두 집단의 모분산이 다른 경우의 두 집단의 모평균의 가설검정을 Behrens-Fisher 문제라고 합니다. 이 문제를 해결하기 위해  대개 근사적으로 자유도 ${\rm \phi}$인 $t$분포를 이용하여 가설검정을 하는 Satterthwaite 방법을 사용합니다. 여기서 자유도 ${\rm \phi}$는 다음과 같이 계산합니다.

$$\phi=\dfrac{\left(\dfrac{S_{X_1}^2}{n_1}+\dfrac{S_{X_2}^2}{n_2}\right)^2}{\dfrac{{\left(\dfrac{S_{X_1}^2}{n_1}\right)}^2}{n_1-1}+\dfrac{{\left(\dfrac{S_{X_2}^2}{n_2}\right)}^2}{n_2-1}}$$

두 모평균의 차이 $t$검정표 – 독립표본 – 집단이 정규분포 – 등분산가정 안함 : 웰치 $t$검정

귀무가설($H_0$)검정통계량의 값대립가설($H_1$)귀무가설 기각역
$\mu_{X_2} – \mu_{X_1}=D_0$

$$\dfrac{(\bar{X}_2-\bar{X}_1)}{\sqrt{\dfrac{S_{X_1}^2}{n_1}+\dfrac{S_{X_2}^2}{n_2}}}$$

여기서, 지유도는 $\phi$

$\phi=\dfrac{\left(\dfrac{S_{X_1}^2}{n_1}+\dfrac{S_{X_2}^2}{n_2}\right)^2}{\dfrac{{\left(\dfrac{S_{X_1}^2}{n_1}\right)}^2}{n_1-1}+\dfrac{{\left(\dfrac{S_{X_2}^2}{n_2}\right)}^2}{n_2-1}}$

$$\mu_{X_2}-\mu_{X_1}\gt D_0$$$$\dfrac{(\bar{X}_1-\bar{X}_2)}{\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}}\gt t_{n_1+n_2-2 \,\, {\rm or} \,\,  \phi\ \,\, ; \,\, \alpha}$$
$$\mu_{X_2}-\mu_{X_1}\lt D_0$$$$\dfrac{(\bar{X}_1-\bar{X}_2)}{\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}}\lt t_{n_1+n_2-2 \,\, {\rm or} \,\,  \phi\ \,\, ; \,\, \alpha}$$
$$\mu_{X_2}-\mu_{X_1}\ne D_0$$$$\dfrac{(\bar{X}_1-\bar{X}_2)}{\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}}\gt t_{n_1+n_2-2 \,\, {\rm or} \,\,  \phi\ \,\, ; \,\, \ \frac{\alpha}{2}}$$

t검정과 F검정 비교

표본크기가 n인 표본에서 모수가 (n-1)인 t검정과 모수가 (1, n-1)인 F검정을 비교할 수 있습니다.

확률변수, 등분산가정, 귀무가설

확률변수
$$\bar D = \bar {X}_2 – \bar {X}_1$$

등분산가정
$$\sigma^2=\sigma_1^2=\sigma_2^2$$

귀무가설 $H_0$
$$\mu_2 – \mu_1 = \bar {X}_2 – \bar {X}_1 = 0$$

$t_{\nu}^2$와 $F_{1, \nu}$가 같음을 증명

$$\eqalign{t_\nu^2 &= \dfrac{\left(\bar{X}_2-\bar{X}_1\right)^2}{\dfrac{S_p^2}{n_1}+\dfrac{S_p^2}{n_2}} \cr &= \dfrac{\left(\bar{X}_2-\bar{X}_1\right)^2\dfrac{n_1 n_2}{\left(n_1+n_2\right)}}{S_p^2} \cr &= \dfrac{\dfrac{\bar{D}^2 n_1 n_2}{\left(n_1+n_2\right)}}{S_p^2} \cr &= \dfrac{MS_{Tr}}{MS_E} \cr &= F_{1, \nu_E} \Longleftarrow \nu=\nu_E=(n_1+n_2-2) \cr &= F_{1, \nu}}$$

확률변수($\bar D$)의 $Z$변환

$$\eqalign{Z_{\bar{D}} &= \dfrac{\bar{D}}{SE\left(\bar{D}\right)} \cr &= \dfrac{\bar{D}}{\sigma_{\bar{D}}} \Longleftarrow \sigma_{\bar{D}} = \sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} = \sigma\sqrt{\dfrac{n_1 + n_2}{n_1 n_2}} \Longleftarrow  \sigma^2 = \sigma_1^2 = \sigma_2^2 \cr &= \left(\dfrac{\bar{D}}{\sigma}\right)\sqrt{\dfrac{n_1 n_2}{n_1 + n_2}} \Longleftarrow H_0 : \mu_2 – \mu_1 = \bar{X}_2 – \bar{X}_1 = 0 }$$

모수로 자유도 $\nu$를 가지는 확률분포 $t_{\nu}$의 확률변수, $t$

$$\eqalign{t_\nu &= \dfrac{Z_{\bar{D}}}{\sqrt{\dfrac{V}{\nu}}} \cr &= \dfrac{\left(\dfrac{\bar{D}}{\sigma}\right)\sqrt{\dfrac{n_1n_2}{n_1 + n_2}}}{\sqrt{\dfrac{V}{\nu}}}}$$

확률변수, $t$의 제곱, $t^2$

$$\eqalign{t_\nu^2 &= \dfrac{Z_{\bar{D}}^2}{\dfrac{V}{\nu}} = \left(\dfrac{\bar{D}^2}{\sigma^2}\right) \dfrac{nn_2}{n_1 + n_2} \left(\dfrac{V}{\nu}\right) \Longleftarrow V = \dfrac{\left(\nu_1 S_1^2 + \nu_2 S_2^2\right)}{\sigma^2} = \dfrac{\left(S_p^2\right)}{\sigma^2} = \left(\dfrac{S_p^2}{\sigma^2}\right)\nu \cr &= \left(\dfrac{\bar{D}^2}{S_p^2}\right) \dfrac{nn2}{n_1 + n_2} \Longleftarrow S_p^2 = \dfrac{\left(\nu_1 S_1^2 + \nu_2 S_2^2\right)}{\nu} = \sigma^2 = MS_E \cr &= \bar{D}^2 \dfrac{\dfrac{nn_2}{n_1 + n_2}}{MS_E} \cr &= \dfrac{MS_{Tr}}{MS_E} \cr &= F_{1, \nu_E} \Longleftarrow \nu = \nu_E = \left(n_1 + n_2 -2\right) \cr &= F_{1, \nu} }$$

통합표본분산과 오차제곱합이 같음을 증명

$$\eqalign{S_p^2 &= \dfrac{\left(n_1 – 1\right)S_1^2+\left(n_2 – 1\right)S_2^2}{n_1 + n_2 – 2} \cr &= \dfrac{\left(\left(X_{1_1}-\bar{X}_1\right)^2 + \cdots + \left(X_{{n1}_1}+\bar{X}_1\right)^2\right) + \left(\left(X_{1_2}-\bar{X}_2\right)^2 + \cdots + \left(X_{{n2}_2}+\bar{X}_2\right)^2\right)}{\left(n_1 + n_2 -2\right)} \cr &= \dfrac{SS_E}{\nu_E} \Longleftarrow \nu = \nu_E = \left(n_1 + n_2 – 2\right) \cr &= MS_E }$$

Terminology

자유도

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는 값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면, 표본분산은 표본크기($n$)로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친 모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸 ($n-1$)의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

출처

Degrees of freedom (statistics) – Wikipedia

$p$값($p$-value, Probability value)

통계의 가설검정에서 $p$값(확률값)은 주어진 통계모델에 대하여 귀무가설이 참일 때 비교된 두 집단 간의 표본평균 차이의 절대값이 실제 관측값보다 크거나 같을 확률입니다. $p$값은 물리학, 경제학, 금융학, 인문학, 심리학, 생물학, 법학 및 사회과학과 같은 많은 분야의 연구에서 일반적으로 사용됩니다.
출처

p-value – Wikipedia

Reference

  1.  

본인의 Google 계정으로 구글시트를 복사

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균. 데이터를 모두 더한 후, 데이터 개수로 나눔. 산술평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=SQRT(S3) : 제곱근. S3 값의 제곱근.

=T.DIST.2T(V3,W3) : 확률밀도. t분포 상에서 확률변수의 양측 확률밀도. V3 확률변수에 대해 W3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.

=T.INV(1-(AA3/AB3),W3) : 확률변수. 확률밀도에 해당하는 확률변수를 구함. W3를 자유도로 하는 t분포 상에서 1-(AA3/AB3)의 누적확률밀도로 하는 확률변수 값을 표시함.

=IF(Z3>AC3,”YES”,”NO”) : 조건문. Z3의 값이 AC3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.

=T.DIST(AF3,W3,FALSE) : 확률밀도. W3를 자유도로 하는 t분포 상에서 AF3 확률변수의 확률밀도. FALSE 대신 TRUE를 입력하면 누적확률밀도를 계산함.

[DATA SCIENCE]

[PROJECT BASED LEARNING]