[DATA SCIENCE]
데이터사이언스 > 데이터분석 > 두 모집단 비교 > 두 모평균 비교
쌍을 이루는 데이터의 차이와 두 모집단의 평균차이
대응표본은 시간의 경과나 환경 변화로 인해 한 집단 내 변화를 분석할 때 사용됩니다. 대응표본 t검정은 두 모집단의 평균 차이를 알지 못하는 상황에서 표본 데이터를 기반으로 평균 차이를 검증합니다. t검정은 모분산이 알려지지 않았을 때 적용되며, 귀무가설(두 집단 간 평균 차이가 없음)과 대립가설(두 집단 간 평균 차이가 있음)을 설정하여 하나를 채택하고 다른 하나를 기각하는 방식으로 진행됩니다. 대응표본 t검정은 특히 개인별 전후 비교가 필요한 실험에서 유용하게 사용되며, 예를 들어, 특정 활동이 개인의 능력에 미치는 영향을 평가할 때 적합합니다. 이를 통해 동일한 대상자에 대한 전후 상태를 비교하여 활동의 효과를 분석합니다. 대응표본 t검정은 쌍을 이루는 데이터의 차이를 새로운 확률변수로 보고, 이 차이의 평균과 분산을 통해 두 모집단의 평균차이에 대한 추론을 가능하게 합니다. 이 과정에서 대응표본 평균과 분산을 구하고, 이를 바탕으로 검정통계량을 계산하여 가설 검정을 수행합니다.
대응표본, t검정, 전후상태비교, 차이의 평균과 분산, 두 집단의 평균차이, 가설검정
대응된 두 집단의 모평균 비교에는 대응표본 t검정이 적용될 수 있습니다. 예를 보면, 시간이 지남에 따라 또는 환경 조건이 변화하였을 때 한 집단을 사전과 사후의 집단으로 구분하여 변화했는지 안했는지를 알아보는 것입니다. 그리고 t검정은 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 측정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법입니다. $t$검정은 다른 검정과 마찬가지로 “두 집단간 평균 차이가 없다”는 귀무가설(null hypothesis, 영가설)과 “두 집단의 평균에는 차이가 있다”라는 대립가설(alternative hypothesis) 중 하나가 채택되고, 다른 하나는 기각되는 방식으로 이뤄집니다.
두 모평균을 비교하는 가설검정에서 두 표본이 서로 독립적으로 추출된 경우가 있지만 어느 경우에는 두 표본을 독립적으로 추출하기가 힘들거나, 독립적으로 추출하였을 때 각 표본개체의 특성이 너무 차이가 나서 결과분석이 무의미할 때가 있습니다. 예를 들면, 초등학생에게 수학적 창의력(mathematical creativity)의 향상에 영향을 미친다고 보여지는 특정 보드게임을 하게 한 후 과연 이 보드게임이 학생의 수학적 창의력을 증가시켰는지 알아보고자 할 때 입니다. 보드게임 전과 보드게임 후에 서로 다른 학생들의 수학적 창의력을 측정하여 비교하면 개인의 차가 심하기 때문에 보드게임의 효과를 측정하기가 어렵습니다. 이러한 경우 어떤 학생의 보드게임 전의 수학적 창의력에 대응하여, 같은 학생의 보드게임 후의 수학적 창의력을 측정하여 대응비교(paired comparison)하면 보드게임의 효과를 효과적으로 나타낼 수가 있습니다.
정리하면 한번 추출된 표본의 실험전과 실험후에 같은 요소를 대응시켜 짝을 만들고 확률변수값의 편차를 확률변수로 합니다. 짝이 된 두 값의 편차로 두 모집단의 평균의 변화를 검정하는 방법을 대응표본 t검정(paired sample t-test)이라고 합니다.
대응된 확률변수($X$)의 차이로 생성된 새로운 확률변수입니다.
$$D = X_2 – X_1 $$
$$d_{i} =x_{i}^{after} – x_{i}^{before} $$
집단1($x_{i1}$)과 집단2($x_{i2}$)에서 쌍(pair)을 맺어 대응비교를 합니다.
$$x_{11} ↔ x_{12}$$
$$x_{21} ↔ x_{22}$$
$$\cdot$$
$$\cdot$$
$$\cdot$$
$$x_{n1} ↔ x_{n2}$$
다음과 같이 $n$쌍(pair)의 편차($x_{i2}-x_{i1}=d_{i}$)가 새로운 확률변수($D$)가 됩니다.
$$d_{1}=x_{12}-x_{11}$$
$$d_{2}=x_{22}-x_{21}$$
$$\cdot$$
$$\cdot$$
$$\cdot$$
$$d_{n}=x_{n2}-x_{n1}$$
두 집단이 원소별로 대응되었으므로 새로운 확률변수의 표본의 원소는 아래와 같이 표시할 수 있습니다.
$$d_i = x_{i2} – x_{i1}$$
여기서, $i$는 양의 정수
새로운 확률변수($D$)의 평균($\mu_D$)을 다음식으로 표현할 수 있습니다.
$$\mu_{D} = \mu_{X_2} – \mu_{X_1}$$
여기서, $\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$D$의 모분산은 다음식으로 표현할 수 있고 표본을 관측하여 추정합니다.
$$\sigma_D^2=\mathrm Var[D]=\mathrm Var[{d_i}]$$
$D$의 모표준편차는 모분산의 제곱근입니다.
$$\sigma_D=\sqrt{\mathrm Var[D]}=\sqrt{\mathrm Var[{d_i}]}$$
대응된 표본에서 두 모평균 차이$(\mu_{X_2} – \mu_{X_1})$에 대한 추론을 할 수 있습니다. 그러나 각 표본이 서로 독립이 아니므로 대응표본에서는 한 쌍을 이루는 두 관측값의 차이를 중심으로 분석합니다. 즉 원래 데이터 대신 차이값인 $D_1, D_2, \cdots, D_n$을 하나의 모집단에서 추출한 단일 랜덤표본으로 간주하여 분석을 하는 것입니다. 이 점이 독립표본에 대한 추론과 근본적으로 다른 개념입니다.
새로운 확률변수인 대응표본평균($\bar D$)
$$\bar D = {\bar X}_2 – {\bar X}_1$$
여기서, $\bar X_1$, $\bar X_2$는 두 집단의 표본평균
대응표본평균($\bar D$ or $\bar {d_i}$)은 다음과 같이 구할 수 있습니다.
$$\overline {d_i}= \dfrac{\sum\limits_{i=1}^n {d_i}}{n}$$
여기서, $n$은 표본크기
이 새로운 확률변수($\bar D$)의 기대값은 두 집단의 모평균의 차이와 같습니다.
$$\mathrm E[\bar D] = \mu_{D} = \mu_{X_2} – \mu_{X_1} ≈ \bar X_2 – \bar X_1$$
여기서, ≈ 는 점추정(point estimation)
$\mu_{D}$ 는 두 집단의 대응된 원소의 차이로 생성된 새로운 확률변수의 모평균
$\mu_{X_1}$, $\mu_{X_2}$는 두 집단의 모평균
$\bar X_1$, $\bar X_2$는 두 집단의 표본평균
대응표본평균 표집의 분산은 새로운 확률변수의 모분산을 표본크기로 나눈 것입니다.
$${\rm Var}[\bar {D}] = {\rm Var}[\overline {d_i}] = \dfrac{\sigma_{D}^2}{n}$$
여기서, $\sigma_{D}^2$ 새로운 확률변수의 모분산
집단의 변화 전, 후로부터 유도된 새로운 확률변수($D$)의 표본평균($\bar D$) 표집의 분산, ${\rm Var}[\bar {D}]$은 다음식으로 표현됩니다.
$${\rm Var}[\bar {D}] ={\rm Var}[\overline {d_i}] = \sigma_{\bar D}^2= \dfrac{\sigma_{D}^2}{n}≈ \dfrac{S_{D}^2}{n}$$
여기서, ≈은 점추정
$n$은 표본크기
대응표본평균 표집의 표준편차는 대응표본평균 표집의 분산의 제곱근입니다.
$$\sigma_{\bar D}= \dfrac{\sigma_{D}}{\sqrt{n}}≈\dfrac{S_{D}}{\sqrt{n}}$$
새로운 확률변수의 모분산(${\sigma_{D}}^2$)은 알 수 없지만 모분산의 점추정량인 대응표본분산(${S_D}^2$)은 다음식을 이용하여 구할 수 있습니다.
$$S_{D}^2 = \dfrac{\sum\limits_{i=1}^n (d_i-\overline {d_i})^2}{n-1}$$
여기서, $(n-1)$은 대응표본의 자유도
대응표본표준편차(${S_D}$)는 대응표본분산의 제곱근입니다.
$$S_{D} = \sqrt{ \dfrac{\sum\limits_{i=1}^n (d_i-\overline {d_i})^2}{n-1}}$$
여기서, $(n-1)$은 대응표본의 자유도
대응표본평균의 표준오차인 ${\rm SE}(\bar D)$는 대응표본평균 표집의 표준편차입니다.
$${\rm SE}(\bar D)=\sqrt{{\rm Var}[\bar D]}= \sigma_{\bar D} = \sqrt{\dfrac{\sigma_D^2}{n}}≈\sqrt{\dfrac{S_D^2}{n}}=\dfrac{S_D}{\sqrt{n}}$$
여기서, $D_0$는 귀무가설에서 제시된 대응된 확률변수의 차이
$S_{D}$는 대응표본표준편차 : $S_{D} = \sqrt{\dfrac{\sum\limits_{i=1}^n {(d_{i}-\overline {d_i})^2}}{n-1}}$
검정통계량을 구하면
$$t = \dfrac{(\bar X_2 – \bar X_1)-D_0}{\dfrac{S_D}{\sqrt{n}}}= \dfrac{\bar D -D_0}{\dfrac{S_D}{\sqrt{n}}}$$
여기서, $D_0$는 귀무가설에서 제시된 두 표본평균의 차이
$S_{D}$는 대응표본표준편차 : $S_{D} = \sqrt{\dfrac{\sum\limits_{i=1}^n {(d_{i}-\overline {d_i})^2}}{n-1}}$
대응표본 $t$검정 가설검정표
귀무가설$(H_0)$ | 검정통계량의 값 | 대립가설$(H_1)$ | 귀무가설 기각역 |
$$\mu_1-\mu_2=D_0$$ | $$t=\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}$$ | $$\mu_1-\mu_2\gt D_0$$ | $$\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}\gt t_{n-1\ ;\ \alpha}$$ |
$$\ \mu_1-\mu_2\lt D_0$$ | $$\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}\lt-t_{n-1\ ;\ \alpha}$$ | ||
$$\ \mu_1-\mu_2\ne D_0$$ | $$\left|\dfrac{\bar{D}-D_0}{\dfrac{S_D}{\sqrt{n}}}\right|\gt t_{n-1\ ;\ \frac{\alpha}{2}}$$ |
통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는 값들의 갯수입니다.
한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.
통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면, 표본분산은 표본크기($n$)로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친 모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸 ($n-1$)의 자유도를 가집니다.
수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.
출처
통계의 가설검정에서 $p$값(확률값)은 주어진 통계모델에 대하여 귀무가설이 참일 때 비교된 두 집단 간의 표본평균 차이의 절대값이 실제 관측값보다 크거나 같을 확률입니다. $p$값은 물리학, 경제학, 금융학, 인문학, 심리학, 생물학, 법학 및 사회과학과 같은 많은 분야의 연구에서 일반적으로 사용됩니다.
출처처
본인의 Google 계정으로 구글시트를 복사
=COUNT(F3:F22) : 데이터 개수. F3에서 F22에 있는 숫자로 표시된 데이터의 개수.
=AVERAGE(F3:F22) : 평균. F3에서 F22에 있는 데이터의 평균.
=VAR.S(F3:F22) : 표본분산. F3에서 F22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.
=STDEV.S(F3:F22) : 표본표준편차. F3에서 F22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.
=T.DIST.2T(O3,P3) : t분포 상에서 확률변수의 양측 확률밀도. O3 확률변수에 대해 P3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.
=T.INV(1-(T3/U3),H3-1) : 확률밀도에 해당하는 확률변수를 구함. H3-1을 자유도로 가지는 t분포 상에서 1-(T3/U3)의 누적확률밀도로 하는 확률변수 값을 표시함.
=IF(S3>V3,”YES”,”NO”) : 조건문, S3의 값이 V3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.