[DATA SCIENCE]
데이터사이언스 > 모델링 > 새확률변수 > 정규분포 관련 확률분포
Seung Hwan Lee
Chungnam National University, Daejeon, Republic of Korea
Lee SH. 2024. F-test and t-test for categorical causal variables in normally distributed Hanwoo carcass weight. DataLink, s2-2-3.
Received: 31 May 2024, Revised: 12 June 2024, Accepted: 12 June 2024, Published: 14 June 2024
DOI : 10.12972/DATALINK.s2-2-3
DataLink, s2-2-3.
한우의 도체중은 연속형 확률변수로 정규분포를 따릅니다. 따라서 모집단의 도체중은 정규분포를 나타냅니다. 모집단내의 집단 수를 k로 하고 각 집단의 분산은 동일하다고 가정합니다. 표본은 한우 n마리를 무작위로 추출하여 모집단을 대표합니다. 자유도는 표본내 개체와 집단에 적용되어, 표본내 집단의 자유도는 (k-1), 표본내 개체의 자유도는 (n-k)가 됩니다. 변동은 집단의 변동(신호)과 집단내 개체의 변동(노이즈)으로 나눌 수 있으며, 변동과 자유도로 집단의 분산(집단간분산)과 개체의 분산(집단내분산)을 계산합니다. 이 집단간분산과 집단내분산의 비는 F분포를 따릅니다. 독립된 두 집단의 평균차이를 검정할 때, t분포를 따르는 t통계량의 제곱은 F분포를 따릅니다. t분포의 모수인 자유도와 F분포의 분모의 모수인 자유도는 같고 F분포의 분자의 자유도는 1입니다.
개체, 집단, 모집단, 표본, 정규분포, 카이제곱분포, F분포, t분포
확률변수인 집단간분산을 집단간분산의 모분산으로 표준화하면 자유도가 (집단수-1)인 카이제곱분포를 따르는 확률변수가 된다.
$$\dfrac{(k-1)s_B^2}{\sigma_B^2} \sim \chi^2_{k-1}$$
여기서, $k$는 집단수
$k-1$은 표본내 집단의 자유도
$s_B^2$은 집단간분산
$\sigma_B^2$은 집단간분산의 모분산
$(k-1)s_B^2$은 표본내 집단의 변동(집단간변동)
$\chi^2_{k-1}$은 $(k-1)$인 자유도를 매개변수로 하는 카이제곱분포
확률변수인 집단내변동을 집단내분산의 모분산으로 표준화하면 자유도가 (표본크기-집단수)인 카이제곱분포를 따르는 확률변수가 된다.
$$\dfrac{(n-k)s_W^2}{\sigma_W^2} \sim \chi^2_{n-k}$$
여기서, $n$은 표본크기
$k$는 집단수
$n-k$는 표본내 개체의 자유도
$s_W^2$은 집단내분산
$\sigma_W^2$은 집단내분산의 모분산
$(n-k)s_W^2$은 표본내 개체의 변동(집단내변동)
$\sigma_W^2$은 집단내분산의 모분산
$\chi^2_{n-k}$은 $(n-k)$인 자유도를 매개변수로 하는 카이제곱분포
표준화된 집단간변동은 확률변수이며 카이제곱분포를 따른다.
$$df_B \dfrac {s_B^2}{\sigma_B^2} \sim \chi^2_{df_B}$$
여기서, $df_B$는 표본내 집단의 자유도
$s_B^2$은 집단간분산: 표본의 집단내분산
$\sigma_B^2$은 모집단간분산: 모집단의 집단간분산
$\chi^2_{df_B}$는 $df_B$를 매개변수로 하는 카이제곱분포
표준화된 집단내변동은 확률변수이며 카이제곱분포를 따른다.
$$df_W \dfrac {s_W^2}{\sigma_W^2} \sim \chi^2_{df_W}$$
여기서, $df_W$는 표본내 개체의 자유도
$s_W^2$은 집단내분산: 표본의 집단내분산
$\sigma_W^2$은 모집단내분산: 모집단의 집단내분산
$\chi^2_{df_W}$는 $df_W$를 매개변수로 하는 카이제곱분포
등분산가정 : 모집단의 각 집단(1집단, 2집단, … , k집단 )의 분산이 같다.
$$\sigma_1^2=\sigma_2^2= \cdots= \sigma_k^2=\sigma_W^2$$
귀무가설 : 모집단의 각 집단(1집단, 2집단, … , k집단 )의 평균이 같다 $rightarrow$ 모집단의 집단의 평균과 모집단의 전체평균이 같다.
$$\mu_{Y_1}=\mu_{Y_2}^2= \cdots= \mu_{Y_k}=\mu_Y$$
모집단의 각 집단의 평균이 같다. $\rightarrow$ 모집단의 집단내분산은 집단간분산과 같다. $rightarrow$ 모집단의 집단내분산은 전체집단의 분산과 같다.
$$\sigma_W^2=\sigma_B^2=\sigma_Y^2$$
표본의 집단간분산/집단내분산은 새확률변수이며 F분포를 나타낸다.
$$F_{df_B, df_W}=\dfrac{\dfrac{s_B^2}{\sigma_B^2}}{\dfrac{s_W^2}{\sigma_W^2}}=\dfrac{s_B^2}{s_W^2}\sim \dfrac{MS_B}{MS_W}$$
표본내 집단의 크기 | 변동 | 자유도 | 분산 | 새확률변수 |
$n=\sum\limits_{i=1}^{k}n_i$ 여기서, $n$은 표본내 개체수 $k$는 표본내 집단수 $n_i$는 $i$번째 집단의 크기 | 표본내 집단의 변동 $SS_B$
표본내 개체의 변동 $SS_W$ | 표본내 집단의 자유도 $df_B=k-1$
표본내 개체의 자유도 $df_W=n-k$ | 집단간분산 $MS_B=\dfrac{SS_B}{df_B}$
집단내분산 $MS_W=\dfrac{SS_W}{df_W}$ | 집단내분산에 대한 집단간분산의 비 $\dfrac{MS_B}{MS_W}$ |
변동 | 변동 표기 (Squared Sum) | 자유도 표기 (degrees of freedom) | 분산 표기 (Mean Squared) | $F$검정통계량 (F statistic) |
표본내 집단의 변동 (Between variation) | 집단간변동 $SS_B$ | 집단의 자유도 $df_B={k}-{1}$ | 집단간분산 $MS_B=\dfrac{SS_B}{k-1}$ | $F_{0}=\dfrac{MS_B}{MS_W}$ |
표본내 개체의 변동 (Within variation) | 집단내변동 $SS_W$ | 개체의 자유도 $df_W={n-k}$ | 집단내분산 $MS_W=\dfrac{SS_W}{n-k}$ | |
표본의 변동 (Total variation) 표본내 총변동 = 표본내 집단의 변동 + 표본내 개체의 변동 | 총변동 $SS_T$ $SS_T=SS_B+SS_W$ | 총자유도 $df_T={n-1}$ $df_T=df_B+df_W$ | 표본분산 $MS_T=\dfrac{SS_T}{n-1}$ ${df_T}\cdot{MS_T}={df_B}\cdot{MS_B}+{df_W}\cdot{MS_W}$ |
독립표본에서 독립된 두 집단의 평균차이를 검정할 때, 다음식이 성립한다.
$$t = \dfrac{\bar{X}_1 – \bar{X}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}$$
$$t^2 = \dfrac{\bar{X}_1 – \bar{X}_2}{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}$$
독립표본에서 확률변수 t와 확률변수 F의 관계식은 다음과 같다. 증명은 “참고문헌 2 참조”
$$t_{n-2}^2=F_{1, n_1 + n_2 – 2}=F_{1, n-2}$$
여기서, $n$은 표본크기: $n=n_1+n_2$
$n_1$은 1번째 집단의 크기
$n_2$는 2번째 집단의 크기
대응표본에서 확률변수 t와 확률변수 F의 관계식은 다음과 같다.
$$t_{n-1}^2=F_{1, n-1}$$
여기서, $n$은 대응된 쌍의 수
확률변수 t와 확률변수 F분포의 관계를 일반화하면 다음과 같습니다
$$t^2_{\nu} \sim F_{1, \nu}$$
여기서, $\nu$는 자유도
분산분석(Analysis of variance: ANOVA)은 표본내의 집단 평균 간의 차이를 분석하는 데 사용되는 통계모델 및 관련 추정 절차 (예 : 집단 간 및 집단 내 “변동”)의 모음입니다. 분산분석은 통계학자이자 진화생물학자 Ronald Fisher가 개발했습니다. ANOVA는 특정 변수의 관찰된 분산이 다양한 변동 요인에 기인하는 구성 요소의 분산으로 분할되는 전체 분산의 법칙(the law of total variance)에 기반합니다. 가장 단순한 형태로 ANOVA는 두 개 이상의 모집단 평균이 같은지에 대한 통계적 검정(statistical test)을 제공하므로 두 평균을 검정하는 $t$검정을 일반화한 것으로 볼 수 있습니다.
출처
본인의 Google 계정으로 구글시트를 복사
=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 산술평균.
=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 모든 데이터의 표본분산. 각 값과 산술평균과의 차이 제곱을 모두 더한 후, 데이터 개수-1(n-1)로 나눈 값.
=값 혹은 셀^2 : 제곱.
=SUM(J3:J62) : 합. J3에서 J62에 있는 모든 데이터의 합.
=COUNTUNIQUE(B3:B62) : 데이터 개수. B3에서 B62에 있는 데이터 중 중복되지 않는 데이터 개수.
=COUNT(A3:A62) : 데이터 개수. A3에서 A62에 있는 모든 숫자 데이터의 개수.
=F.DIST.RT(Q3,O3,O4) : 확률밀도. O3와 O4를 자유도로 가지는 F분포 상에서 Q3 우측의 확률밀도를 적분한 값.
=F.INV.RT(U3,O3,O4) : 확률밀도함수의 역함수. O3와 O4를 자유도로 가지는 F분포 상에서 어떤 값을 기준으로 우측의 확률밀도를 적분한 값이 U3가 되는 어떤 값.
=IF(T3>V3,“YES”,“NO”) : 조건문. T3가 V3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.
=F.DIST(Y3,O3,O4,FALSE) : 확률밀도. O3와 O4를 자유도로 가지는 F분포 상에서 Y3 값이 가지는 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함.