Learning DATALINK

[DATA SCIENCE]

데이터사이언스 > 모델링 > 새확률변수 > 정규분포 관련 확률분포

정규분포인 한우 도체중의 범주형 원인변수에 대한 F검정과 t검정

한 집단의 평균과 분산은 서로 독립적인 모수(매개변수, parameter)
한 전체집단에 속하여 등분산인 모집단의 표본집단 3개에 서로 다른 중재(Intervention, 처치, Treatment)가 적용되어 각 집단의 평균이 이동함을 모델링, 한 전체집단에 속하여 등분산이지만 속성이 다른 집단 3개에 같은 중재(Intervention, 처치, Treatment)가 적용되어 각 집단의 평균이 이동함을 모델링
한 전체집단에 속하여 등분산인 집단 3개의 평균이 같다는 가설을 검정하기 위해 새로운 확률변수 F를 모델링
한 전체집단에 속하여 등분산인 집단 3개가 1:2:1의 빈도수 비율을 가지는 경우를 모델링 - 표본에서는 전체표본을 이루는 각 독립표본의 자유도를 고려
표1

[Q&A]

집단이 2개일 경우, 일원분산분석에서 계산되는 F값은 독립표본 t검정에서의 t값의 제곱과 같게 됩니다. 두 검정 방법이 같은 통계적 추정치를 사용하여 두 집단 간의 차이만을 평가.

ARTICLE CONTENTS

F-test and t-test for categorical causal variables in normally distributed Hanwoo carcass weight

Seung Hwan Lee

Seung Hwan Lee

Chungnam National University, Daejeon, Republic of Korea

Lee SH. 2024. F-test and t-test for categorical causal variables in normally distributed Hanwoo carcass weight. DataLink, s2-2-3.

Received: 31 May 2024, Revised: 12 June 2024, Accepted: 12 June 2024, Published: 14 June 2024

DOI : 10.12972/DATALINK.s2-2-3

DataLink, s2-2-3.

PDF

요약

한우의 도체중은 연속형 확률변수로 정규분포를 따릅니다. 따라서 모집단의 도체중은 정규분포를 나타냅니다. 모집단내의 집단 수를 k로 하고 각 집단의 분산은 동일하다고 가정합니다. 표본은 한우 n마리를 무작위로 추출하여 모집단을 대표합니다. 자유도는 표본내 개체와 집단에 적용되어, 표본내 집단의 자유도는 (k-1), 표본내 개체의 자유도는 (n-k)가 됩니다. 변동은 집단의 변동(신호)과 집단내 개체의 변동(노이즈)으로 나눌 수 있으며, 변동과 자유도로 집단의 분산(집단간분산)과 개체의 분산(집단내분산)을 계산합니다. 이 집단간분산과 집단내분산의 비는 F분포를 따릅니다. 독립된 두 집단의 평균차이를 검정할 때, t분포를 따르는 t통계량의 제곱은 F분포를 따릅니다. t분포의 모수인 자유도와 F분포의 분모의 모수인 자유도는 같고 F분포의 분자의 자유도는 1입니다.

Key Word

개체, 집단, 모집단, 표본, 정규분포, 카이제곱분포, F분포, t분포

모델링: 확률모델

개체(individual)

  • 개체: 한우
    • 한우의 도체중 -> 한우의 연속형 속성 -> 결과변수 -> 확률변수
      • 한우의 도체중 = $\{Y\mid Y는 양의 실수 \}$
        • 한우 도체중은 확률변수: 독립동일분포 가정 (Independent Identificate Distribution)
          • 독립동일분포의  확률분포형태: 정규성 가정 -> 정규분포
            • 한우 도체중의 기대값: 평균 (정규분포함수의 매개변수)
            • 한우 도체중의 분포값의 기대값: 분산 (정규분포함수의 매개변수)

집단(group, category)

  • 집단: 지역
    • 한우의 산지 -> 한우의 범주형 속성 -> 원인변수
      • 한우의 산지 = $\{ A, B, C \}$
        • 집단의 수: $k=3$
          • 개체는 집단의 한 곳에만 속함: 집단의 독립성 가정
          • 각 집단에서 도체중의 분산은 동일: 등분산 가정
            • 각 집단에서 도체중의 분포: 정규분포
  • 집단: 출생년도
    • 한우의 출생년도 -> 한우의 범주형 속성 -> 원인변수
      • 한우의 출생년도 = $\{ 2011년, 2012년 \}$
        • 집단의 수: $k=2$
          • 개체는 집단의 한 곳에만 속함: 집단의 독립성 가정
          • 각 집단에서 도체중의 분산은 동일: 등분산 가정
            • 각 집단에서 도체중의 분포: 정규분포

모델링: 통계모델

모집단(population)

  • 모집단(population): A, B, C지역의 모든 한우
    • 모집단의 도체중 분포: 정규분포(충분히 큰 모집단크기)
    • 모집단크기: $N$,  $N \rightarrow \infty$
    • 모집단내 각 집단에서 도체중의 분포: 정규분포
    • 모집단내 각 집단의 도체중의 분산은 동일: 등분산 가정
    • 개체는 모집단내 집단의 한 곳에만 속함: 집단의 독립성 가정
    • 모집단내 집단의 수: $k$
      • 모집단내 집단: A, B, C 지역, $k=3$
        • 모집단내 집단의 상대빈도(확률): $P_A, P_B, P_C$ 
        • $P_A+P_B+ P_C=1$
      • 모집단내 집단: 2011년, 2912년 출생년도, $k=2$
        • 모집단내 집단의 상대빈도(확률): $P_{2011}, P_{2012}$ 
        • $P_{2011}+P_{2012}=1$

표본(sample)

  • 표본:  모집단에서 무작위(랜덤)로 추출한 한우
    • 표본의 도체중 분포: 정규분포 (표본추출의 무작위, 충분히 큰 표본크기)
    • 표본크기: $n$
    • 표본내 각 집단에서 도체중의 분포: 정규분포 (표본추출의 무작위, 충분히 큰 표본크기)
    • 표본내 각 집단의 도체중의 분산은 동일: 등분산 가정
    • 개체는 표본내 집단의 한 곳에만 속함: 집단의 독립성 가정
    • 표본내 집단의 수: $k=3$
      • 표본내 집단: A, B, C지역
        • 표본내 집단의 크기: $n_A, n_B, n_C$
        • $n_A+n_B+ n_C=n$
      • 표본내 집단: 2011년, 2912년 출생년도, $k=2$
        • 표본내 집단의 크기: $n_{2011}, n_{2012}$ 
        • $n_{2011}+n_{2012}=n$

일변량 표본(univariate sample)의 자유도(degree of freedom) - 집단이 있는 경우

  • 개체가 $i$번째 집단으로 묶이면 $i$번째 집단이 생성되고 $i$번째 집단의 자유도는 1 $\rightarrow$ $i$번째 집단내 개체의 자유도는 1이 감소하여 ($n_i-1$) 
  • 표본내 개체의 자유도는 집단내 개체의 자유도의 합 $\rightarrow$ 표본내 개체의 자유도는 ($n-k$)
  • 집단이 표본집단(전체집단)으로 묶이면 표본집단이 생성되고 표본집단의 자유도는 1 $\rightarrow$ 표본내 집단의 자유도는 집단수에서 1이 감소하여 ($k-1$)이고, 또한, 표본의 자유도는 표본크기에서 1이 감소하여 ($n-1$) $\rightarrow$ 표본의 자유도는 표본내 집단의 자유도와 표본내 개체의 자유도의 합, $(n-1)=(k-1)-(n-k)$

단일표본(표본내 집단이 없는 경우)에서의 자유도

  • 표본내 개체의 수 (표본크기) = $n$
  • 표본내 개체의 자유도 (표본의 자유도) = $n-1$

대응표본(표본내 대응된 두 집단이 내재)에서의 자유도

  • 표본내 개체의 수 (표본크기) = $n$
  • 표본내 집단의 자유도 = $0$ : 귀무가설에서 집단은 1개
  • 표본내 개체의 자유도 (표본의 자유도) = $n-1$

독립표본(표본내 독립된 2개 이상의 집단이 내재)에서의 자유도

  • 표본내 개체의 수(표본크기) = $n$
    • 표본내 개체의 자유도 (표본의 자유도) = $n-1$
  • 표본내 집단의 수 = $k$
    • 표본내 집단의 자유도 (집단간 자유도) =$k-1$
  • 표본내 집단$i$의 개체의 수 = $n_i$ : $\sum\limits_{i=1}^{k}n_i=n$
    • 집단$i$내 개체의 자유도 (집단$i$의 자유도) = $n_i-1$
  • 집단내 개체의 자유도의 합 (집단내 자유도) = $\sum\limits_{i=1}^{k} (n_i-1)=\sum\limits_{i=1}^{k}n_i-k=n-k$
  • 표본의 자유도 = 집단간 자유도 + 집단내 자유도 = $(k-1)+(n-k)=n-1$

모델링: 새확률변수

표본변동(sample variation)의 분할

  • 표본내 집단의 변동과 표본내 개체의 변동으로 분할: 집단간변동과 집단내변동으로 분할
  • 범주형 원인변수에 의해 집단간변동이 나타나고 연속형 결과변수의 독립동일분포가정에 의해 집단내변동이 나타난다고 모델링

변동의 표준화: 카이제곱

확률변수인 집단간분산을 집단간분산의 모분산으로 표준화하면 자유도가 (집단수-1)인 카이제곱분포를 따르는 확률변수가 된다.

$$\dfrac{(k-1)s_B^2}{\sigma_B^2} \sim \chi^2_{k-1}$$

여기서, $k$는 집단수

$k-1$은 표본내 집단의 자유도

$s_B^2$은 집단간분산

$\sigma_B^2$은 집단간분산의 모분산

$(k-1)s_B^2$은 표본내 집단의 변동(집단간변동)

$\chi^2_{k-1}$은 $(k-1)$인 자유도를 매개변수로 하는 카이제곱분포

확률변수인 집단내변동을 집단내분산의 모분산으로 표준화하면 자유도가 (표본크기-집단수)인 카이제곱분포를 따르는 확률변수가 된다.

$$\dfrac{(n-k)s_W^2}{\sigma_W^2} \sim \chi^2_{n-k}$$

여기서, $n$은 표본크기

$k$는 집단수

$n-k$는 표본내 개체의 자유도

$s_W^2$은 집단내분산

$\sigma_W^2$은 집단내분산의 모분산 

$(n-k)s_W^2$은 표본내 개체의 변동(집단내변동)

$\sigma_W^2$은 집단내분산의 모분산

$\chi^2_{n-k}$은 $(n-k)$인 자유도를 매개변수로 하는 카이제곱분포

집단내분산에 대한 집단간분산의 비: F

표준화된 집단간변동은 확률변수이며 카이제곱분포를 따른다.

$$df_B \dfrac {s_B^2}{\sigma_B^2} \sim \chi^2_{df_B}$$

여기서, $df_B$는 표본내 집단의 자유도

$s_B^2$은 집단간분산: 표본의 집단내분산

$\sigma_B^2$은 모집단간분산: 모집단의 집단간분산

$\chi^2_{df_B}$는 $df_B$를 매개변수로 하는 카이제곱분포

표준화된 집단내변동은 확률변수이며 카이제곱분포를 따른다.

$$df_W \dfrac {s_W^2}{\sigma_W^2} \sim \chi^2_{df_W}$$

여기서, $df_W$는 표본내 개체의 자유도

$s_W^2$은 집단내분산: 표본의 집단내분산

$\sigma_W^2$은 모집단내분산: 모집단의 집단내분산

$\chi^2_{df_W}$는 $df_W$를 매개변수로 하는 카이제곱분포

등분산가정 : 모집단의 각 집단(1집단, 2집단, … , k집단 )의 분산이 같다.

$$\sigma_1^2=\sigma_2^2= \cdots= \sigma_k^2=\sigma_W^2$$

귀무가설 : 모집단의 각 집단(1집단, 2집단, … , k집단 )의 평균이 같다 $rightarrow$ 모집단의 집단의 평균과 모집단의 전체평균이 같다.

$$\mu_{Y_1}=\mu_{Y_2}^2= \cdots= \mu_{Y_k}=\mu_Y$$

모집단의 각 집단의 평균이 같다. $\rightarrow$ 모집단의 집단내분산은 집단간분산과 같다. $rightarrow$ 모집단의 집단내분산은 전체집단의 분산과 같다.

$$\sigma_W^2=\sigma_B^2=\sigma_Y^2$$

표본의 집단간분산/집단내분산은 새확률변수이며 F분포를 나타낸다.

$$F_{df_B, df_W}=\dfrac{\dfrac{s_B^2}{\sigma_B^2}}{\dfrac{s_W^2}{\sigma_W^2}}=\dfrac{s_B^2}{s_W^2}\sim \dfrac{MS_B}{MS_W}$$

확률변수가 정규분포인 경우 F분포를 나타내는 새확률변수

표본내 집단의 크기

변동자유도분산새확률변수

 $n=\sum\limits_{i=1}^{k}n_i$

여기서, $n$은 표본내 개체수

$k$는 표본내 집단수

$n_i$는 $i$번째 집단의 크기

표본내 집단의 변동

$SS_B$

 

표본내 개체의 변동

$SS_W$

 표본내 집단의 자유도

$df_B=k-1$

 

표본내 개체의 자유도

$df_W=n-k$

집단간분산

$MS_B=\dfrac{SS_B}{df_B}$

 

집단내분산

$MS_W=\dfrac{SS_W}{df_W}$

집단내분산에 대한 집단간분산의 비

$\dfrac{MS_B}{MS_W}$

데이터

한우의 연속형 속성과 범주형 속성 그리고 원인변수와 결과변수 그리고 확률변수

  • 개체: 한우
    • 개체의 연속형 속성(결과변수): 한우의 도체중
      • 결과변수의 변동: 도체중의 변동
    • 개체의 범주형 속성(원인변수): 한우의 출생년도, 한우의 출생지
      • 결과변수 변동의 분할: 원인변수에 의한 집단의 변동(신호, 처리)과 개체의 변동(노이즈, 오차)
        • 표본내 집단의 변동($SS_B$): 표본평균으로부터 집단평균의 편차의 제곱의 합
        • 표본내 개체의 변동($SS_W$): 각 집단내 개체의 변동의 합
          • 각 집단내 개체의 변동: 각 집단의 평균으로부터 개체의 편차의 제곱의 합

데이터분석: 일원분산분석 F검정

일원분산분석표

변동변동 표기
(Squared Sum)
자유도 표기
(degrees of freedom)
분산 표기
(Mean Squared)
$F$검정통계량
(F statistic)

표본내 집단의 변동

(Between variation)

집단간변동

$SS_B$

집단의 자유도

$df_B={k}-{1}$

집단간분산

$MS_B=\dfrac{SS_B}{k-1}$

$F_{0}=\dfrac{MS_B}{MS_W}$

표본내 개체의 변동

(Within variation)

집단내변동

$SS_W$

개체의 자유도

$df_W={n-k}$

집단내분산

$MS_W=\dfrac{SS_W}{n-k}$

표본의 변동

(Total variation)

표본내 총변동 = 표본내 집단의 변동 + 표본내 개체의 변동

총변동

$SS_T$

$SS_T=SS_B+SS_W$

총자유도

$df_T={n-1}$

$df_T=df_B+df_W$

표본분산

$MS_T=\dfrac{SS_T}{n-1}$

${df_T}\cdot{MS_T}={df_B}\cdot{MS_B}+{df_W}\cdot{MS_W}$

t검정과 F검정의 관계

독립표본 t검정과 일원분산분석 F검정

  • 일원분산분석은 2개 이상의 독립된 집단이 있는 독립표본에서 행한다.
  • 독립표본 t검정은 독립표본에서 독립된 집단이 2개 있는 경우이고 일원분산분석 F검정은 독립표본에서 독립된 집단이 2개 이상 있는 경우이다. 표본내에 독립된 집단이 2개 있는 경우에는 독립표본 t검정의 결과와 일원분산분석 F검정의 결과가 같다.
  • 독립표본에서 독립된 두 집단의 평균의 차이를 분석하는 것은 일원분산분석 F검정에서 독립된 두 집단의 평균의 분산을 분석하는 것과 같다.

독립표본에서 독립된 두 집단의 평균차이를 검정할 때, 다음식이 성립한다.

$$t = \dfrac{\bar{X}_1 – \bar{X}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}$$

$$t^2 = \dfrac{\bar{X}_1 – \bar{X}_2}{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}$$

독립표본에서 확률변수 t와 확률변수 F의 관계식은 다음과 같다. 증명은 “참고문헌 2 참조”

$$t_{n-2}^2=F_{1, n_1 + n_2 – 2}=F_{1, n-2}$$

여기서, $n$은 표본크기: $n=n_1+n_2$

$n_1$은 1번째 집단의 크기

$n_2$는 2번째 집단의 크기

대응표본 t검정과 F검정

  • 대응표본에서 집단은 2개이다. 집단이 대응되어 있으므로 1개의 집단이라고 볼 수 있으며 표본집단과 같게 된다. 따라서 표본내 집단의 자유도는 표본평균의 자유도와 같이 1이 된다.

대응표본에서 확률변수 t와 확률변수 F의 관계식은 다음과 같다.

$$t_{n-1}^2=F_{1, n-1}$$

여기서, $n$은 대응된 쌍의 수

확률변수 t와 확률변수 F의 일반화된 관계

확률변수 t와 확률변수 F분포의 관계를 일반화하면 다음과 같습니다

$$t^2_{\nu} \sim F_{1, \nu}$$
여기서, $\nu$는 자유도

집단평균에 대한 귀무가설에서 집단과 개체의 분산은 같은 것이 아닌 중첩

  • 독립표본 t검정에서 두 집단의 모평균의 차이가 없다는 귀무가설은 두 집단의 모평균이 같다는 것이다. 이 경우에도, 두 집단평균의 분산은 나타나며 이 분산은 개체의 분산에서 기인한 것이라고 볼 수 있다. 즉, 집단평균의 귀무가설 하에서 개체의 분산과 두 집단평균의 분산은 같은 것이 아닌 중첩되어 있다고 볼 수 있다.
  • 일원분산분석 F검정에서 여러 집단의 모평균의 차이가 없다는 귀무가설은 여러 집단의 모평균이 같다는 것이다, 이 경우에도 여러 집단평균의 분산은 나타나며 이 분산은 개체의 분산에서 기인한 것이라고 볼 수 있다. 즉, 집단평균의 귀무가설 하에서 개체의 분산과 여러 집단평균의 분산은 같은 것이 아닌 중첩되어 있다고 볼 수 있다.
  • 대응표본 t검정에서 대응된 두 집단의 차이가 주어진 값이라는 귀무가설은 두 집단의 대응된 개체의 차이는 주어진 값이라는 것이다. 이 경우에도 대응된 집단의 분산은 나타나며 이 분산은 개체의 분산에서 기인한 것이라고 볼 수 있다. 즉, 대응된 집단의 귀무가설 하에서 개체의 분산돠 대응된 집단평균의 분산은 같은 것이 아닌 중첩되어 있다고 볼 수 있다.

Terminology

분산분석(analysis of variance: ANOVA)

분산분석(Analysis of variance: ANOVA)은 표본내의 집단 평균 간의 차이를 분석하는 데 사용되는 통계모델 및 관련 추정 절차 (예 : 집단 간 및 집단 내 “변동”)의 모음입니다. 분산분석은 통계학자이자 진화생물학자 Ronald Fisher가 개발했습니다. ANOVA는 특정 변수의 관찰된 분산이 다양한 변동 요인에 기인하는 구성 요소의 분산으로 분할되는 전체 분산의 법칙(the law of total variance)에 기반합니다. 가장 단순한 형태로 ANOVA는 두 개 이상의 모집단 평균이 같은지에 대한 통계적 검정(statistical test)을 제공하므로 두 평균을 검정하는 $t$검정을 일반화한 것으로 볼 수 있습니다.

출처

Analysis of variance – Wikipedia

Reference

본인의 Google 계정으로 구글시트를 복사

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 산술평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 모든 데이터의 표본분산. 각 값과 산술평균과의 차이 제곱을 모두 더한 후, 데이터 개수-1(n-1)로 나눈 값.

=값 혹은 셀^2 : 제곱.

=SUM(J3:J62) : 합. J3에서 J62에 있는 모든 데이터의 합.

=COUNTUNIQUE(B3:B62) : 데이터 개수. B3에서 B62에 있는 데이터 중 중복되지 않는 데이터 개수.

=COUNT(A3:A62) : 데이터 개수. A3에서 A62에 있는 모든 숫자 데이터의 개수.

=F.DIST.RT(Q3,O3,O4) : 확률밀도. O3와 O4를 자유도로 가지는 F분포 상에서 Q3 우측의 확률밀도를 적분한 값.

=F.INV.RT(U3,O3,O4) : 확률밀도함수의 역함수. O3와 O4를 자유도로 가지는 F분포 상에서 어떤 값을 기준으로 우측의 확률밀도를 적분한 값이 U3가 되는 어떤 값.

=IF(T3>V3,“YES”,“NO”) : 조건문. T3가 V3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.

=F.DIST(Y3,O3,O4,FALSE) : 확률밀도. O3와 O4를 자유도로 가지는 F분포 상에서 Y3 값이 가지는 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함.

[DATA SCIENCE]