DATALINK

[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터시각화 > 개체의 시각화

한 범주형변수로 구분된 여러 집단 모평균 비교: 일원분산분석 F검정

한 집단의 평균과 분산은 서로 독립적인 모수(매개변수, parameter)
한 전체집단에 속하여 등분산인 모집단의 표본집단 3개에 서로 다른 중재(Intervention, 처치, Treatment)가 적용되어 각 집단의 평균이 이동함을 모델링, 한 전체집단에 속하여 등분산이지만 속성이 다른 집단 3개에 같은 중재(Intervention, 처치, Treatment)가 적용되어 각 집단의 평균이 이동함을 모델링
한 전체집단에 속하여 등분산인 집단 3개의 평균이 같다는 가설을 검정하기 위해 새로운 확률변수 F를 모델링
한 전체집단에 속하여 등분산인 집단 3개가 1:2:1의 빈도수 비율을 가지는 경우를 모델링 - 표본에서는 전체표본을 이루는 각 독립표본의 자유도를 고려
표1

[Q&A]

집단이 2개일 경우, 일원분산분석에서 계산되는 F값은 독립표본 t검정에서의 t값의 제곱과 같게 됩니다. 두 검정 방법이 같은 통계적 추정치를 사용하여 두 집단 간의 차이만을 평가.

ARTICLE CONTENTS

Comparison of several group means divided by one categorical variable: One-way ANOVA F-test

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

PDF

Abstract

일원분산분석은 범주형 독립변수와 연속형 종속변수 간의 관계를 분석하는 통계적 방법입니다. 예를 들어, ‘딸기 품종’에 따른 ‘당도’ 차이, ‘흡연 유무’에 따른 ‘생애 진료비’ 차이 등이 연구 주제가 될 수 있습니다. 이 방법은 독립변수의 범주 내에서 종속변수의 평균 차이가 통계적으로 유의미한지를 검정합니다. 분산분석은 주로 3개 이상의 집단 간 비교에 사용되며, 집단이 2개일 때도 적용 가능하나 일반적으로 t검정이 사용됩니다. 일원분산분석은 다음 세 가지 주요 가정을 기반으로 합니다. 정규성, 등분산성, 그리고 독립성. 가설 검정은 총변동을 집단 내 변동과 집단 간 변동으로 분해하여 집단 간 평균 차이의 유의성을 F값을 통해 평가합니다. 분석 결과가 유의미할 경우, 사후 분석을 통해 어느 집단 간에 차이가 있는지 구체적으로 파악합니다. 일원분산분석은 실험 디자인, 사회과학, 의료 연구 등 다양한 분야에서 폭넓게 활용됩니다.

Key Word

범주형, 연속형, 총변동, 집단, 모평균, 일원분산분석, F검정

집단을 연구

집단(group)은 범주(category)로도 표현됩니다. 범주는 개체(object)를 구분하며 구분된 개체의 집합을 집단이라고 합니다. 

집단의 이름은 범주형 변수의 값입니다. 집단의 속성이 집단의 이름으로 설명된다면 집단의 이름과 집단의 속성간에는 함수관계가 성립합니다. 집단의 속성을 종속변수로 보고  집단의 이름을 원인변수라고 봅니다. 이 함수는 집단에 따른 집단의 속성의 함수관계를 모델링 한 것입니다.

특별히 범주형 변수가  독립변수가 되고 연속형 확률변수가 결과(원인에 따른 반응)변수가 되는 연구주제를 살펴봅니다.

집단의 속성은 표본을 추출하여 표본에 속한 개체의 속성을 관측하여 알 수 있습니다. 종속변수로서 표본평균은 연속형 확률변수이고 모평균 을 점추정합니다.

집단에 따라 달라지는 집단속성의 모평균을 비교하는 연구주제의 예는 다음과 같습니다.

• ‘설향’, ‘아키히메’, ‘장희’의 ‘품종’에 따라 ‘딸기’의 ‘당도’는 다른가?

• ‘흡연’과 ‘비흡연’의  ‘흡연유무’에 따라 ‘사람’의 ‘생애진료비’는 다른가?

‘딸기’와 ‘사람’은 개체(객체, indivisual, object)의 이름입니다.  ‘품종’과 ‘흡연유무’는 원인변수(독립변수, 설명변수, 요인, 인자, factor,, 수준, level, 카테고리, category)의 이름입니다. ‘당도’와 ‘생애진료비’는 원인에 따라 달라지는 결과변수(종속변수, 반응변수)의 이름입니다. 

첫번째 예에서 원인변수는 변수명이 ‘품종’이고 변수값은 ‘설향’, ‘장희’, ‘아키히메’ 등 3개가 있습니다. 이 원인변수값은 개체가 속하는 범주의 이름을 나타내는 범주형데이터입니다. 그리고 결과변수의 이름은 ‘당도’이고 실수(real number)의 수체계를 가지는 확률변수로 모델링합니다. 이 결과변수값은 연속형데이터입니다.

두번째 예에서 원인변수는 변수명이 ‘흡연유무’이고 변수값은 ‘흡연’과 ‘비흡연’인 2개가 있습니다. 이 원인변수값은 개체가 속하는 범주의 이름을 나타내는 범주형데이터입니다. 특별히 ‘흡연유무’는 ‘흡연’과 ‘비흡연’이라는 변수값만 존재하는 2분형데이터입니다. 즉, ‘사람’이라는 개체는 ‘흡연’과 ‘비흡연’이라는 2개의 범주 중에 한 범주에는 반드시 속합니다. 그리고 결과변수는 ‘생애진료비’이고 실수(real number)의 수체계를 가지는 확률변수로 모델링합니다. 이 결과변수값은 연속형데이터입니다.

분산분석

분산분석(ANOVA, analysis of variance)이 사용되는 경우는 전체집단을 이루는 집단(group, 수준, level, 카테고리, category)이 3개 이상일 때, 각 잡단에서 추출한 표본통계량의 통계적 유의성을 확인할 때 입니다. 집단이 2개인 경우에도 사용할 수 있지만 집단이 2개인 경우는 주로 t검정을 사용하며 결과는 같습니다.

분산분석에 적용되는 변수의 척도를 살펴보면 다음과 같습니다.

결과변수(종속변수): 비율척도(키, 나이, 길이 부피, 시간) 또는 간격척도(온도, 시각, 만족도)

원인변수(독립변수): 명목척도 (성별, 학년, 연령, 번호)

분산분석은 원인이 되는 독립변수의 개수에 따라 일원(One-way), 이원(two-way), 다원(multi-way)으로 구분되고 결과가 되는 종속변수의 개수에 따라 한 개면 단일변량 분산분석, 두 개 이상이면 다변량 분산분석(MANOVA)로 구분합니다.

반면, t검정(t-test)은 모집단에서 추출한 표본이 1개 또는 2개인 경우에 행합니다. 모집단내 3개이상의 집단의 비교를 위해 각 집단에서 추출한 표본을 t검정에 사용하면, 다중검정문제 발생으로 1종 오류가 증가할 수 있기 때문입니다.

분산분석 방법

1) 원인(요인, 중재, 범주형 독립변수, factor, intervention)에 따라 집단(수준, 카테고리, level, category)을 구분하고 원인에 따라 구분된 각 집단의 모평균이 동일한 지를 표본평균을 이용하여 검정합니다. 각 집단의 모평균은 상수로 표본평균은 확률변수로 모델링합니다. 

2) 가설을 검정하기 위해 총변동을 원인(factor)에 의해 기인한 부분과 결과를 확률변수로 모델링하여 나타난 부분으로 분할합니다. 원인에 의해 기인한 부분은 집단(범주)의 변동을 의미하고 결과를 확률변수로 모델링하여 나타난 부분은 개체의 변동을 의미합니다. 원인변수에 의한 변동은 ‘집단간분산’으로 표현하며 확률변수로서의 결과변수의 변동은 ‘집단내분산’으로 표현합니다. ‘집단간분산’이 ‘집단내분산’보다 충분히 클 때 원인에 의해 집단의 모평균의 차이가 발생한다고 판단합니다. 신호(signal)가 되는 ‘집단간분산’과 잡음(오차, noise, error)가 되는 ‘집단내분산’의 비로 잡음에 대한 신호의 비로 새로운 확률변수가 만들어지며 표준화된 이 새로운 확률변수를 ‘$F$’로 표기합니다. 새로운 확률변수인 ‘$F$’의 확률분포를 사용하여 검정하는 F검정에서 0점은 ‘집단들의 모평균이 같다’는 귀무가설로 만들어 집니다. 

3) 분산분석은 ‘집단의 모평균을 같다(집단의 모평균의 차이가 0이다)’라는 귀무가설을 세우고 확률변수인 ‘집단간분산’과 확률변수인 ‘집단내분산’의 비를 ‘새로운 확률변수’로 하여 가설을 검정하는 방법입니다. 집단의 분산은 그 집단의 표본으로 추정합니다. 이때 ‘집단들의 집단’을 ‘모집단’으로 모델링하여 ‘모든 집단의 모분산이 같다’라는 ‘등분산  가정’을 합니다.

분산분석을 위한 가정

1) 정규성 가정 : 모든 집단은 정규분포를 나타낸다.

2) 등분산 가정 : 모든 집단의 모분산은 같다.

3) 독립성 가정 : 각 집단에서 추출하는 표본은 서로 독립이다.

일원, 이원, 다원 분산분석

전체집단을 이루는 집단들의 모평균을 비교하기 위하여 전체집단과 각 집단의 분산을 분석하는 것을 분산분석(ANOVA, analysis of variance)이라고 합니다.

분산분석중에서 전체집단을 이루는 집단이 한 개의 원인(요인, 인자, factor,, 수준, level, 카테고리, category)변수의 값으로 구분되는 경우, 일원분산분석(one-way ANOVA)이라고 합니다. 두 개의 원인변수의 값의 쌍으로 구분되는 경우를 이원분산분석(two-way ANOVA)라고 합니다. 3개 이상의 원인변수의 조합으로 구분되는 경우는 다원분산분석(Multi-way ANOVA)라고 합니다.

분산분석 구분

구분상세구분원인변수의 수결과변수의 수
단일변량 분산분석
ANOVA
일원분산분석 (One-way ANOVA)1개 (일원)1개
이원분산분석 (Two-way ANOVA)2개 (이원)
다원분산분석 (Multi-way ANOVA)3개 이상 (다원)
반복측정 분산분석 (Repeated measures ANOVA)1개 (일원)
2개 (이원)
1개
(대응표본수에 따른 종속변수값의 수는 2개 이상)
다변량 분산분석
MANOVA
MANOVA1개2개 이상

사후분석

분산분석은 보통 집단이 3개 이상인 경우에 실시합니다. 집단이 2개 일 때도 사용할 수 있지만 집단이 2개일 때는 주로 t검정을 사용합니다. 분산분석은 표본을 이용하여 집단간의 차이의 여부는 확인 가능하나 차이의 양은 확인이 불가능합니다. 따라서 사후분석을 통해 집단간의 유의성 여부를 확인합니다.

사후분석 방법

사후분석 방법설명
Tukey– 반복수가 동일하다는 가정하에 고안된 방법
-집단간의 차이를 정확히 파악
– 각 집단의 표본의 수가 같을 경우만 이용
Scheffe– 각 집단의 크기가 같지 않아도 사용가능
– 범위 이상의 넓은 신뢰구간 제시
Duncan– 등분산성과 반복수가 동일하다는 가정하에 고안된 방법
-차이를 검출하는 확률이 높아서 자주 사용
– 제 1종 오류의 발생빈도가 높음
Bonferroni– 각 집단의 크기가 같지 않아도 사용 가능
– 필요 이상으로 넓은 신뢰구간 제시

일원분산분석

일원분산분석(one-way ANOVA, one-way analysis of variance)은 3개 이상의 집단에 대해 독립변수가 1개인 경우 집단 간 종속변수의 대표값 차이를 비교할때 사용합니다.

일원분산분석을 위한 조건은 다음과 같습니다.

1. 종속변수는 양적 확률변수이고 간격 혹은 비례척도로 관측한다.

2. 확률변수인 종속변수의 모분산을 알지 못할 때 사용한다

3. 확률변수인 종속변수의 확률분포가 정규분포이어야 한다

4. 정규분포라는 가정이 충족되지 않으면 비모수 통계(non-parametric statistics)를 사용하여야 한다.

분산분석은 표본이 3개 이상인 경우 Z검정이나 t검정을 실시할 수 없을 때 주로 사용합니다. 분산분석은 표본들 간의 차이 여부는 확인가능하나 표본들 간의 양적인 차이는 알 수 없습니다.

분산의 양적인 차이를 분석하기 위하여 사후분석을 실시합니다. 사후분석을 통해 집단간의 유의성 여부도 확인합니다.

실제로 관측되는 결과변수(종속변수, 분석변수, 반응변수, response variable)의 값을 ‘변량’이라고 합니다. 결과변수는 대부분 양적 확률변수이고 이산형 보다는 연속형 확률변수입니다. 따라서 대부분 결과변수의 값은 연속형 데이터입니다. 그리고 원인변수(독립변수, 요인, 설명, 인자, factor)는 전체집단을 이루는 집단을 구분하며 대부분 범주형 변수입니다. 범주형 원인변수는 범주(카테고리, catetory)이며 범주형 원인변수의 값은 범주명이 됩니다. 원인변수의 값이 순서의 정보를 포함하면 그 원인변수를 수준(level)이라고 부르기도 합니다. 수준의 변수값의 개수를 ‘수준 수(number of level)’이라고 합니다. 범주나 수준의 이름의 개수는 관측대상인 집단에 속한 집단의 개수나 관측대상인 개체가 속하는 집단의 개수와 같습니다.

분산분석에서 결과변수(종속변수)가 ‘반응(response)’, 원인변수(독립변수)가 ‘요인(인자, factor)’으로 불라는 이유는 분산분석이 공학, 농학, 의학, 약학 등에서 실험에서 얻은 데이터를 분석하는 데 많이 이용되기 때문입니다. 분산분석 중에서 하나의 요인이 반응변수에 미치는 영향을 조사하는 경우를 일원분산분석(one-way ANOVA)이라고 합니다.

일원분산분석에서 한 전체집단 내 집단의 개수가 $k$ 개이고 각 집단에서의 관측값의 개수가 각각 $n_{1},n_{2},\cdots{,}n_{k}$개인 경우의 데이터는 다음과 같습니다. 전체집단에서 표본을 임의(random)로 추출하면 전체집단은 모집단이 됩니다. 표본은 전체집단을 이루는 집단의 정보가 포함됩니다. 전체집단을 이루는 집단의 개수는 표본에서의 독립표본의 개수와 같습니다.

일원분산분석 데이터(One-way ANOVA data)

범주형 원인변수로  구분

모평균모분산표본크기표본 관측값표본평균표본분산
집단 1$\mu_{Y_1}$$\sigma_{Y_1}^2$$n_1$$\begin{array}{cccc}{{y}_{11}}&{{y}_{12}}&{\cdots}&{{y}_{1{n}_{1}}}\end{array}$${\bar{Y}}_{{1}\cdot}$$S_{Y_1}^2$
집단 2$\mu_{Y_2}$$\sigma_{Y_2}^2$$n_2$$\begin{array}{cccc}{{y}_{21}}&{{y}_{22}}&{\cdots}&{{y}_{2{n}_{2}}}\end{array}$${\bar{Y}}_{{2}\cdot}$$S_{Y_2}^2$
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
집단 $k$$\mu_{Y_k}$$\sigma_{Y_k}^2$$n_k$$\begin{array}{cccc}{{y}_{k1}}&{{y}_{k2}}&{\cdots}&{{y}_{k{n}_{k}}}\end{array}$${\bar{Y}}_{{k}\cdot}$$S_{Y_k}^2$

일원분산분석 모델

일원분산분석은 범주형 변수로 구분되는 집단의 분산을 변동과 자유도로 나누어 모델을 만듭니다. 그리고 일원분산분석은 독립변수가 하나인 분산분석입니다. 우선 일원분산분석을 위한 전체집단 모형과 전체집단의 표본모델은 다음과 같습니다.

전체집단모델

$$Y_{ij}=\mu_{Y} + \epsilon_{ij} = \mu_{Y}+(\mu_{Y_i}-\mu_{Y})+(Y_{ij}-\mu_{Y_i})=\mu_{Y}+\alpha_{i}+{\varepsilon}_{ij}$$

여기서, $Y_{ij}$는 $i$번째 집단의 $j$번째 값

$\mu_Y$는 전체집단의 모평균

$\epsilon_{ij}$는 $i$번째 집단의 $j$번째 값($Y_{ij}$)과 전체집단의 모평균($\mu_Y$)과의 오차

$\mu_{Y_i}$는 $i$번째 집단의 모평균

$\alpha_i$는 $i$번째 집단의 모평균($\mu_{Y_i}$)과 전체집단의 모평균($\mu_Y$)과의 편차

$\varepsilon_{ij}$는 $i$번째 집단의 $j$번째 값($Y_{ij}$)과 $i$번째 집단의 모평균($\mu_{Y_i}$)과의 오차

$k$가 집단의 개수라면,  ${i}{=}{1}{,}{2}{,}\cdots{,}{k}$

$N_i$가 $i$번째 집단의 크기라면,  $j=1, 2, \cdots , {N_i}$

위에서 $n$은 전체 표본의 크기(각 집단 표본크기의 합)이고 $k$는 집단의 수입니다. $Y_{ij}$는 종속변수 $Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 $j$번째 관측값을 나타냅니다. 이 모델에서는 $i$번째 집단에서의 $Y$의 모평균 $\mu_{Y_{i}}$를  $\mu_Y{+}\alpha_{i}$로 나타내었는데 여기에서 $\mu_Y$는 $Y$의 전체 모평균을 나타내며, $\alpha_{i}$는 $(\mu_{Y_{i}}-\mu_Y{)}$로 이를 종속변수(반응변수)에 대한 $i$번째 집단의 효과(effect)라고 합니다.

오차항$\epsilon_{ij}$은 서로 독립이며, 평균이 0 이고 분산이 ${\sigma^{2}}$인 정규분포를 따른다고 가정합니다. 오차항 $\epsilon_{ij}$는 집단간의 차이가 아닌 다른 요인에 기인하는 종속변수(반응변수)의 변동을 나타내는 확률변수입니다.

전체집단의 표본모델

$$Y_{ij} = {\bar Y}+(\overline {Y_i}-\bar Y) + (Y_{ij}-{\overline {Y_i}})$$

<여기서, $Y_{ij}$는 $i$번째 집단의 $j$번째 관측값

$\bar Y$는 전체집단의 표본평균

$\overline {Y_i}$는 $i$번째 집단의 표본평균

$(\overline {Y_i}-\bar Y)$는 $i$번째 집단의 표본평균($\overline {Y_i}$)과 전체집단의 표본평균($\bar Y$)과의 편차

$ (Y_{ij}-{\overline {Y_i}})$는 $i$번째 집단의 $j$번째 관측값($Y_{ij}$)과 $i$번째 집단의 표본평균$\overline {Y_i}$과의 오차 : 잔차($X_{residual}$, $X_r$)

$k$는 집단의 개수라면,  ${i}{=}{1}{,}{2}{,}\cdots{,}{k}$

$n_i$가 $i$번째 집단의 표본크기라면,  $j=1, 2, \cdots , {n_i}$

전체집단의 표본의 표본크기($n$)와 전체집단을 이루는 $i$번째 집단의 표본크기($n_i$) 등식

$$n=\sum\limits_{i=1}\limits^{k}n_{i}$$

여기서, $n$은 전제집단의 표본크기

$n_i$는 i번째 집단의 표본크기

변동과 자유도

집단의 속성을 나타내는 측도(mearsure)로는 변동(variation)과 자유도(degree of freedom)가 있습니다. 분산분석을 위해 전체집단을 이루는 각 집단의 변동과 자유도를 구합니다. 집단의 변동은 집단의 평균에서의 편차제곱합입니다. 전체집단의 표본은 전체집단을 이루는 각 집단의 표본의 합집합입니다.

$$Y_{ij} – {\bar Y} = (\overline {Y_i}-\bar Y) + (Y_{ij}-{\overline {Y_i}})$$

윗 식에서 왼쪽 식과 오른쪽 식을 각각 제곱하여 전체표본크기만큼 합하면 다음식과 같습니다.

$$\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(Y_{ij}-\bar Y)^2 = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(\overline {Y_i}-\bar Y)^2 + \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i})^2$$

결과변수(반응변수, 종속변수)인 $Y$의 관측값들과 총평균 사이의 거리 제곱합으로 이를 총변동(total variation) 또는 총제곱합(total sum of squares, $SS_T$)이라 하고 다음과 같습니다.

$$SS_T=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{\cdot\cdot}})^2$$

$Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 관측값들의 평균 $\overline{Y_i}$은 전체집단의 모평균을 기준으로 $i$번째 집단의 변동을 나타낸 것입니다. 그러므로, 개개의 관측값 대신에 집단의 표본평균을 사용하여 총변동을 구하면(즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 $\overline{Y_{i\cdot}}$를 대입하면), 이는 집단의  변동을 나타냅니다. 이와 같은 변동을 집단간 변동(between variation)이라 하며 이 변동을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $SS_{Tr}$)이라 합니다. 각 집단간에 발생하는 변동은 다음식으로 표현합니다.

$$SS_{Tr}=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(\overline{Y_{i\cdot}}-\overline {Y_{\cdot\cdot}})^2=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}(\overline{Y_{i\cdot}}-\overline{Y_{\cdot\cdot}})^2$$

각 집단내에서 발생하는 변동의 합은 다음과 같습니다.

$$SS_E=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{i\cdot}})^2$$

각 집단내의 변동을 집단내 변동(within variation)이라 하며, 이 집단내 변동을 나타내는 제곱합을 오차제곱합(error sum of squares, $SS_E$)이라 합니다.
각 제곱합이 가지는 자유도는 다음과 같은 논리에 의해 구해집니다. $SS_T$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}$을 구해야하므로 $SS_T$는 자유도 $(n-1)$을 가집니다. 오차제곱합 $SS_E$을 구하기 위해서는 $k$개의 각 집단의 표본평균인 $\overline{Y_{1}},\cdots,\overline{Y_{k}}$를 먼저 구하므로 $SS_E$는 $(n-k)$의 자유도를 가집니다. 처리제곱합$SS_{Tr}$은 $SS_T$의 자유도에서 $SS_E$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.
그리고 편차제곱합의 관계를 정리하여 다음과 같이 변동의 등식으로 표현할 수 있습니다.

$$SS_T=SS_{Tr} + SS_E$$

여기서,  $SS_{T}$는 총제곱합(Total sum of squares)

$SS_{Tr}$은 처리제곱합(Treatment sum of squares)

$SS_{E}$는 오차제곱합(Sum of squares due to Error)

집단의 자유도를 분석하기 위하여 전체집단의 자유도와 각 집단의 자유도를 구합니다. 총제곱합($SS_T$)의 데이터는 $n$개이고, 데이터 중 전체집단의 평균을 구하기 위하여 자유도 1개를 사용하므로 총자유도는 $(n – 1)$입니다. 처리제곱합($SS_{Tr}$)은 $k$개의 집단의 편차제곱합이고, 각 집단의 모평균의 평균인 전체평균 1개를 기준으로 사용하므로 처리제곱합의 자유도는 $(k-1)$입니다. 오차제곱합($SS_E$)의 자유도는 오차제곱을 구할 때, 각 집단의 모평균이 기준이 되므로 전체개수($n$)에서 각 집단의 모평균의 개수, 즉 각 집단의 개수 $k$를 뺸 $(n-k)$가 오차제곱합($SS_E$)의 자유도입니다, 따라서 다음식이 성립합니다.

$$(n-1)=(k-1) + (n-k)$$

여기서,  $n$은 전체집단 표본의 크기

$k$는 집단의 수

위 변동등식에 대응하는 자유도의 등식은 다음식과 같습니다.

$$df(SS_T) = df(SS_{Tr}) + df(SS_E)$$

여기서,  $df(SS_T)$는 총제곱합($SS_T$)의 자유도

$df(SS_{Tr})$는 처리제곱합($SS_{Tr}$)의 자유도

$df(SS_{E})$는 오차제곱합($SS_{E}$)의 자유도

총변동의 분할 등식

$$\eqalign {\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(Y_{ij}-\bar Y)^2&=\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}\left[(\overline {Y_i}-\bar Y) + (Y_{ij}-\overline {Y_i})\right]^2\cr &=\sum\limits_{i=1}^{k}\sum\limits_{k=1}^{n_i}\left[(\overline {Y_i}-\bar Y) ^2 + 2(\overline {Y_i}-\bar Y)(Y_{ij}-\overline {Y_i}) + (Y_{ij}-\overline {Y_i})^2\right]^2\cr &=\sum\limits_{i=1}^{k}\left[{n_i}(\overline {Y_i}-\bar Y) ^2 + 2(\overline {Y_i}-\bar Y)\sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i}) + \sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i})^2\right]\cr &=\sum\limits_{i=1}^{k}\left[{n_i}(\overline {Y_i}-\bar Y) ^2 + 2(\overline {Y_i}-\bar Y)\sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i}) + \sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i})^2\right]\cr &=\sum\limits_{i=1}^{k}\left[{n_i}(\overline {Y_i}-\bar Y) ^2  + \sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i})^2\right]}$$

윗식을 전개하는 과정에서 각 집단의 잔차의 합은 $0$이기 때문에 다음식이 사용됩니다.
$$\sum\limits_{j=1}^{n_i}(Y_{ij}-\overline {Y_i})=\sum\limits_{j=1}^{n_i}Y_{ij}-{n_i}\overline {Y_i}=0$$

따라서, 총제곱합은 다음과 같이 표현할 수 있습니다.
$$\sum\limits_{i=1}^{k}\sum\limits_{k=1}^{n_i}(Y_{ij}-\bar Y)^2 = \sum\limits_{i=1}^{k}\sum\limits_{k=1}^{n_i}(\overline {Y_i}-\bar Y)^2 + \sum\limits_{i=1}^{k}\sum\limits_{k=1}^{n_i}(Y_{ij}-\overline {Y_i})^2$$

일원분산분석표

일원분산분석을 위해 일원분산분석표((One-way ANOVA table))를 사용합니다.

일원분산분석표(One-way ANOVA table)

요인
(factor)
제곱합
(squared sum)
자유도
(degrees of freedom)
제곱평균
(mean squared)
$F$검정통계량
(F statistic)
처리
(Between)
$SS_{Tr}$${k}-{1}$${MS_{Tr}}=\dfrac{SS_{Tr}}{k-1}$$F_{0}=\dfrac{MS_{Tr}}{MS_E}$
오차
(Within)
$SS_E$${n-k}$${MS_E}=\dfrac{SS_E}{n-k}$

(Total)
$SS_T$${n-1}$${MS_T}=\dfrac{SS_T}{n-1}$

 

검정통계량

분산분석을 하기 위해서 처리제곱합($SS_{Tr}$)과 오차제곱합($SS_E$)을 각각의 자유도로 나누어 제곱평균을 구합니다.

처리제곱평균

$$MS_{Tr}=\dfrac{SS_{Tr}}{k-1}$$

오차제곱평균

$$MS_{E}=\dfrac{SS_{E}}{n-k}$$

여기서,  $MS_{Tr}$은 처리제곱평균(Treatment mean squares)

$MS_{E}$는 오차제곱평균(mean squares due to error)

만일, 집단의 수는 적고 각 집단의 대상자 수가 아주 많을 때 오차제곱합은 처리제곱합에 비해 매우 커질 것입니다. 물론, 그 반대의 경우도 마찬가지 입니다. 이런 경우, 오차제곱합과 처리제곱합을 해당 자유도로 나누어 주면 분산의 정도에 대해 표준화된 수치가 나옵니다.

$F$검정의 검정통계량

$$F = \dfrac{MS_{Tr}}{MS_{E}}$$

만일, $MS_{Tr}$과 $MS_E$의 비율이 크면 독립변수를 몇 개의 수준 집단으로 나누었을 때, 집단 간 평균의 차이가 크다는 것을 의미합니다.

가설검정

제곱합을 자유도로 나눈 값을 제곱평균(mean square)이라 하는데  처리제곱평균(treatment mean square, $MS_{Tr}$)과 오차제곱평균(error mean square, ${MS_E}$)이 있습니다.  제곱합의 의미와 같이 처리제곱평균 $MS_{Tr}$은 요인(factor)의 각 집단간의 변동을 나타내는 제곱평균이고, 오차제곱평균 $MS_E$은 각 집단내의 변동을 나타내는 제곱평균입니다. 그러므로, $MS_{Tr}$이 $MS_E$보다 상대적으로 훨씬 크면 요인(factor)의 각 집단의 평균, 즉, $\mu_{i}$들이 같지 않다고 할 수 있습니다. 다음과 같이  $MS_{Tr}$이 $MS_E$보다 상대적으로 훨씬 크다는 기준을 정합니다.

$$MS_{Tr} \gt MS_E$$

분산분석표에서 귀무가설일 때 검정통계량($F_0$)은 $MS_{Tr}$의 $MS_E$에 대한 상대적 크기를 나타내는데,  $\epsilon_{ij}$에 대한 등분산성과 정규성과 독립성 가정이 성립할 때 다음과 같이 가설을 세울 수 있습니다.

귀무가설

$$H_{0}:\alpha_{1}=\alpha_{2}=\cdots=\alpha_{k}=0$$

대립가설

$H_{1}$ : 적어도 한 $\alpha_{k}$는 0 이 아니다.

검정통계량

$$F_{0}=\dfrac{\dfrac{SS_{Tr}}{k-1}}{\dfrac{SS_E}{n-k}}=\dfrac{MS_{Tr}}{MS_E}$$

기각역

유의수준 $\alpha$인 검정에서, 계산된 $F_{0}$의 값이 $F$분포에서 구한 값 $F_{k-1,n-k;\alpha{}}$보다 크면 $MS_{Tr}$이 $MS_E$보다 충분히 크다고 판정하여 귀무가설 $H_{0}$를 기각하게 됩니다. 즉, 각 집단의 평균이 같지 않다고 판정합니다.

$F_{0}>F_{k-1,n-k;\alpha{}}$ 이면 $H_{0}$ 를 기각

여기서,  $F$분포의 모수인 분자, 분모의 자유도는  $(k-1)$,  $(n-k)$

사후검정

$$HSD_{ij}=q_{k,n-k;\alpha}\cdot\sqrt{\frac{1}{2}(\frac{1}{n_i}+\frac{1}{n_j})MS_{E}}$$

일원분산분석 F검정표

귀무가설$(H_0)$검정통계량의 값대립가설$(H_1)$귀무가설 기각역
 $\alpha_1=\alpha_2=\cdots=\alpha_k=0$$F_0=\dfrac{MS_{Tr}}{MS_E}$ 적어도 한 $\alpha_k$는 $0$보다 크다.검정통계량으로 $\alpha_k$가 0보다 큰지 알 수 없다.
적어도 한 $\alpha_k$는 $0$보다 작다.검정통계량으로 $\alpha_k$가 0보다 작은지 알 수 없다.
적어도 한 $\alpha_k$는 $0$이 아니다.$F_0>F_{k-1,n-k;\alpha}$

두 모평균 차이의 t검정과 F검정 비교

t검정결과에서 F검정결과 유도

두 집단 모평균 비교시 $t$검정과 $F$검정의 결과는 동일합니다 . $t$검정식에서 $F$검정식을 유도하여 두 검정의 결과가 동일함을 증명합니다. 즉, 두 확률변수, $t_{\nu}^2$와 $F_{1, \nu}$가 같음을 다음과 같이 증명합니다.

검정통계량

$$\eqalign{t^2&=\dfrac {\left(\bar{X}_2-\bar{X}_1\right)^2}{\dfrac {S_p^2}{n_1}+\dfrac {S_p^2}{n_2}} \cr &= \dfrac{\left(\bar{X}_2-\bar{X}_1\right)^2 \left(\dfrac{n_1 n_2}{n_1+n_2}\right)}{S_p^2}\cr &= \dfrac{\bar {D}^2 \left(\dfrac{n_1 n_2}{n_1+n_2}\right)}{S_p^2}}$$

오차제곱의 자유도

$$\nu_E = \nu = \nu_1 + \nu_2 = \left(n_1 -1\right)+\left(n_2 -1\right)=\left(n_1 + n_2 -2\right)$$

처리제곱의 자유도

$$\nu_{Tr} = 1$$

통합표본의 통합분산($S_p^2$)=오차제곱평균($MS_E$)

$$S_p^2=MS_E=\dfrac{\left(X_{11} – \bar {X}_1\right)^2+ \cdots + \left(X_{n11} – \bar {X}_1\right)^2 + \left(X_{12} – \bar {X}_2\right)^2 + \cdots +\left(X_{n22} – \bar {X}_2\right)^2}{n_1 + n_2 – 2}$$

처리제곱평균($MS_{Tr}$)

$$\eqalign {MS_{Tr}&=n_1 \left(\bar{X}_1 – \bar{X}\right)^2 + n_2 \left(\bar{X}_2 – \bar{X}\right)^2 \cr &=n_1 \left(\bar{X}_1 – \dfrac{n_1 \bar{X}_1 + n_2 \bar{X}_2}{n_1 +n_2}\right)^2 + n_2 \left(\bar{X}_2 – \dfrac{n_1 \bar{X}_1 + n_2 \bar{X}_2}{n_1 +n_2}\right)^2 \cr &=n_1 \left(\dfrac{n_1 \bar{X}_1 + n_2 \bar{X}_2 – n_1 \bar{X}_1 – n_2 \bar{X}_2}{n_1 +n_2}\right)^2 + n_2 \left(\dfrac{n_1 \bar{X}_2 + n_2 \bar{X}_2 – n_1 \bar{X}_1 – n_2 \bar{X}_2}{n_1 +n_2}\right)^2 \cr &=n_1 \left(\dfrac{n_2 \bar{X}_1 – n_2 \bar{X}_2}{n_1 +n_2}\right)^2 + n_2 \left(\dfrac{n_1 \bar{X}_2 – n_1 \bar{X}_1}{n_1 +n_2}\right)^2 \cr &= \left(\dfrac {\bar{X}_1 – \bar{X}_2}{n_1 +n_2}\right)^2 \left(n_1 n_2^2 + n_2 n_1^2\right) \cr &= \dfrac {\left(\bar{X}_1 – \bar{X}_2\right)^2}{\left(n_1 + n_2\right)^2} \left(n_1 n_2\right)\left(n_1 + n_2\right)\cr &= \dfrac {\left(\bar{X}_1 – \bar{X}_2\right)^2} {n_1 + n_2} n_1 n_2 \cr &= \left(\bar{X}_1 – \bar{X}_2\right)^2 \left(\dfrac{n_1 n_2}{n_1 + n_2}\right) \cr &=\bar D^2\left(\dfrac{n_1 n_2}{n_1 + n_2}\right)}$$

두 집단 표본평균 차이, $\bar D$의 $Z$변환

$$\eqalign{Z_\bar{D} &= \dfrac{\bar{D}}{SE\left(\bar{D}\right)} \cr &= \dfrac{\bar{D}}{\sigma_{\bar{D}}} \cr &= \dfrac{\bar{D}}{\sigma \sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}}$$

왜냐하면

$$\because \sigma_{\bar{D}} = \sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} = \sigma\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}$$

왜냐하면

$$\because \sigma^2 = \sigma_1^2 = \sigma_2^2$$

왜냐하면

$$\because H_0 : \mu_1 – \mu_2 = \bar{X}_2 – \bar{X}_1 = 0$$

$Z_{\bar D}$의 $t$변환

$$t_{\nu} \equiv \dfrac{Z_{\bar{D}}}{\sqrt{\dfrac{V}{\nu}}} = \dfrac{\bar{D}}{\sigma\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\sqrt{\dfrac{V}{\nu}}}$$

$t_{\nu}^2=F_{\nu_{Tr}, \nu_E}$ 증명

$$\eqalign{t_{\nu}^2 &= \dfrac{Z_{\bar{D}}^2}{\dfrac{V}{\nu}}\cr &=\dfrac{\dfrac{\bar{D}^2}{\sigma^2}\left(\dfrac{\nu}{V}\right)}{\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)} \cr &\sim \dfrac{\dfrac{\bar{D}^2}{S_p^2}}{\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}\cr &= \dfrac{\bar{D}^2}{\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)} \dfrac{1}{MS_E} \cr &= \dfrac{MS_{Tr}}{MS_E} \cr &= F_{\nu_{Tr} , \nu_E}}$$

왜냐하면

$$\because V= \chi_\nu^2 = \dfrac{\left(\nu_1 S_1^2 + \nu_2 S_2^2 \right)}{\sigma^2} \sim \dfrac{\nu S_p^2}{\sigma^2}$$

왜냐하면

$$\because S_p^2 \equiv \dfrac{\left(\nu_1 S_1^2+\nu_2 S_2^2\right)}{\nu}$$

처리제곱평균($MS_{Tr}$)

$$MS_{Tr} = \dfrac{\bar{D}^2}{\dfrac{1}{n_1}+\dfrac{1}{n_2}} = \dfrac{\left(\bar{X}_1-\bar{X}\right)^2 n_1+\left(\bar{X}_2-\bar{X}\right)^2 n_2}{\nu_{Tr}}$$

처리제곱자유도

$$\nu_{Tr} = 1$$

새로운 확률변수 $F$

$$\dfrac{MS_{Tr}}{MS_E} = F\nu_{Tr},\nu_E = F1,\nu_E$$

따라서

$$\therefore t_v^2 = F1,\nu_E = F1,\nu$$

$SS_{E}$와 $MS_{E}$

$$\eqalign{SS_E &= \left(X_{11}-\bar{X}_1\right)^2+\cdots+\left(X_{n_1 1}-\bar{X}_1\right)^2+\left(X_{12}-\bar{X}_2\right)^2+\cdots+\left(X_{n_2 2}-\bar{X}_2\right)^2 \cr &= \left(n_1 – 1\right)\dfrac{\left(X_{11}-\bar{X}_1\right)^2+\cdots+\left(X_{n_1 1}-\bar{X}_1\right)^2}{\left(n_1 – 1\right)}+\left(n_2 – 1\right)\dfrac{\left(X_{12}-\bar{X}_2\right)^2+\cdots+\left(X_{n_2 2}-\bar{X}_2\right)^2}{\left(n_2 – 1\right)}\cr &= \left(n_1 – 1\right)S_1^2+\left(n_2 – 1\right)S_2^2}$$

따라서

$$\therefore MS_E = \dfrac{\left(n_1 – 1\right)S_1^2 + \left(n_2 – 1\right)S_2^2}{\left(n_1 + n_2 -2\right)} = S_p^2$$

F검정결과에서 t검정결과 유도

두 집단 모평균 비교시 $t$검정과 $F$검정의 결과는 동일합니다 . $t$검정식에서 $F$검정식을 유도하여 두 검정의 결과가 동일함을 증명합니다. 즉, 두 확률변수, $t_{\nu}^2$와 $F_{1, \nu}$가 같음을 다음과 같이 증명합니다.

확률변수

$$\bar{D}^2 = \left(\bar{X}_2 – \bar{X}_1\right)^2$$
$$\nu_{Tr} = 1$$
$$\nu_E = \nu = \left(n_1 + n_2 – 2\right)$$

등분산가정

$$\sigma^2 = \sigma_1^2 = \sigma_2^2$$

귀무가설

$$H_o : \mu_2 -\mu_1 = \bar{X}_2 – \bar{X}_1 = 0$$

증명

$$\eqalign{F_{1,\nu} &= F_{1, \nu_E} \Longleftarrow \nu = \nu_E = \left(n_1 + n_2 – 2\right) \cr &= \dfrac{MS_{Tr}}{MS_E} \cr &= \dfrac{\dfrac{\bar{D}^2 n_1 n_2}{n_1 + n_2}}{S_p^2} \cr &= \dfrac{\dfrac{\left(\bar{X}_2 – \bar{X}_1\right)^2 n_1 n_2}{n_1 + n_2}}{S_p^2} \cr &= \dfrac{\left(\bar{X}_2 – \bar{X}_1\right)^2}{\dfrac{S_p^2}{n_1}+\dfrac{S_p^2}{n_2}} \cr &= t_v^2 }$$

오차제곱합($SS_E$)

$$\eqalign{SS_E &= \left(\left(X_{1_1} – \bar{X}_1\right)^2+\cdots+\left(X_{{n1}_1} – \bar{X}_1\right)^2\right)+\left(\left(X_{1_2} – \bar{X}_2\right)^2+\cdots+\left(X_{{n2}_2} – \bar{X}_2\right)^2\right) \cr &= \dfrac{\left(n_1 – 1\right)\left(\left(X_{1_1} – \bar{X}_1\right)^2+\cdots+\left(X_{{n1}_1} – \bar{X}_1\right)^2\right)}{n_1 -1} + \dfrac{\left(n_2 – 1\right)\left(\left(X_{1_2} – \bar{X}_2\right)^2+\cdots+\left(X_{{n2}_2} – \bar{X}_2\right)^2\right)}{n_1 -1} \cr &= \left(n_1 – 1\right)S_1^2 + \left(n_2 – 1\right)S_2^2 }$$

오차제곱평균($MS_E$) = 통합표본분산($S_p^2$)

$$\eqalign{MS_E &= \dfrac{SS_E}{\nu_E} \Longleftarrow \nu = \nu_E = \left(n_1 + n_2 – 2\right) \cr &= \dfrac{\left(n_1 -1\right)S_1^2 + \left(n_2 -1\right)S_2^2}{n_1 + n_2 -2} \Longleftarrow  \ \sigma^2 = \sigma_1^2 = \sigma_2^2 \sim \sigma_p^2 \cr &= S_p^2 \cr } $$

처리제곱합($SS_{Tr}$)

$$SS_{Tr} = n_1 \left(\bar{X}_1 – \bar{X}\right)^2 + n_2 \left(\bar{X}_2 – \bar{X}\right)^2$$

처리제곱평균($MS_{Tr}$)

$$\eqalign{ MS_{Tr} &= \dfrac{SS_{Tr}}{\nu_{Tr}} \cr &= \dfrac{n_1\left(\bar{X}_1 – \bar{X}\right)^2 + n_2\left(\bar{X}_2 – \bar{X}\right)^2}{\nu_{Tr}} \Longleftarrow \nu_{Tr} = 1 \cr &= n_1\left(\bar{X}_1 – \bar{X}\right)^2 + n_2\left(\bar{X}_2 – \bar{X}\right)^2 \Longleftarrow \bar{X} = \dfrac{\bar{X}_1 n_1 + \bar{X}_2 n_2}{n_1 + n_2} \cr &= n_1\left(\dfrac{\bar{X}_1 – \left(n_1\bar{X}_1 + n_2\bar{X}_2\right)}{n_1 + n_2}\right)^2 + n_2\left(\dfrac{\bar{X}_2 – \left(n_1\bar{X}_1 + n_2\bar{X}_2\right)}{n_1 + n_2}\right)^2 \cr &= n_1\left(\dfrac{n_1\bar{X}_1 + n_2\bar{X}_1 – n_1\bar{X}_1 – n_2\bar{X}_2}{n_1 + n_2}\right)^2 + n_2\left(\dfrac{n_1\bar{X}_2 + n_2\bar{X}_2 – n_1\bar{X}_1 – n_2\bar{X}_2}{n_1 + n_2}\right)^2 \cr &= n_1\left(\dfrac{n_2\bar{X}_1 – n_2\bar{X}_2}{n_1 + n_2} \right)^2 + n_2\left(\dfrac{n_1\bar{X}_2 – n_1\bar{X}_1}{n_1 + n_2}\right)^2 \cr &= \left(\dfrac{\bar{X}_1 – \bar{X}_2}{n_1 + n_2}\right)^2 \left(n_1 n_2^2 + n_2 n_1^2\right) \cr &= \dfrac{\left(\bar{X}_1 – \bar{X}_2\right)^2}{\left(n_1 + n_2\right)^2} n_1 n_2 \left(n_1 + n_2\right) \cr &= \dfrac{\left(\bar{X}_1 – \bar{X}_2\right)^2 n_1 n_2}{n_1 + n_2} \cr &= \bar{D}^2\dfrac{ n_1 n_2}{n_1 + n_2} \cr }$$

일원분산분석 F검정

일원분산분석표(One-way ANOVA table)

요인
(factor)
제곱합
(squared sum)
자유도
(degrees of freedom)
제곱평균
(mean squared)
$F$검정통계량
(F statistic)
처리
(Between)
$SS_{Tr}$${k}-{1}$${MS}_{Tr}=\dfrac{SS_{Tr}}{k-1}$$F_{0}=\dfrac{MS_{Tr}}{MS_E}$
오차
(Within)
$SS_E$${n-k}$$MS_E=\dfrac{SS_E}{n-k}$

(Total)
$SS_T$${n-1}$$MS_T=\dfrac{SS_T}{n-1}$

총제곱합

$$SS_T=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{\cdot\cdot}})^2$$

처리제곱합

$$SS_{Tr}=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(\overline{Y_{i\cdot}}-\overline {Y_{\cdot\cdot}})^2=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}(\overline{Y_{i\cdot}}-\overline{Y_{\cdot\cdot}})^2$$

오차제곱합

$$SS_E=\mathop{\sum}\limits_{i=1}\limits^{k}\mathop{\sum}\limits_{j=1}\limits^{n_i}(Y_{ij}-\overline{Y_{i\cdot}})^2$$

변동(편차제곱합) 등식

$$SS_T = SS_{Tr} + SS_E$$

자유도 등식

$$n-1 = (k-1) + (n-k)$$

여기서,  $k$는 집단의 수

일원분산분석 F검정표

귀무가설$(H_0)$검정통계량의 값대립가설$(H_1)$귀무가설 기각역
 $\alpha_1=\alpha_2=\cdots=\alpha_k=0$$F_0=\dfrac{MS_{Tr}}{MS_E}$ 적어도 한 $\alpha_k$는 $0$보다 크다.검정통계량으로 $\alpha_k$가 0보다 큰지 알 수 없다.
적어도 한 $\alpha_k$는 $0$보다 작다.검정통계량으로 $\alpha_k$가 0보다 작은지 알 수 없다.
적어도 한 $\alpha_k$는 $0$이 아니다.$F_0>F_{k-1,n-k;\alpha}$

Terminology

분산분석(analysis of variance: ANOVA)

분산분석(Analysis of variance: ANOVA)은 표본내의 집단 평균 간의 차이를 분석하는 데 사용되는 통계모델 및 관련 추정 절차 (예 : 집단 간 및 집단 내 “변동”)의 모음입니다. 분산분석은 통계학자이자 진화생물학자 Ronald Fisher가 개발했습니다. ANOVA는 특정 변수의 관찰된 분산이 다양한 변동 요인에 기인하는 구성 요소의 분산으로 분할되는 전체 분산의 법칙(the law of total variance)에 기반합니다. 가장 단순한 형태로 ANOVA는 두 개 이상의 모집단 평균이 같은지에 대한 통계적 검정(statistical test)을 제공하므로 두 평균을 검정하는 $t$검정을 일반화한 것으로 볼 수 있습니다.

출처

Analysis of variance – Wikipedia

Reference

  1.  

본인의 Google 계정으로 구글시트를 복사

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 모든 데이터의 산술평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 모든 데이터의 표본분산. 각 값과 산술평균과의 차이 제곱을 모두 더한 후, 데이터 개수-1(n-1)로 나눈 값.

=값 혹은 셀^2 : 제곱.

=SUM(J3:J62) : 합. J3에서 J62에 있는 모든 데이터의 합.

=COUNTUNIQUE(B3:B62) : 데이터 개수. B3에서 B62에 있는 데이터 중 중복되지 않는 데이터 개수.

=COUNT(A3:A62) : 데이터 개수. A3에서 A62에 있는 모든 숫자 데이터의 개수.

=F.DIST.RT(Q3,O3,O4) : 확률밀도. O3와 O4를 자유도로 가지는 F분포 상에서 Q3 우측의 확률밀도를 적분한 값.

=F.INV.RT(U3,O3,O4) : 확률밀도함수의 역함수. O3와 O4를 자유도로 가지는 F분포 상에서 어떤 값을 기준으로 우측의 확률밀도를 적분한 값이 U3가 되는 어떤 값.

=IF(T3>V3,“YES”,“NO”) : 조건문. T3가 V3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.

=F.DIST(Y3,O3,O4,FALSE) : 확률밀도. O3와 O4를 자유도로 가지는 F분포 상에서 Y3 값이 가지는 확률밀도. FALSE를 TRUE로 변경하면, 누적확률밀도를 계산함.

[DATA SCIENCE]

[PROJECT BASED LEARNING]