DATALINK

[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터시각화 > 개체의 시각화

집단간분산과 집단내분산의 비

한 집단의 평균과 분산은 서로 독립적인 모수(매개변수, parameter)
한 전체집단에 속하여 등분산인 모집단의 표본집단 3개에 서로 다른 중재(Intervention, 처치, Treatment)가 적용되어 각 집단의 평균이 이동함을 모델링, 한 전체집단에 속하여 등분산이지만 속성이 다른 집단 3개에 같은 중재(Intervention, 처치, Treatment)가 적용되어 각 집단의 평균이 이동함을 모델링
한 전체집단에 속하여 등분산인 집단 3개의 평균이 같다는 가설을 검정하기 위해 새로운 확률변수 F를 모델링
한 전체집단에 속하여 등분산인 집단 3개가 1:2:1의 빈도수 비율을 가지는 경우를 모델링 - 표본에서는 전체표본을 이루는 각 독립표본의 자유도를 고려
표1

[Q&A]

초등학생의 보드게임 사전과 사후의 수학적 창의력 점수 차이입니다.

절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.

귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.

일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다.

표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면 정확하지 않지만, 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.

독립표본은 독립된 두개 이상의 범주를 가집니다. 대응표본은 개체로 연결되어 있으며 같은 시간이나 공간의 이동으로 같은 개체의 속성변동을 반영합니다.

ARTICLE CONTENTS

Scatter plot

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

Abstract

표본분산은 표본 데이터의 분포를 나타내는 중요한 통계량으로, 표본의 변동성을 측정합니다. 정규분포를 따르는 확률변수의 표본에서, 표본분산을 모분산으로 나눈 값에 자유도를 곱한 결과는 카이제곱 분포를 따르게 됩니다. 이 과정을 통해, 표본분산의 분포를 표준화하고, 표본 데이터를 이용해 모집단의 분산을 추정할 수 있습니다. 카이제곱 분포는 자유도에 따라 그 형태가 달라지며, 통계적 검정에 널리 사용됩니다. 예를 들어, 두 집단의 분산 비교, 분산분석(ANOVA), 회귀분석 등에서 카이제곱 분포를 기반으로 한 통계적 추론이 가능합니다. 카이제곱 검정은 관측된 빈도가 예상 빈도와 얼마나 일치하는지를 평가할 때 사용되며, 일원분산분석에서는 집단 간 평균 차이가 우연히 발생했는지를 평가하는 데 활용됩니다. 이러한 과정을 통해, 연구자는 표본 데이터로부터 모집단의 특성을 유추하고, 이를 바탕으로 실질적인 의사결정을 내릴 수 있습니다.

Key Word

표본분산, 자유도, 카이제곱 분포, 분산분석

표본분산과 카이제곱

표본분산($S^2$)을 표준화하면 카이제곱($\chi^2$)이 됩니다.

확률변수($X$)를 가지는 개체가 이루는 집단에서 표본크기가 $n$인 표본을 추출한다고 할 때, 표본의 분포정도를 나타내는 분포값 중 대표적인 표본통계량은 표본분산(Sample variance)입니다. 표본평균($\bar X$)과 마찬가지로 표본분산($S_X^2$)도 확률변수이며 그 확률변수의 확률분포를 표집분포(sampling distribution of sample variances)라고 합니다. 표본분산의 확률분포(표본분산의 표집분포)를 알 수 있다면 표본에서 구한 표본분산의 계산값으로 집단의 모분산을 추정할 수 있습니다.

확률변수, $X$를 가지는 개체로 이루어진 집단에서 추출한 표본이 있다고 할 떄 표본분산($S_X^2$)의 확률분포를 표본분산의 표집분포(sampling distribution of sample variances)라 합니다. 표본분산은 음수일 수도 있는 표본평균($\bar X$)과 달리 0 또는 양의 실수입니다. 그리고 표본평균의 확률분포가  대칭이라면 표본분산은 큰 값을 갖는 확률보다 0에 가까운 작은 값을 갖는 확률이 더 큰 비대칭분포를 보입니다. 그리고 확률변수 $X$가 정규분포를 가질다면 표본분산($S_X^2$)을 모분산($\sigma_X^2$)으로 나누어서 표준화를 하고  표본의 자유도($n-1$)를 곱한 확률변수를 카이제곱($\chi^{2}$)이라 하며 아래식으로 표현할 수 있습니다.  무차원 확률변수인 카이제곱은 확률분포가 카이제곱분포를 나타냅니다. 카이제곱분포는 모수(parameter)로 자유도를 가지며 정규분포와 마찬가지로 수식으로 모델링되어 있습니다.  만일 카이제곱($\chi^{2}$)이 $(n-1)$의 자유도를 가진다면 카이제곱 확률분포는 ($\chi_{n-1}^{2}$)로 표현합니다.

$$\chi_{n-1}^{2}=\left({n-1}\right){\dfrac{S^{2}}{\sigma^{2}}}$$

$N(\mu, \sigma^2)$인 정규분포를 가지는 확률변수($X$)로 이루어진 표본이 표본크기가 $n$이라고 할 때, 표본의 분포정도를 무차원 확률변수인 카이제곱($\chi_{n-1}^{2}$)의 값으로 나타낼 수 있습니다. 카이제곱은 카이제곱분포(chi-squared distribution)를 나타냅니다. 카이제곱분포는 자유도(degree of freedom)라는 모수(parameter)를 가지며, $t$분포와 마찬가지로 자유도마다 확률분포가 다릅니다.

정리하면, 정규분포를 나타내는 집단에서 크기가 $n$인 표본을 단순임의복원추출합니다. 그리고  표본분산($\rm S^2$)을 모분산($\sigma^2$)으로 표준화하고 자유도 $(n-1)$을 곱한 무차원 확률변수인 카이제곱( $\chi^2$)으로 변환합니다. 무차원 확률변수인 카이제곱은 자유도를 모수로 하는 확률분포인 카이제곱분포를 따릅니다.

일원분산분석 데이터(One-way ANOVA data)

 집단모평균모분산표본크기표본(관측값)표본평균표본분산
집단 1$\mu_{Y_1}$$\sigma_{Y_1}^2$$n_1$$\begin{array}{cccc}{{y}_{11}}&{{y}_{12}}&{\cdots}&{{y}_{1{n}_{1}}}\end{array}$${\bar{Y}}_{{1}}$$S_{Y_1}^2$
집단 2$\mu_{Y_2}$$\sigma_{Y_2}^2$$n_2$$\begin{array}{cccc}{{y}_{21}}&{{y}_{22}}&{\cdots}&{{y}_{2{n}_{2}}}\end{array}$${\bar{Y}}_{{2}}$$S_{Y_2}^2$

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

집단 $k$$\mu_{Y_k}$$\sigma_{Y_k}^2$$n_k$$\begin{array}{cccc}{{y}_{k1}}&{{y}_{k2}}&{\cdots}&{{y}_{k{n}_{k}}}\end{array}$${\bar{Y}}_{{k}}$$S_{Y_k}^2$

 

집단간분산과 집단내분산

분산에는 집단간분산(Between Variance)과 집단내분산(Within Variance)과 전체집단의 분산이 있습니다.

전체집단이 여러 집단으로 구성되어 있다고 할 때, 집단내분산은 집단에 중재나 처치가 가해져도 집단을 이루는 개체가 가지는 확률변수의 분포값(분포정도)는 변하지 않는다는 등분산가정을 적용하여 구하게 됩니다. 따라서 각 집단에서 추출한 표본의 표본분산으로 구할 때는 표본크기를 가중으로 하는 가중평균으로 구합니다. 물론, 확률변수의 대표값은 중재나 처치에 의해서 변한다고 모델링합니다.

전체 표본평균을 기준으로 하는 각 집단의 표본평균의 분포정도가 “집단간분산”(between variance)의 추정값이 됩니다. 따라서 집단간분산의 추정값은 전체평균과 각 표본평균의 편차제곱합을 각 표본의 자유도로 나누어 합하게 됩니다.

정리하면, 전체집단을 이루는 집단들이 정규분포를 나타내고 집단을 이루는 개체가 가지는 확률변수가 같은 분산을 가진다고 가정하면, 이 등분산의 값을 “집단내분산”(within variance)이라고 합니다.

분석대상이 되어 실제로 그 값이 관측되는 변수를 종속변수(결과변수, 반응변수, 분석변수,  response variable)라고 합니다. 실제에서의 결과변수는 대부분 연속형 확률변수입니다. 그리고 집단의 종속변수($Y$)에 영향을 주는 독립변수($X$)로 집단을 구분하는데 사용되는 변수를 원인변수(요인변수, factor)라고 하며  대부분 범주형 변수입니다.  데이터를 분석하는 데 있어 확률변수로 모델링되는 종속변수와 달리 독립변수는 꼭 확률변수일 필요는 없습니다.

만일 독립변수가 범주형 확률변수이거나 이산형 확률변수인 경우,  독립변수인 원인변수의 변수값은 유한한 개수를 가지게 됩니다. 이 때 변수값의 개수가 집단의 수가 됩니다.  이 집단들을 이루는 개체가 가지는 확률변수의 분산이 등분산이라는 것을 가정하면 등분산이 되는 확률변수의 근사값을 구할 수 있습니다. 이 분산의 근사값을 통합분산(pooled variance)이라 합니다.

전체집단을 이루는  여러 집단은 같은 방식으로 집단이 생성되었을 가능성이 크므로 집단을 이루는 개체가 가지는 확률변수는 분산이 변하지 않는다고 가정할 수 있습니다. 각 집단에서 편차제곱으로 새로운 확률변수가 생성되었고 새로운 확률변수의 평균인 각 집단의 분산은 같다고 등분산 가정을 할 수 있습니다.

$${\sigma_{Y_1}^2}={\sigma_{Y_2}^2} = , … ,  =  {\sigma_{Y_i}^2}$$

여기서,  $\sigma_{Y_1}^2$, $\sigma_{Y_2}^2$, … , $\sigma_{Y_i}^2$는 $i$개 집단, 각각의 모분산

전체집단의 변동은 전체집단을 이루는 독립된 여러 집단의 변동의 합으로 다음식으로 표현합니다.

$$\dfrac{(n_1 + n_2 + , … , + n_i – i)S_p^2}{\sigma_{Y}^2} = \dfrac{(n_1 – 1)S_{Y_1}^2}{\sigma_{Y_1}^2} + \dfrac{(n_2 – 1)S_{Y_2}^2}{\sigma_{Y_2}^2}+ , … , + \dfrac{(n_i – 1)S_{Y_i}^2}{\sigma_{Y_i}^2}$$

여기서,  등분산가정 : $\sigma_Y^2 = \sigma_{Y_1}^2 = \sigma_{Y_2}^2 =, … , =\sigma_{Y_i}^2$

 $\sigma_{Y_1}^2$, $\sigma_{Y_2}^2$, … ,   $\sigma_{Y_i}^2$는 $i$개 집단 각각의 모분산

$S_{Y_1}^2$, $S_{Y_2}^2$, … ,   $S_{Y_i}^2$는 $i$개 표본의 표본분산

$S_p^2$는 $S_{pooled}^2$로서 $S_{Y_1}^2$, $S_{Y_2}^2$, … ,   $S_{Y_i}^2$의 통합분산(pooled variance)

통합분산인 $S_p^2$는 $S_{Y_1}^2$,   $S_{Y_2}^2$, … , $S_{Y_i}^2$의 가중평균으로 다음식으로 나타낼 수 있습니다.

$$S_p^2 = \dfrac{(n_1 – 1)S_{Y_1}^2 + (n_2 – 1)S_{Y_2}^2 + , … , + (n_i – 1)S_{Y_i}^2}{(n_1 + n_2 + , … , + n_i – i)}$$

통합표준편차는 다음과 같습니다.
$$S_p = \sqrt{\dfrac{(n_1 – 1)S_{Y_1}^2 + (n_2 – 1)S_{Y_2}^2 + , … , + (n_i – 1)S_{Y_i}^2}{(n_1 + n_2 + , … , + n_i – i)}}$$

집단간분산과 집단내분산의 비

집단간분산과 집단내분산의 비로 새로운 무차원 확률변수, $F$를 생성합니다.

제곱합을 자유도로 나눈 값을 제곱평균(mean square)이라 하는데 처리제곱평균(treatent mean square, $MS_{Tr}$)과 오차제곱평균(error mean square, $MS_E$)이 있습니다. 제곱합의 의미와 같이 처리제곱평균은 요인의 각 집단간의 변동을 나타내는 값이고 오차평균제곱은 각 집단내의 변동을 나타내는 값입니다. 따라서 처리제곱평균이 잔차제곱평균보다 상대적으로 훨씬 크면 요인에 의해 구분된 집단의 평균값이 같지 않다고 추론할 수 있습니다.  추론을 위해 두 확률변수인 처리제곱평균과 오차제곱평균을 무차원 확률변수(단위가 없는 확률변수)인 $F$로 변환합니다. 변환방식은 처리제곱평균을 오차제곱평균으로 나누어 무차원 확률변수 $F$로 변환하는 것입니다. 이 무차원 확률변수, $F$는 처리제곱합과 오차제곱합, 각각의 자유도 2개를 모수로 하는  $F$확률분포를 따릅니다. 무차원 확률변수 $F$의 확률분포는 식으로 유도되어 있습니다. 분산분석표에서의 $F$값도 처리평균제곱과 오차평균제곱에 대한 상대적 크기를 나타냅니다.

$\epsilon_{ij}$에 대한 가정이 성립할 때 귀무가설 $H_{0}:\alpha_{1}=\alpha_{2}=\cdots=\alpha_{k}=0$ 의 가정 하에서 검정통계량은 다음식과 같습니다.

$$F_{0}=\dfrac{MS_{Tr}}{MS_E}=\dfrac{SS_{Tr}/(k-1)}{SS_{E}/(n-k)}$$

위 식에서 확률변수 $F$는 자유도 $(k-1)$과 $(n-k)$인 $F$분포를 따릅니다. 그러므로 유의수준 $\alpha$인 검정에서, 계산된 검정통계량인 $F_{0}$의 값이 $F$분포에서 구한 값 $F_{k-1,n-k;\alpha{}}$보다 크면 $\rm{MS_{Tr}}$이 $\rm{MS_E}$보다 충분히 크다고 판정하여 귀무가설 $H_{0}$를 기각합니다. 즉, 요인에 따른 각 집단의 평균들이 모두 같지 않다고 결정할 수 있습니다.

일원분산분석표 (One-way ANOVA table)

요인

Factor

펀차제곱 합

Sum of Square

자유도

편차제곱 평균

Mean Square

$F$검정통계량

F value

처리

Treatment

$SS_{Tr}$$k-1$$MS_{Tr}=\dfrac{SS_{Tr}}{k-1}$$F_0=\dfrac{MS_{Tr}}{MS_E}$

오차

Error

$SS_E$$n-k$$MS_{E}=\dfrac{SS_E}{n-k}$ 

전체

Total

$SS_T$$n-1$여기서,  $n=\sum\limits_{i=1}\limits^{k}n_{i}$

 

F분포

정규분포를 이루고 분산($\sigma^2$)이 같은 두 집단으로부터 크기 $n_1$과 크기 $n_2$의 표본을 추출하는 것을 모델링하면,  확률변수인 두 표본분산($S_1^2$, $S_2^2$)에서 변환된 두 카이제곱의 비율을 확률변수 $F$라 합니다. 확률변수 $F$는 F분포를 나타내며 모수는 분자와 분모의 자유도 입니다. 두 집단의 카이제곱비로 구한 확률변수 $F$의 확률분포에서는 두 집단의 표본크기에서 1을 뺀 값입니다.  확률변수 $F$는 무차원 확률변수이고 다음식과 같이 유도할 수 있습니다.

무작위로 반복적인 표본추출을 하거나 머신을 통해 데어터를 무작위 생성하고 변환한 $F$확률변수는 F확률분포를 나타냅니다. 그리고 확률변수 $F$의 분자의 자유도는 ($n_1-1$)이고 분모의 자유도는 ($n_2-1$)입니다.

$$F_{n_{1}-1, \, n_{2}-1}={\dfrac{{\dfrac{{\dfrac{\left({n_{1}-1}\right)S{_{1}}^{2}}{\sigma{_{1}}^{2}}}}{(n_{1}-1)}}}{{\dfrac{{\dfrac{\left({n_{2}-1}\right)S{_{2}}^{2}}{\sigma{_{2}}^{2}}}}{(n_{2}-1)}}}}={\dfrac{{\dfrac{S{_{1}}^{2}}{\sigma{_{1}}^{2}}}}{{\dfrac{S{_{2}}^{2}}{\sigma{_{2}}^{2}}}}}={\dfrac{S{_{1}}^{2}}{S{_{2}}^{2}}}$$

여기서,  등분산가정에 의해 $\sigma_1^2=\sigma_2^2$

F분포의 특성

항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 단일 분포가 아닌 모수인 분자의 자유도와 분모의 자유도에 따라 분포의 모양이 변하는데, 분자의 자유도와 분모의 자유도가 커질 수록 정규분포에 가까워집니다.

F분포를 사용한 F검정의 적용 예

– 두 집단의 모분산 비교, 추정 및 검정
– 분산분석 및 회귀분석

일원분산분석 F검정

일원분산분석 모형

원인에 의한 결과의 회귀를 모델링하면 다음식과 같습니다.

$$Y_{ij}=\mu_{Y_i}+{\epsilon}_{ij}=\mu_{Y}+{\alpha}_{i}+{\varepsilon}_{ij}$$

여기서, ${i}{=}{1}{,}{2}{,}\cdots{,}{k}$

$j=1, 2, \cdots , {n}_{i}$

$Y_{ij}$는 $i$번째 집단의 $j$번째 값

$\mu_{Y_i}$는 $i$번째 집단의 평균

$\epsilon_{ij}$는 $\mu_{Y_i}$를 기준으로 하는 $i$번째 집단의 $j$번째 값의 오차

$\mu_Y$는 전체모평균

$\alpha_i$는 $\mu_Y$를 기준으로 하는 $i$번째 집단의 평균

$\varepsilon_{ij}$는 $\alpha_i$를 기준으로 하는 $i$번째 집단의 $j$번째 값의 오차

위 식에서 $Y_{ij}$는 반응변수 $Y$의 $i$번째 집단에서의 $j$번째 관측값을 나타냅니다. 이 모델에서는 $i$번째 집단에서의 집단의 모평균 $\mu_{Y_{i}}$를 $\mu_{Y_i}{+}\alpha_{i}$로 나타내었는데 여기에서 $\mu_Y$는 $Y$의 전체 모평균을 나타내며, $\alpha_{i}$는 $(\mu_{Y_i}-\mu_Y{)}$로 이를 반응변수(종속변수)에 대한 $i$번째 집단의 효과(effect)라고 합니다.

오차항 $\varepsilon_{ij}$는 서로 독립이며, 평균이 0 이고 분산이 ${\sigma^{2}}$인 정규분포를 따른다고 가정합니다. 오차항 $\varepsilon_{ij}$는 집단간의 차이가 아닌 다른 요인에 기인하는 반응변수의 변동량을 나타내는 확률변수입니다. 예를 들어, 한 학교의 영어성적에서 각 학년의 영어성적 차이는 학년이라는 범주형 변수 외에 다른 요인들, 이를테면, 성별, IQ 등에 의해서도 발생할 수있습니다. 그러나 이들 변동량이 학년의 차이에 의한 변동량에 비해 상대적으로 작다면 이런 요인들을 일종의 오차들로 모델링합니다. 오차항 $\varepsilon_{ij}$는 이와 같은 여러 가지 오차들의 합을 표현한 것 입니다.

분산분석의 세 가지 제곱합

다음의 통계량을 정의합니다.

${\bar{Y}}_{i·}$는 $Y$ 의 $i$번째 수준에서의 관측값들의 평균

${\bar{Y}}_{··}$는 $Y$ 의 전체 관측값들의 평균

분산분석의 세 가지 제곱합을 다음과 같이 표현합니다.
다음식과 같이 반응변수 $Y$의 관측값들과 총평균 사이의 거리의 제곱합을 총변동 또는 총제곱합(total sum of squares, $SS_T$)이라 합니다.

$$SS_T{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}$$

$Y$의 $i$번째 집단(그룹, 수준, 카테고리)에서의 관측값들의 평균 ${\bar{Y}}_{i}$은 전체집단의 모평균을 기준으로 $i$번째 집단의 변동을 나타낸 것으로 그 집단의 대표값이라 할 수 있습니다. 그러므로, 개개의 관측값 대신에 집단의 표본평균을 사용하여 총변동을 구하면(즉, 총제곱합을 구하는 공식에서 $Y_{ij}$ 대신에 ${\bar{Y}}_{i·}$를 대입하면), 이는 집단 간의 차이에 의한 변동을 나타냅니다. 이와 같은 집단간의 변동을 집단간 변동(between variation)이라 하며 이 변동을 나타내는 제곱합을 처리제곱합(treatment sum of squares, $SS_{Tr}$)이라 합니다. 따라서, 각 집단 간의 차이에 의해 발생하는 변동은 다음과 같습니다.

$$SS_{Tr}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{\overline{Y}}_{{i}\cdot}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}{(\overline{Y}_{i\cdot}-\bar{Y}_{\cdot\cdot})}^2$$

다음식은 각 집단내에서 발생하는 변동들의 합을 나타냅니다. 각 집단내의 변동을 집단내 변동(within variation)이라 하며, 이 집단내 변동을 나타내는 제곱합을 오차제곱합(error sum of squares, $SS_E$)이라 합니다.

$$SS_E{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\overline{Y}}_{{i}\cdot}{)}^{2}}}$$

각 제곱합이 가지는 자유도는 다음과 같이 구합니다. $SS_T$를 계산하기 위해서는 $n$개의 $Y_{ij}$ 값이 있지만, 먼저 전체평균의 추정량인 ${\bar{Y}}_{..}$을 계산해야하므로 $SS_T$는 자유도 $(n-1)$을 가지며, 오차제곱합 $SS_E$의 계산을 위해서는 $k$개의 값 ${\bar{Y}}_{1\cdot{}},\cdots,{\bar{Y}}_{k\cdot{}}$이 먼저 계산되므로 $SS_E$는 $(n-k)$의 자유도, 처리제곱합$SS_{Tr}$은 $SS_T$의 자유도에서 $SS_E$의 자유도를 뺀 나머지 $(k-1)$의 자유도를 가집니다.

제곱합 분리

$$SS_T{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\bar{Y}_{\cdot\cdot}}{)}^{2}}}$$

$$SS_{Tr}{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{\overline{Y}}_{{i}\cdot}{-}{\bar{Y}}_{\cdot\cdot}{)}^{2}}}=\mathop{\sum}\limits_{i=1}\limits^{k}{n_i}{(\overline{Y}_{i\cdot}-\bar{Y}_{\cdot\cdot})}^2$$

$$SS_E{=}\mathop{\sum}\limits_{{i}{=}{1}}\limits^{k}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{{n}_{i}}{{(}{Y}_{ij}{-}{\overline{Y}}_{i\cdot}{)}^{2}}}$$

자유도 분리

자유도 등식

$$n-1 = (n-k) + (k-1)$$

여기서,  $k$는 집단의 수

검정하고자 하는 가설은 $\mu_{Y_i}$ 대신에 $\alpha_{i}$를 사용하면 아래와 같이 간단하게 표현할 수 있습니다.

가설검정

귀무가설

$$H_{0}:\alpha_{1}=\alpha_{2}=\cdots{=}\alpha_{k}=0$$

대립가설

$H_{1}:$ 적어도 하나의 $\alpha_{i}$ 는 0 이 아니다.

이 가설의 검정을 위해서 아래와 같은 F검정표를 사용합니다.

집단간분산과 집단내분산 비 F검정표- 독립표본 – 정규분포 가정 – 등분산 가정 : 일원분산분석 F검정

귀무가설$(H_0)$검정통계량의 값대립가설$(H_1)$귀무가설 기각역
 $\beta_{0,1}=\beta_{0,2}=\cdots=\beta_{0,k}=\beta_0$$F=\dfrac{MS_{Tr}}{MS_E}$ 적어도 한 $\beta_{0,k}$는 $\beta_0$보다 크다.검정통계량으로 $\beta_{0,k}$가 $\beta_0$보다 큰지 알 수 없다.
적어도 한 $\beta_{0,k}$는 $\beta_0$보다 작다.검정통계량으로 $\beta_{0,k}$가 $\beta_0$보다 작은지 알 수 없다.
적어도 한 $\beta_{0,k}$는 $\beta_0$이 아니다.$F>F_{k-1,\ n-k\ ;\ \alpha}$

 

Terminology

확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다. 확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다.

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

출처

Random variable – Wikipedia

연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

출처

Continuous or discrete variable – Wikipedia

Reference

  1.  

본인의 Google 계정으로 구글시트를 복사

=AVERAGE(B3:B6) : 기대값. 평균. B3에서 B6에 있는 데이터들의 평균. 데이터를 모두 더한 후, 데이터 개수로 나눈 산술평균.

=SUM(B3:C3) : 합계. B3에서 C3에 있는 데이터들의 합계.

=COUNTIF(D3:D6,A10) : 지정한 범위 내에서 조건에 맞는 데이터 개수. D3에서 D6에 있는 데이터들 중 A10과 같은 데이터의 개수.

=(N3-N26)^2 : 제곱. N3에서 N26을 뺀 후 제곱한 값. 여기에서는 평균과의 편차 제곱.

=COUNTUNIQUE(O3:O22) : 지정한 범위 내에서 고유한 값의 데이터 개수. O3에서 O22에 있는 데이터 들 중 고유한 데이터 개수.

=F.DIST.RT(X3,V3,V4) : 확률밀도. V3와 V4를 자유도로 가지는 F분포 상에서 X3 값 우측의 확률밀도.

[DATA SCIENCE]

[PROJECT BASED LEARNIG]