Learning DATALINK

[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터수집 > 데이터분류

교차표의 확률분포 비교: 교차분석 카이제곱검정

두 범주형 확률변수의 동일성
표1

[Q&A]

범주형데이터, 순서있는 범주형데이터, 이산형데이터, 연속형데이터 이 중에서 이산형데이터와 연속형데이터는 수치로 나타나는 양적데이터입니다. 

데이터 프레임은 열과 행으로 구성된 테이블 형태의 데이터 구조로, 다양한 데이터 타입의 값을 저장하고 데이터 분석에 활용됩니다.

개체의 속성으로 확률공간을 모델링

ARTICLE CONTENTS

Play Video

Comparison of probability distributions in contingency tables: cross-analysis chi-square test

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

Abstract

교차분석은 범주형 변수 간의 관계를 분석하는 통계적 방법입니다. 예로, 대학교 학생의 학년과 영어학점 관계를 교차표로 나타내어 학년별 영어학점 분포의 동질성을 검정할 수 있습니다. 이는 학년이 영어학점에 미치는 영향을 평가하기 위함입니다. 교차표는 학년과 영어학점 조합의 빈도수를 표시하며, 전체 학생 집합에서 각 학년을 부분집합으로 봅니다. 동일성(동질성) 검정은 학년별 영어학점 분포가 같다는 가설 하에 수행되며, 이는 학년과 영어학점이 독립적인지를 평가합니다. 이 과정에서 사용되는 ‘동일하다’는 가설은 범주형 확률변수의 확률분포가 모든 학년에 걸쳐 동일함을 의미합니다. 교차분석은 관측빈도수와 기대빈도수의 차이를 이용해 카이제곱 검정을 통해 가설을 검증합니다. 검정 결과는 학년에 따른 영어학점 분포의 독립성 여부를 밝히며, 이는 상대평가 제도의 공정성 평가에 기여할 수 있습니다.

Key Word

교차분석, 교차표, 관측빈도수, 기대빈도수, 카이제곱분포, 카이제곱검정

교차분석의 예

교차분석(cross-tabulation, contingency table analysis)은 두 개 이상의 범주형 변수 간의 관계를 탐색하고 분석하는 통계적 방법입니다. 어느 대학교의 학생이 속한 범주인 학년(1, 2, 3, 4)과 학생이 가지는 범주형 속성인 영어학점(A, B, C, D)으로 교차표를 아래와 같이 만들 수 있습니다. 교차표의 각 칸에 나타나는 빈도수의 비율은 그 대학교의 학생을 표현합니다. 전체 학생을 집합으로 표현하면 각 학년을 부분집합으로 표현할 수 있습니다. 전체학생을 모집단으로 해서 표본을 추출합니다. 두 범주형 확률변수의 값의 짝으로 구분된 집단(카테고리)은 교차표를 만듭니다. 그리고 교차표의 각 칸(cell)에 그 칸에 속한 개체의 수를 표기합니다.

학년별 영어학점 교차표

 영어학점
ABCD
학년1빈도수빈도수빈도수빈도수
2빈도수빈도수빈도수빈도수
3빈도수빈도수빈도수빈도수
4빈도수빈도수빈도수빈도수-

이 대학교가 학년별로 영어학점이 일정한 분포를 가진 상대평가가 시행되었는 지를 알고자 한다면  ‘각 학년의 학점의 분포가 같은가’라는 가설을 세우고 표본을 추출하여 가설을 검정하게 됩니다. 학년별로 영어학점 분포의 동일성(동질성)을 검정하여 상대평가 제도를 검정할 수 있습니다. 범주형 확률변수인 영어학점의 확률분포를 결과라 보았을 때 학년이 원인으로 작용하지 않아야 한다고 보면 각 학년의 영어학점의 확률분포가 같으면 됩니다. 즉 원인에 따른 범주형 결과변수의 확률분포가 동일하면 원인에 결과가 영향을 받지 않았다고 할 수 있습니다. 범주형 확률변수의 확률분포는 확률질량으로 표현되는 이산형 확률분포입니다.

동일성(동질성)에 대한 가설

$H_{0}:$ 학년별로 영어학점의 분포는 동일하다.

$H_{1}:$ 학년별로 영어학점의 분포는 동일하지 않다.

위 가설의 검정을 동일성검정(test of homogeneity)이라 합니다.

한편, 동일성을 검정하기 위해 사용한 ‘학년별로 영어학점의 분포는 동일하다.’라는 가설은 ‘학년과 영어성적의 분포는 독립적이다’라는 가설과 대립적인 가설입니다. ‘학년별로 영어학점의 분포는 동일하다’라는 가설은 ‘학년별로 영어학점의 분포는 독립적이지 않다’라는 가설과 같습니다. 즉, 두 가설이 채택된다면 원인변수인 학년의 영향을 결과변수인 영어학점이 받지 않는다는 것입니다. 반대로, 학년별로 영어학점의 분포는 동일하지 않다라는 가설은 학년별로 영어학점의 분포는 독립적이다라는 가설과 같습니다. 즉, 두 가설이 채택된다면 원인변수인 학년의 영향을 결과변수인 영어학점이 받는다고 할 수 있습니다.

교차표 작성

2개의 범주형 확률변수의 값으로 구분되는 집단(카테고리)에 속한 개체(object)의 빈도수를 표현할 떄,  교차표(cross table, contingency table)를 사용합니다

교차표로는 두 범주형 확률변수의 값(카테고리명, 수준명)이 교차 지정하는 집단(그룹)의 표본비율, 표본확률(기대표본비율)등을 표현한다고도 말할 수 있습니다.

$r\times c$교차표는 두 개의 범주형 확률변수의 가능한 값들을 $r$개의 행과 $c$개의 열로 각각 놓고 두 변수의 값이 교차하는 칸(cell)에 관측빈도수, 기대빈도수, 상대빈도수, 표본비율(표본확률), 기대확률 등을 기입하여 작성합니다. 

모집단에서 추출한 표본으로 교차표를 만들고 이를 사용하여 전체집단(모집단)내의 부분집단(카테고리)에 대해 세운 가설을 검정할 수 있습니다. 

관측빈도수

개체(object)가 가지는 두 범주형 확률변수가 동일한지를 검정하기 위해 표본크기가 $n$인 표본을 추출하여 관측한 관측빈도수인 $O_{ij}$를 다음 교차표와 같이 정리합니다.

두 범주형 변수의 $r\times c$ 교차표 관측빈도수($O_{ij}$) 기호표

관측빈도수

$O_{ij}$

범주형 변수 $B$행의 합
$B_{1}$$B_{2}$$\cdots$$B_{c}$

범주형

변수 $A$

$A_{1}$

$O_{11}$

$O_{12}$

$\cdots$

$O_{1c}$

$T_{1\cdot}$

$A_{2}$

$O_{21}$

$O_{22}$

$\cdots$

$O_{2c}$

$T_{2\cdot}$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$A_{r}$

$O_{r1}$

$O_{r2}$

$\cdots$

$O_{rc}$

$T_{r\cdot}$

열의 합$T_{\cdot 1}$$T_{\cdot 2}$$\cdots$$T_{\cdot c}$$n$

기대빈도수 산출

기대빈도수는 관측빈도수에서 산출됩니다. 기대빈도수는 범주형 변수 $B$의 각 값들에 대한 표본확률 $(\dfrac{T_{.1}}{n}, \dfrac{T_{.2}}{n}, \cdots·, \dfrac{T_{.c}}{n})$이 범주형 변수 $A$의 각각의 값에서도 동일하도록 기대되는 빈도수를 구한 것입니다.

교차표에서의 기대빈도수는 $n×p_{i·}×p_{·j}$입니다.

모집단의 $p_{i·}$와  $p_{·j}$는 모르므로 대신 관측빈도수에서의 추정량인 $\dfrac{T_{i·}}{n}$와 $\dfrac{T_{·j}}{n}$로 산출하여 대체하면 기대빈도수의 추정값($E_{ij}$)은 다음과 같습니다.

$$E_{ij}=n\left(\dfrac{T_{i·}}{n}\right)\left(\dfrac{T_{·j}}{n}\right)=T_{i·}\left(\dfrac{T_{·j}}{n}\right)$$

두 범주형 확률변수의 기대빈도수($O_{ij}$)을 나타내는 $r\times c$  교차표는 다음과 같습니다.

두 범주형 변수의 교차표 기대도수 기호표

기대빈도수
$E_{ij}$
범주형 변수 $B$행의 합
$B_{1}$$B_{2}$$\cdots$$B_{c}$

범주형

변수 $A$

$A_{1}$

$E_{11}=T_{1\cdot}\dfrac{T_{\cdot 1}}{n}$

$E_{12}=T_{1\cdot}\dfrac{T_{\cdot 2}}{n}$

$\cdots$

$E_{1c}=T_{1\cdot}\dfrac{T_{\cdot c}}{n}$

$T_{1\cdot}$

$A_{2}$

$E_{21}=T_{2\cdot}\dfrac{T_{\cdot 1}}{n}$

$E_{22}=T_{2\cdot}\dfrac{T_{\cdot 2}}{n}$

$\cdots$

$E_{2c}=T_{2\cdot}\dfrac{T_{\cdot c}}{n}$

$T_{2\cdot}$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$\cdots$

$A_{r}$

$E_{r1}=T_{r\cdot}\dfrac{T_{\cdot 1}}{n}$

$E_{r2}=T_{r\cdot}\dfrac{T_{\cdot 2}}{n}$

$\cdots$

$E_{rc}=T_{r\cdot}\dfrac{T_{\cdot c}}{n}$

$T_{r\cdot}$

열의 합$T_{\cdot 1}$$T_{\cdot 2}$$\cdots$$T_{\cdot c}$$n$

새로운 확률변수 생성

 두 범주형 확률변수가 만드는 범주(집단)는 교차표(Cross table)의 칸(Cell)으로 표현할 수 있습니다. 교차표의 각 칸은 표본내의 집단이라고 할 수 있습니다. 두 범주형 확률변수의 변수값의 개수를 각각 $r$과 $c$라고 할 때, 모집단에는 $r \times c$개의 집단(범주)가 있다고 볼 수 있습니다. 표본크기가 $n$인 표본을 모집단에서 추출할 때, $n$개의 개체(object)가 $r \times c$개의 집단으로 나누어집니다(categorizing). 교차표로 표현한 두 범주형 확률변수가 독립이라면 각 집단에 속하는 개체의 관측빈도수를 표본크기로 나누어 그 집단의 표본확률질량의 추정값을 구할 수 있습니다. 표본확률질량은 모확률질량의 점추정량입니다. 확률변수인 표본의 관측빈도수와 기대빈도수로 새로운 확률변수인 $Z$와 카이제곱($\chi^2$)을 생성합니다. $Z$는 표준정규분포를 나타내는 확률변수이고 카이제곱은 $Z$의 제곱의 합입니다.

확률변수 Z

$r\times c$교차표의 각 집단(Cell)에서의 표본확률질량은 모확률질량을 평균으로 하는 표준정규분포를 나타냅니다. 표본확률질량을 구할 때 관측빈도수의 기준으로 표본의 기대빈도수를 사용하면 각 집단의 표본확률질량의 합은 카이제곱($\chi^2$)분포를 나타낸다고 볼 수 있습니다.

$i$행과 $j$열로 규정되는 집단에서의 관측빈도수는 $O_{ij}$로 표기하고 기대빈도수는 $E_{ij}$로 표기합니다. 표본크기($n$)가 큰 경우, 관측빈도수($O_{ij}$)는 중심극한정리에 의해 기대빈도수($E_{ij}$)를 평균으로 하고 $E_{ij}(1 – \frac{E_{ij}}{N})$를 분산으로 하는 이항분포를 따릅니다. 그리고 표본크기가 충분히 크다면 $i$번째 행과 $j$번째 열의 집단의 관측빈도수는 다음식으로 표현되는 정규분포에 근사합니다.  

$$O_{ij} ∼ N(E_{ij}, E_{ij})$$

여기서, $O_{ij}$는 확률변수이며 교차표의 $i$행, $j$열 집단에서의 관측빈도수

$E_{ij}$는 확률변수이며 교차표의 $i$행, $j$열 집단에서의 기대빈도수

이 정규분포를 표준정규분포로 변환하면 다음과 같습니다.

$$\dfrac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}} =Z_{ij}∼ N(0, 1)$$

확률변수 카이제곱

각 집단에서의 $Z_{ij}$를 모두 더한 확률변수는  $\chi^2$이고 $\chi^2$분포를 나타냅니다.

$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$

여기서, $O_{ij}$는 확률변수이며 교차표의 $i$행, $j$열 집단에서의 관측빈도수

$E_{ij}$는 확률변수이며 교차표의 $i$행, $j$열 집단에서의 기대빈도수

$r$은 행(row)을 만드는 범주형 확률변수값의 개수: 교차표의 행의 수

$c$는 열(column)을 만드는 범주형 확률변수값의 개수: 교차표의 열의 수

(r-1)(c-1)는 카이제곱의 자유도

새로운 확률변수, 카이제곱($\chi^2$)의 자유도는 $(r-1)\times (c-1)$입니다. 즉, 카이제곱의 자유도는 표본이 가지는 집단(범주)의 자유도 입니다. 교차표는 독립적인 두 범주형 확률변수로 만들어 지며 교차표의 각 칸(Cell)이 집단(범주)이 됩니다.  교차표의 기대빈도수를 구할 때 두 범주형 변수의 자유도인 $(r-1)$과 $(c-1)$가 사용됩니다. 따라서, 관측빈도 집단의 자유도는 $(r-1)(c-1)$이라고 할 수 있습니다. 자유도의 등식은 다음과 같습니다.

$$(r \times c-1)=(r-1)+(c-1)+(r-1)(c-1)$$

여기서, (표본에서 집단의 자유도)=(행 집단의 자유도)+(열 집단의 자유도)+(관측빈도 집단의 자유도)

$r$은 행(row)을 만드는 범주형 확률변수값의 개수: 교차표의 행의 수

$c$는 열(column)을 만드는 범주형 확률변수값의 개수: 교차표의 열의 수

따라서, 관측빈도 집단의 자유도는 다음과 같습니다.

$$(r-1)(c-1)=(r \times c-1)-(r-1)-(c-1)$$

여기서, (관측빈도 집단의 자유도)=(표본에서 집단의 자유도)-(행 집단의 자유도)-(열 집단의 자유도)

$r$은 행(row)을 만드는 범주형 확률변수값의 개수: 교차표의 행의 수

$c$는 열(column)을 만드는 범주형 확률변수값의 개수: 교차표의 열의 수

두 범주형 변수의 기대도수와 관측빈도수의 편차로 생성한 확률변수($Z^2$) $r\times c$ 교차표

$Z^2$ 범주형 변수 $B$ 행의 합
$B_{1}$ $B_{2}$ $\cdots$ $B_{c}$
범주형 변수 $A$ $A_{1}$ $\dfrac{(O_{11}-E_{11})^2}{E_{11}}$ $\dfrac{(O_{12}-E_{12})^2}{E_{12}}$ $\cdots$ $\dfrac{(O_{1c}-E_{1c})^2}{E_{1c}}$ $$\sum_{j=1}^{c}\dfrac{(O_{1j}-E_{1j})^2}{E_{1j}}$$
$A_{2}$ $\dfrac{(O_{21}-E_{21})^2}{E_{21}}$ $\dfrac{(O_{22}-E_{22})^2}{E_{22}}$ $\cdots$ $\dfrac{(O_{2c}-E_{2c})^2}{E_{2c}}$ $$\sum_{j=1}^{c}\dfrac{(O_{2j}-E_{2j})^2}{E_{2j}}$$
$\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$
$A_{r}$ $\dfrac{(O_{r1}-E_{r1})^2}{E_{r1}}$ $\dfrac{(O_{r2}-E_{r2})^2}{E_{r2}}$ $\cdots$ $\dfrac{(O_{rc}-E_{rc})^2}{E_{rc}}$ $$\sum_{j=1}^{c}\dfrac{(O_{rj}-E_{rj})^2}{E_{rj}}$$
열의 합 $$\sum_{i=1}^{r}\dfrac{(O_{i1}-E_{i1})^2}{E_{i1}}$$ $$\sum_{i=1}^{r}\dfrac{(O_{i2}-E_{i2})^2}{E_{i2}}$$ $\cdots$ $$\sum_{i=1}^{r}\dfrac{(O_{ic}-E_{ic})^2}{E_{ic}}$$ $$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$

범주형 확률변수의 동일성

대응하는 여러 범주형 확률변수의 동일성은 이산형 확률분포의 동일성과 같습니다. 동일성은 카이제곱검정으로 검정합니다. 대응하는 여러 범주형 확률변수가 동일하다는 것은 각 범주(교차표의 칸)의 기대빈도수와 관찰빈도수가 같다는 의미입니다. 그리고, 동일성(동질성)검정은 한 범주형 변수의 값에 따라 구분되는 여러 확률분포의 동일성을 검정하는 방법으로 행해집니다.

가설

귀무가설 $H_{0}$ : 범주형 확률변수 $A$에서 범주형 확률변수 $B$의 분포는 동일하다.

대립가설 $H_{1}$ : 범주형 확률변수 $A$에서 범주형 확률변수 $B$의 분포는 동일하지 않다.

검정통계량

$$\mathop{\sum}\limits_{{i}{=}{1}}\limits^{r}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{c}{\frac{{\left({{O}_{ij}{-}{E}_{ij}}\right)}^{2}}{{E}_{ij}}}}$$

여기서 $O_{ij}$는 관측빈도수

 $E_{ij}$는 기대빈도수

그리고 $r$은 행으로 표현되는 범주형변수의  속성의 개수이고, $c$는 열로 표현되는 범주형변수의 속성의 개수입니다. 

새로운 확률변수의 확률분포는 근사적으로 자유도가 $(r-1)(c-1)$인 $\chi^2$분포를 따릅니다.

귀무가설($H_{0}$) 기각역 – 유의수준이 $α$일 때 

$$\chi_{obs}^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{\left(O_{ij}-E_{ij}\right)^2}{E_{ij}}>\chi^2_{(r-1)(c-1);\alpha}$$

여기서 $O_{ij}$는 관측빈도수

$E_{ij}$는 기대빈도수

$\alpha$는 유의수준

주의할 점

– 독립성검정에서 카이제곱분포를 이용하려면 모든 기대빈도수가 적어도 5이상이 되어야 한다.

– 5보다 작은 기대빈도수는 인접구간을 합쳐서 분석한다.

– 세 개 이상의 범주형 확률변수가 만든 카테고리(예를 들면, 세 범주형 확률변수가 만드는 $r \times c \times d$개의 카테고리)를 가지는 모집단이 있다고 할 때, 표본을 통하여 세 개 이상의 범주형 확률변수들의 분포의 동일성도 검정할 수 있다.

대응하는 여러 범주형 확률변수의 동일성 : 교차분석 카이제곱검정표

귀무가설($H_0$)검정통계량의 값대립가설($H_1$)귀무가설 기각역
$\chi_{obs}^2=0$$\chi_{obs}^2=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$\chi_{obs}^2<0$검정통계량으로 $\chi_{obs}^2$가 0보다 작은 지 알 수 없다.
$\chi_{obs}^2>0$검정통계량으로 $\chi_{obs}^2$가 0보다 큰 지 알 수 없다.
$\chi_{obs}^2\neq0$$\chi_{obs}^2>\chi_{(r-1)(c-1);\alpha}^2$

범주형 확률변수의 독립성

두 범주형 확률변수가 독립이라는 것은 개체가 속한 범주(교차표의 칸)의 기대빈도수와 관찰빈도수가 랜덤하게 다르다는 의미입니다. 그리고, 독립성검정은 한 범주형 확률변수의 값에 따라 구분된 각 집단에서나타나는 다른 범주형 확률변수의 확률분포의 독립성을 검정하는 방법으로 행해집니다.

가설

귀무가설 $H_{0}$ : 범주형 확률변수 $A$와 범주형 확률변수 $B$는 독립이다.

대립가설 $H_{1}$ : 범주형 확률변수 $A$와 범주형 확률변수 $B$는 독립이 아니다.

검정통계량

$$\mathop{\sum}\limits_{{i}{=}{1}}\limits^{r}{\mathop{\sum}\limits_{{j}{=}{1}}\limits^{c}{\frac{{\left({{O}_{ij}{-}{E}_{ij}}\right)}^{2}}{{E}_{ij}}}}$$

여기서 $O_{ij}$는 관측빈도수

$E_{ij}$는 기대빈도수 

그리고 $r$은 행으로 표현되는 범주형변수의  속성의 개수이고, $c$는 열로 표현되는 범주형변수의 속성의 개수입니다. 

새로운 확률변수의 확률분포는 근사적으로 자유도가 $(r-1)(c-1)$인 $\chi^2$분포를 따릅니다.

귀무가설($H_{0}$) 채택역 – 유의수준이 $α$일 때 

$$\chi_{obs}^{2}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{\left(O_{ij}-E_{ij}\right)^2}{E_{ij}}>\chi^2_{(r-1)(c-1);\alpha}$$

여기서 $O_{ij}$는 관측빈도수

$E_{ij}$는 기대빈도수

$\alpha$는 유의수준

주의할 점

– 독립성검정에서 카이제곱분포를 이용하려면 모든 기대빈도수가 적어도 5이상이 되어야 한다.

– 5보다 작은 기대빈도수는 인접구간을 합쳐서 분석한다.

– 세 개 이상의 범주형 확률변수가 만든 카테고리(예를 들면, 세 범주형 확률변수가 만드는 $r \times c \times d$개의 카테고리)를 가지는 모집단이 있다고 할 때, 표본을 통하여 세 개 이상의 범주형 확률변수들의 분포의 동일성도 검정할 수 있다.

한 범주형 변수로 구분된 여러 이산확률분포의 독립성 : 교차분석 카이제곱검정표

귀무가설($H_0$) 검정통계량의 값 대립가설($H_1$) 귀무가설 기각역
$\chi_{obs}^2\neq 0$ $\chi_{obs}^2=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$ $\chi_{obs}^2<0$ 검정통계량으로 $\chi_{obs}^2$가 0보다 작은 지 알 수 없다.
$\chi_{obs}^2>0$ 검정통계량으로 $\chi_{obs}^2$가 0보다 큰 지 알 수 없다.
$\chi_{obs}^2=0$ $\chi_{obs}^2>\chi_{(r-1)(c-1);\alpha}^2$

Terminology

유의수준(significant level, 유의미기준)

유의수준(significance level)은 통계적 가설검정에서 사용되는 기준값입니다. 일반적으로 유의 수준은 $\alpha$로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값이 됩니다. 가설검정의 절차에서 유의수준 값과 유의확률 값을 비교하여 통계적 유의성을 검정하게 됩니다.

출처

significance level – Wikipedia

통계적 유의성(statistical significance, 통계적 유의미)

통계적 가설검정(statistical hypothesis testing)에서 귀무가설(null hypothesis)을 고려할 때 가설이 매우 드물지만 발생하게 되면 결과는 통계적 유의성(statistical significance)를 가지게 됩니다. 더 정확히 말하자면 연구과정에서 지정한 $\alpha$로 표시되는 유의수준(significance level)은 귀무가설이 사실이라면 귀무가설을 기각할 수 있을 확률이며, 결과의 $p$값은 귀무가설이 사실일때 최소 극단적인 결과를 얻을 확률입니다. $p < \alpha$일 때 이 연구의 기준인 $\alpha$에 따라 결과가 유의미하다 할 수 있습니다. 연구의 유의 수준은 데이터 선택 전에 정해지고, 보통 연구 분야에 따라 5% 이하로도 설정합니다.

모집단에서 표본추출과 관련된 모든 실험 또는 관찰에서 표본추출 오류(sampling error)로 인해 관측된 결과가 있을 수도 있습니다. 하지만 여기서 관측된 결과의 $p$값이 유의수준보다 작으면 조사자는 그 결과가 모든 집단의 특성을 대표한다 할 수 있고, 그에 따라 귀무가설을 기각할 수 있습니다.

통계적 중요성을 검정하는 이 기법은 20세기 초에 개발되었습니다. 여기서 유의성(significance)이라는 용어는 중요성을 의미하지 않고, 통계적 유의성(statistical significance)이라는 용어는 이론적, 실제적 중요성과 같지 않습니다. 반면, Clinical significance이라는 용어는 임상(치료효과) 실질적 중요성을 나타냅니다.

출처

Statistical significance – Wikipedia

Reference

  1.  

본인의 Google 계정으로 구글시트를 복사

=COUNTA(B3:B22) : B3~B22 행의 범위에 있는 데이터의 개수
=COUNT(C3:C22) : C3 ~C22 행의 범위에 숫자 데이터의 개수

[DATA SCIENCE]

[PROJECT BASED LEARNING]