[DATA SCIENCE]
데이터사이언스 > 모델링 > 새로운 확률변수 > 확률변수의 제곱합과 비와 곱
범주형데이터, 순서있는 범주형데이터, 이산형데이터, 연속형데이터 이 중에서 이산형데이터와 연속형데이터는 수치로 나타나는 양적데이터입니다.
데이터 프레임은 열과 행으로 구성된 테이블 형태의 데이터 구조로, 다양한 데이터 타입의 값을 저장하고 데이터 분석에 활용됩니다.
개체의 속성으로 확률공간을 모델링
개체가 가진 두 범주형 변수의 상관관계를 파악하기 위해 교차표를 사용하며, 이는 변수별 범주를 기반으로 생성됩니다. 각 범주에 대한 관측빈도수를 기록하여, 행과 열의 합으로 변수 분포를 나타냅니다. 기대빈도수는 관측빈도로부터 산출되며, 두 변수의 독립성 가정하에 각 범주의 기대빈도를 계산합니다. 관측빈도와 기대빈도의 차이를 분석하여, 표준정규분포와 카이제곱분포 확률변수를 생성합니다. 이는 두 범주형 변수간 독립성을 검정하는 데 사용되며, 새로운 확률변수의 자유도는 범주수의 함수로 정의됩니다.
관측빈도수, 기대빈도수, 카이제곱분포, 교차표
개체(object)가 가지는 두 범주형 확률변수의 상관관계(correlation)를 관측하기 위해 표본으로 교차표를 만듭니다. 범주형 변수 $A$는 변수값에 따른 $r$개의 범주(category)를 만듭니다. 마찬가지로 범주형 변수 $B$는 변수값에 따른 $c$개의 범주를 만듭니다. 두 범주형 변수가 만든 범주(카테고리)는 총 $r×c$개가 됩니다. 이 두 범주형 변수가 이루는 범주를 표현한 표가 교차표입니다. 표본을 이루는 개체를 관측하여 범주에 해당하는 빈도수인 관측빈도수($O_{ij}$)를 교차표의 각 칸(cell)에 기입합니다. 행의 합은 범주형 변수, $A$의 분포를 나타내며 열의 합은 범주형 변수, $B$의 분포를 나타냅니다 만일, 범주형 변수가 확률변수이면 빈도수를 표본크기($n$)로 나눈 값은 그 범주의 확률이 됩니다.
관측빈도수 $O_{ij}$ | 범주형 변수 $B$ | 행의 합 | ||||
$B_{1}$ | $B_{2}$ | $\cdots$ | $B_{c}$ | |||
범주형 변수 $A$ | $A_{1}$ | $O_{11}$ | $O_{12}$ | $\cdots$ | $O_{1c}$ | $T_{1\cdot}$ |
$A_{2}$ | $O_{21}$ | $O_{22}$ | $\cdots$ | $O_{2c}$ | $T_{2\cdot}$ | |
$\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | |
$A_{r}$ | $O_{r1}$ | $O_{r2}$ | $\cdots$ | $O_{rc}$ | $T_{r\cdot}$ | |
열의 합 | $T_{\cdot 1}$ | $T_{\cdot 2}$ | $\cdots$ | $T_{\cdot c}$ | $n$ |
기대빈도수는 관측빈도수에서 산출됩니다. 기대빈도수는 범주형 변수 $B$의 각 값들에 대한 표본확률 $(\dfrac{T_{.1}}{n}, \dfrac{T_{.2}}{n}, \cdots·, \dfrac{T_{.c}}{n})$이 범주형 변수 $A$의 각각의 값에서도 동일하도록 기대되는 빈도수를 구한 것입니다.
교차표에서의 기대빈도수는 $n×p_{i·}×p_{·j}$입니다.
모집단의 $p_{i·}$와 $p_{·j}$는 모르므로 대신 관측빈도수에서의 추정량인 $\dfrac{T_{i·}}{n}$와 $\dfrac{T_{·j}}{n}$로 산출하여 대체하면 기대빈도수의 추정값($E_{ij}$)은 다음과 같습니다.
$$E_{ij}=n\left(\dfrac{T_{i·}}{n}\right)\left(\dfrac{T_{·j}}{n}\right)=T_{i·}\left(\dfrac{T_{·j}}{n}\right)$$
두 범주형 확률변수의 기대빈도수($O_{ij}$)을 나타내는 $r\times c$ 교차표는 다음과 같습니다.
기대빈도수 $E_{ij}$ | 범주형 변수 $B$ | 행의 합 | ||||
$B_{1}$ | $B_{2}$ | $\cdots$ | $B_{c}$ | |||
범주형 변수 $A$ | $A_{1}$ | $E_{11}=T_{1\cdot}\dfrac{T_{\cdot 1}}{n}$ | $E_{12}=T_{1\cdot}\dfrac{T_{\cdot 2}}{n}$ | $\cdots$ | $E_{1c}=T_{1\cdot}\dfrac{T_{\cdot c}}{n}$ | $T_{1\cdot}$ |
$A_{2}$ | $E_{21}=T_{2\cdot}\dfrac{T_{\cdot 1}}{n}$ | $E_{22}=T_{2\cdot}\dfrac{T_{\cdot 2}}{n}$ | $\cdots$ | $E_{2c}=T_{2\cdot}\dfrac{T_{\cdot c}}{n}$ | $T_{2\cdot}$ | |
$\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | |
$A_{r}$ | $E_{r1}=T_{r\cdot}\dfrac{T_{\cdot 1}}{n}$ | $E_{r2}=T_{r\cdot}\dfrac{T_{\cdot 2}}{n}$ | $\cdots$ | $E_{rc}=T_{r\cdot}\dfrac{T_{\cdot c}}{n}$ | $T_{r\cdot}$ | |
열의 합 | $T_{\cdot 1}$ | $T_{\cdot 2}$ | $\cdots$ | $T_{\cdot c}$ | $n$ |
표본의 관측빈도수와 기대빈도수로 표준정규분포를 나타내는 확률변수인 $Z$와 카이제곱분포를 나타내는 확률변수인 카이제곱($\chi^2$)을 생성합니다. 두 범주형 확률변수의 변수값의 개수(카테고리수, 범주수)를 각각 $r$과 $c$라고 할 때, 전체집단내에는 $r \times c$개의 집단(카테고리, 범주)이 생성됩니다. 표본크기가 $n$인 표본을 전체집단에서 추출할 때, $r \times c$개의 범주(집단)로 $n$개의 개체(object)가 나누어집니다(categorizing). 여기서, 각 범주(집단)에 속하는 개체의 빈도수를 관측한 빈도수를 표본크기로 나눈 값은 그 범주의 표본확률질량을 나타냅니다. 관측빈도수를 기대빈도수로 나누면 표본확률질량의 추정값을 구할 수 있습니다. 표본확률질량은 모확률질량의 점추정량이라고 할 수 있습니다.
각 범주에서의 표본확률질량은 모확률질량을 평균으로 하는 표준정규분포를 나타냅니다. 표본확률질량을 구할 때 관측빈도수의 기준으로 표본의 기대빈도수를 사용하면 각 범주의 표본확률질량의 합은 카이제곱($\chi^2)분포를 나타냅니다. 관측빈도수를 표집하면 기대빈도수를 평균과 분산으로 하는 정규분포를 나타냅니다.
$$O_{ij} ∼ N(E_{ij}, E_{ij})$$
이 정규분포를 표준정규분포로 변환하면 다음과 같습니다.
$$\dfrac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}} =Z_{ij}∼ N(0, 1)$$
각 집단의 표준정규분포를 가지는 $Z_{ij}$를 모두 더한 확률변수는 $\chi^2$이고 $\chi^2$분포를 나타냅니다.
$$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij} – E_{ij})^2}{E_{ij}}=\chi^2 ∼ \chi^2_{(r-1)(c-1)}$$
주의할 점은 유도된 새로운 확률변수, 카이제곱($\chi^2$)의 자유도는 $r\times c$가 아니라 $(r-1)\times (c-1)$이라는 점입니다. 두 범주형 확률변수가 완전 독립이면 표본 범주의 자유도는 $(r × c-1)$가 됩니다. 하지만 기대빈도수를 구할 때 두 변수 범주의 자유도인 $(r-1)$과 $(c-1)$가 기대빈도수를 구하는데 사용됩니다. 따라서, 표본 관측빈도 자유도는 $(r-1)(c-1)$이라고 할 수 있습니다. 자유도의 등식은 다음과 같습니다.
$$(r \times c-1)=(r-1)+(c-1)+(r-1)(c-1)$$
여기서, (표본 범주의 자유도)=(A 범주의 자유도)+(B 범주의 자유도)+(표본 관측빈도 범주의 자유도)
$r$과 $c$는 두 범주형 확률변수값의 개수(범주수, 카테고리수)
따라서, 표본의 기대빈도를 기준으로 하는 관측빈도 범주의 자유도는 다음과 같습니다.
$$(r-1)(c-1)=(r \times c-1)-(r-1)-(c-1)$$
여기서, (표본 관측빈도 범주의 자유도)=(표본 범주의 자유도)-(A 범주의 자유도)-(B 범주의 자유도)
$r$과 $c$는 두 범주형 확률변수값의 개수(범주수, 카테고리수)
$Z^2$ | 범주형 변수 $B$ | 행의 합 | ||||
$B_{1}$ | $B_{2}$ | $\cdots$ | $B_{c}$ | |||
범주형 변수 $A$ | $A_{1}$ | $\dfrac{(O_{11}-E_{11})^2}{E_{11}}$ | $\dfrac{(O_{12}-E_{12})^2}{E_{12}}$ | $\cdots$ | $\dfrac{(O_{1c}-E_{1c})^2}{E_{1c}}$ | $$\sum_{j=1}^{c}\dfrac{(O_{1j}-E_{1j})^2}{E_{1j}}$$ |
$A_{2}$ | $\dfrac{(O_{21}-E_{21})^2}{E_{21}}$ | $\dfrac{(O_{22}-E_{22})^2}{E_{22}}$ | $\cdots$ | $\dfrac{(O_{2c}-E_{2c})^2}{E_{2c}}$ | $$\sum_{j=1}^{c}\dfrac{(O_{2j}-E_{2j})^2}{E_{2j}}$$ | |
$\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ | |
$A_{r}$ | $\dfrac{(O_{r1}-E_{r1})^2}{E_{r1}}$ | $\dfrac{(O_{r2}-E_{r2})^2}{E_{r2}}$ | $\cdots$ | $\dfrac{(O_{rc}-E_{rc})^2}{E_{rc}}$ | $$\sum_{j=1}^{c}\dfrac{(O_{rj}-E_{rj})^2}{E_{rj}}$$ | |
열의 합 | $$\sum_{i=1}^{r}\dfrac{(O_{i1}-E_{i1})^2}{E_{i1}}$$ | $$\sum_{i=1}^{r}\dfrac{(O_{i2}-E_{i2})^2}{E_{i2}}$$ | $\cdots$ | $$\sum_{i=1}^{r}\dfrac{(O_{ic}-E_{ic})^2}{E_{ic}}$$ | $$\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$ |
통계, 품질보증 및 조사방법론에서 표본추출은 모집단(통계의 대상이 되는 집단)의 특성을 추정하기 위해 모집단 내에서 하위집합(통계표본)을 선택하는 것입니다. 통계학자들은 표본을 통해 모집단을 표현하기 위해 연구합니다. 표본추출의 2가지 장점은 전수조사에 비해 비용이 저렴하고 데이터수집이 빠르다는 것입니다.
각 관측값(관측치)은 관측이 가능한 독립개체 또는 개인이나 구분될 수 있는 대상의 하나 이상의 속성(예를 들어 무게, 위치, 색)을 관측(관찰, 측정)한 것입니다.
측량 표본추출(survey sampling), 특히 층화 표본추출(stratified sampling)에서 설계된 표본을 조정하기 위해 가중치를 적용할 수 있습니다. 확률이론과 통계의 결과는 실험을 조정하는데 사용됩니다. 비즈니스 및 의학연구에서 표본추출은 집단에 대한 정보를 모으는데 널리 쓰입니다. 채택 표본추출(acceptance sampling)은 생산제품이 관리사양을 충족시키는지를 결정하는데 사용됩니다.
출처
통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는 값들의 갯수입니다.
한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.
통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면, 표본분산은 표본크기($n$ )로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친 모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸 $(n-1)$의 자유도를 가집니다.
수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.
출처
본인의 Google 계정으로 구글시트를 복사
=COUNTA(B3:B22) : B3~B22 행의 범위에 있는 데이터의 개수
=COUNT(C3:C22) : C3 ~C22 행의 범위에 숫자 데이터의 개수