DATALINK

[QA]

QA > 모델링 > 통계모델 

표준오차 ?

ARTICLE CONTENTS

Standard error

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

차이, 편차, 오차, 잔차

차이

차이(difference)는 두 값의 간격입니다. 두 값이 같으면 차이는 0입니다. 기준이 없습니다. 0과 양수로 표현됩니다.

편차

편차(deviation)는 값에서 기준값을 뺸 값입니다. 표본에서는 기준값으로 표본평균을 많이 사용합니다. 0과 양수와 음수로 표현됩니다.

오차

오차(error)는 기대값을 기준값으로 사용하는 편차입니다. 즉, 기대하는 값과의 편차를 나타냅니다. 0과 양수와 음수로 표현됩니다.

잔차

잔차(residual)은 기대값이 회귀점, 회귀선, 회귀면, 최귀초평면에 위치하는 경우의 오차입니다. 즉, 개체의 값 중에서 회귀하지 않는 부분의 양을 나타냅니다. 0과 양수와 음수로 표현됩니다.

중심극한정리에 따른 표본통계량의 확률분포

표본

표본(sample)은 모집단을 이루는 개체(object)에서 일부를 추출하여 생성된 모집단의 부분집합이라고 할 수 있습니다. 표본이 추출된 집합이 그 표본의 모집단(population)입니다. 또한 표본은 모집단 모델에서 생성된 개체의 집합이라고 할 수 있습니다. 표본크기는 추출한 개체의 개수입니다. 모집단을 집합으로 표현하면 표본을 그 집합의 부분집합으로 표현할 수 있습니다.

표본통계량

대표적인 표본통계량에는 표본평균과 표본분산이 있습니다. 표본통계량은 확률변수입니다. 그리고 표본통계량은 모수의 점추정량입니다.

표본을 이루는 개체(object)의 속성이 수치로 표현되고 개체의 개수를 알면 그 속성의 표본평균(sample mean)과 표본분산(sample variance)을 구할 수 있습니다.

표본평균(sample mean)은 표본의 각 값과의 편차제곱의 합이 가장 작게 되는 값입니다. 표본의 각 값과 표본평균과의 편차제곱의 합을 표본변동(sample variation)이라고 합니다. 표본평균은 표본을 대표하는 대표값 중 하나입니다. 다른 대표값에는 중앙값(median), 최빈값(mode) 등이 있습니다.

표본분산(sample variance)은 표본의 분포 정도를 나타내는 분포값 중 하나입니다. 다른 분포값에는 4분위수(quartile), 백분위수(quantile) 등이 있습니다. 표본변동을 표본내 개체의 자유도로 나눈 값이 표본분산입니다. 표본분산의 단위는 표본평균의 단위의 제곱으로 표현합니다. 표본표준편차(sample deviation)는 표본분산의 제곱근으로 정의합니다. 표본표준편차의 단위는 표본평균의 단위와 같습니다. 

표본통계량의 확률분포와 표준오차

표본평균은 확률변수입니다. 표본평균의 확률분포(sampling distribution of sample mean)는 모집단의 평균인 모평균을 중심으로 종모양의 대칭의 확률분포를 가집니다. 표본크기가 클 수록 정규분포 모양에 가까워 집니다. 이를 중심극한정리라고 합니다. 표본평균의 확률분포의 표준편차를 표본평균의 표준오차(standard error of sanple mean)라고 합니다.

표본분산은 확률변수입니다. 표본분산의 확률분포(sampling distribution of sample variance)는 표본크기가 작을 때는 비대칭의 분포를 가지다가 표본크기가 커질수록 모집단의 분산(모분산)을 중심으로하는 종모양의 모양에 가까워 집니다. 이를 중심극한정리라고 합니다. 표본분산의 확분포의 표준편차를 표본분산의 표준오차(standard error of sample variance)라고 합니다.

표본통계량과 모수의 비

표본통계량의 오차의 기준은 모수(parameter)입니다. 모수는 모집단(population)을 표현하는 모집단통계량이며 대표적으로 모평균($\mu$)과 모분산($\sigma^2$) 등이 있습니다. 모집단의 크기가 클수록 또는 무한집단인 경우, 모집단의 속성은 표본을 통해서 알 수 있습니다. 그래서, 표본을 통해 모집단의 속성을 알고자 하는 실험을 합니다. 예를 들어, 모집단이 특정 확률분포를 나타냄을 알고 있다면 실험을 통해 그 확률분포의 모수(매개변수, parameter)를 추정해서 모집단의 확률모델(생성모델)을 알 수 있습니다.

표본평균의 표준오차

확률변수인 표본평균은 중심극한정리에 의해 모평균을 중심으로 하는 종모양의 확률분포를 나타냅니다. 표본평균의 표준오차는 이 확률분포의 표준편차를 의미합니다. 표본평균의 기대값은 모평균입니다. 표본평균의 기대값인 모평균과 표본평균과의 편차(deviation)는 오차(error)이고 확률변수입니다. 이 확률변수의 확률분포의 표준편차를 표준오차라고 합니다. 만일, 확률변수의 확률분포가 정규분포라면 모표준편차를 표본크기($n$)의 제곱근으로 나눈값이 표본평균의 확률분포의 표준오차의 추정값(estimate)이며 표본평균의 표준오차의 추정값입니다.

 여기서 표준오차는 확률변수로서의 오차의 표준화라고 할 수 있습니다. 이는 확률변수의 단위를 표준편차로 할 수 있는 것과 같습니다.  참고로 정규분포에서의 표준화는 확률변수를 변환하여 표준편차를 1로 하는 과정을 말합니다.

정리하면 표본평균의 표준오차(standard error of the mean)는 표본평균 확률분포의 표준편차와 같습니다. 역으로, 표본평균의 퍼짐의 정도를 나타내는 표준편차($\sigma_{\bar{X}}$)는 표본평균의 표준오차입니다. 표본평균의 기대값은 중심극한정리에 따라 모평균이고 표준오차의 비교기준이라고 할 수 있습니다.

모집단과 표본의 확률변수

$$X$$

모집단모델

$$\{X_1, X_2, \cdots , X_{N}\}$$

여기서, $N$ 모집단크기이며 모집단이 무한집단이면 $N \rightarrow \infty$

표본모델

$$\{X_1, X_2, \cdots , X_{n}\}$$

여기서,  $n$은 표본크기

표본평균은 확률변수이며 확률변수에 “bar” 올려 표기

$$\bar X$$

표본평균($\bar X$)의 기대값: 모평균

$${\rm E}[\bar X]=\mu_X$$

표본분산($S^2$)의 기대값: 모분산

$${\rm E}[S^2]=\sigma^2_X$$

표본평균의 표집모델

$$\{{\bar X}_1, {\bar X}_2, \cdots , {\bar X}_{\infty}\}$$

여기서,  표본평균의 표집의 크기는 $\infty$

표본평균 표집분포의 평균: 표본평균 확률분포의 평균 = 표본평균의 기대값 = 모평균

$$\mu_{\bar X}={\rm E}[\bar X]=\mu_X$$

표본평균 표집분포의 분산: 모분산을 표본크기로 나눈 것

집단의 전체변동은 집단의 변동과 집단내 개체의 변동으로 나누어 생각할 수 있습니다.

모집단에서 표본을 추출(표집)하면 표본의 변동은 두 변동의 합으로 생각할 수 있습니다. 하나는 모평균을 원점으로 하는 좌표계에서의 표본의 변동, 즉 표본평균의 변동이고 다른 하나는 표본평균을 원점으로 하는 좌표계에서의 표본의 변동으로 생각할 수 있습니다. 표본이 하나의 집단으로 구성되어 있다면 표본의 변동은 표본평균의 분산과 개체 하나로 표준화된 표본내 변동으로 표현할 수 있습니다.

$$\sigma_{\bar X}^2={\rm Var}[\bar X]=\dfrac{\sigma_X^2}{n}$$

여기서,  $n$은 표본크기

표본평균 표집분포의 표준편차: 표본평균의 표준오차

$$\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}}$$

여기서,  $n$은 표본크기

표본평균($\bar X$)의 $Z$변환

$$Z=\dfrac{\bar X-\mu_X}{\dfrac{\sigma_X}{\sqrt{n}}}∼Z분포$$

여기서,  $n$은 표본크기이며 큰 수

표본평균($\bar X$)의 $t$변환

$$t=\dfrac{\bar X-\mu_X}{\dfrac{S_X}{\sqrt{n}}}∼t_{n-1}$$

여기서,  $n$은 표본크기 : $(n-1)$은 표본크기가 $n$인 표본의 자유도

$t_{n-1}$은 자유도가 $(n-1)$인 $t$분포

표본평균의 표준오차 : 표본평균 표집분포의 표준편차

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$n$은 표본크기

표본평균의 표준오차 – 표본크기가 큰 경우는 $\sigma_X≈S_X$

$${\rm SE}(\bar X)=\sigma_{\bar X}={\rm SD}[\bar X]=\sqrt{\dfrac{\sigma_X^2}{n}} = \dfrac{\sigma_X}{\sqrt{n}}≈\dfrac{S_X}{\sqrt{n}}$$

여기서,  $\sigma^2_X$는 모분산

$\sigma_X$는 모표준편차

$S_X$는 표본표준편차

$n$은 표본크기

표본평균의 표준오차 추정량 

표본평균 표집분포의 분산 추정량

$$\dfrac{S_X^2}{n}=\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}=\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

표본평균 표집분포의 표준편차 추정량: 표본평균 표준오차 추정량

$$\sqrt{\dfrac{S_X^2}{n}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i -\bar X)^2}{n(n-1)}}=\sqrt{\dfrac{\sum\limits_{i=1}^{n}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$n$은 표본크기

만일 개체($i$)마다 가중치($\omega_i$)가 다르다면 다음과 같이 표본평균의 표준오차 추정량을 계산합니다.

$$\sqrt{\dfrac{\sum\limits_{i=1}^{n}{\omega_i}{X_{ri}^2}}{n(n-1)}}$$

여기서, $S^2_X$는 표본분산

$\bar X$는 표본평균

$X_r$은 잔차 : $X_r=X-{\bar X}$

$\omega_i$는 가중치

$n$은 표본크기

Terminology

표집분포(sampling distribution, finite-sample distribution)

통계에서 표본의 분포는 표집분포(sampling distribution) 또는 유한표본분포( finite-sample distribution)라 불리우기도 합니다. 표집분포는 정해진 무작위 표본추출을 기반으로 한 확률분포입니다. 여러가지의 관측(observations)결과가 있는 매우 많은 표본의 통계량(예를 들어 표본평균 또는 표본분산)을 계산한다면, 표집분포는 그 표본이 가지는 확률변수의 확률분포라고 할 수 있습니다. 따라서 많은 경우, 하나의 표본을 관찰하고 표집분포는 이론적으로 구합니다.

표집분포는 통계적 추론(statistical inference)을 위한 핵심 단순화과정이기 때문에 통계에서 매우 중요합니다. 보다 구체적으로, 표집분포의 분석시 고려사항은 표본통계량의 공동확률분포(joint probability distribution)보다는 모집단(통계집단) 확률분포의  조사 기반으로의 사용입니다.

출처

Sampling distribution – Wikipedia

모수(매개변수, parameter)

통계적 매개변수 또는 모집단 매개변수는 통계량 또는 확률분포를 설명하는 데 사용되는 변수입니다. 매개변수는 모집단이나 통계모델의 수치적 특성이라 할 수 있습니다.

색인 분류된  집단의 분포가 있다고 가정해 봅니다. 색인이 집단의 분포의 매개변수로도 작용한다면, 그 집단은 매개변수화된 집단이라 할 수 있습니다. 예를 들어, chi-squared 확률분포를 가지는 집단은 자유도에 의해 색인되어 분류될 수 있습니다. 자유도는 chi-squared 분포의 매개변수이므로 chi-squared 분포를 가지는 집단은 자유도라는 매개변수로 매개변수화 되었다고 할 수 있습니다.

출처

Statistical parameter – Wikipedia

중심극한정리(central limit theorem)

확률이론에서 중심극한정리(CLT, Central Limit Thorem)는 독립변수가 추가될 때, 어떤 조건에서는 원래 변수가 정규분포가 아니더라도 표준화된 합(예를 들면 표본크기로 표준화된 표본평균)이 정규분포(일명 “종 모양”)에 가까워진다는 것을 말합니다. 이 이론은 정규분포에 적용되는 확률 및 통계 방법이 다른 형식의 분포를 가지는 많은 경우에도 사용될 수 있음을 나타내기 때문에 확률에서 매우 중요합니다.

예를 들어, 다수의 측정값으로 구성된 표본이 있고, 각 측정값은 다른 측정값과 관계없이 무작위로 생성되고 그 값들의 산술평균을 계산한다고 가정해 봅니다. 이 과정이 여러 번 이루어진다면, 중심극한정리에 따라 이 평균의 분포는 정규분포에 근사합니다. 간단한 예로 동전을 여러 번 던질 경우 앞면이 몇 번 나올지에 대한 확률분포는 던진 횟수의 절반이 평균이 되는 정규분포에 가까워집니다(무한대로 던지게 되면 정규 분포와 같게 됩니다).

중심극한정리는 여러가지의 변형된 정리가 있습니다. 일반적인 형태에서는 확률변수가 동일하게 존재하여야 합니다. 하지만 변형된 정리에서는, 평균의 확률분포의 정규분포로에 대한 근사는 조건만 만족한다면 동일하지 않은 분포나 독립적이지 않은 측정에서도 일어납니다. 이 정리의 처음 형태(정규분포를 이항분포에 대한 근사로 사용할 수 있다)는 현재 드므와르 라플라스 정리로 알려져 있습니다.

출처

Central limit theorem – Wikipedia

자유도(degree of freedom)

통계에서 자유도는 통계의 최종 산출과정에서 사용되는 변할 수 있는  값들의 갯수입니다.

한편, 동적 계(시스템)가 움직일 수 있는 독립적인 방법의 수도 자유도라 합니다. 즉, 동적 계(시스템)에서의 자유도는 시스템의 상태를 확정 지을수 있는 최소의 독립 좌표수라고 정의할 수 있습니다. 예를 들면, 3차원 공간에서의 계의 운동은 6자유도로 표현합니다. 즉, 선운동의 방향 3자유도와 원운동의 방향 3자유도로 표현합니다. 계의 위치도 마찬가지로 6자유도입니다. 계의 공간에서의 위치를 지정하는 3개의 좌표와 계의 방향을 지정하는 방향벡터는 3개의 좌표를 가지고 있습니다.

통계의 모수(매개변수, parameter)값은 정보나 데이터의 양에 따라 달라집니다. 모수의 추정에 들어가는 독립적인 정보의 수를 통계에서는 자유도라 부릅니다. 일반적으로, 자유도는 모수의 추정에 들어간 독립변수들의 수에서 모수의 추정에서 중간 단계로 사용된 모수의 수를 뺀 값입니다. 예를 들면,  표본분산은 표본크기($n$ )로 표현되는 개수의 확률변수들로부터 1번의 연산을 거친  모수인 표본평균에서의 거리로 구하기 때문에 표본분산은 표본평균의 갯수 1을 뺸  $(n-1)$의 자유도를 가집니다.

수학적으로, 자유도는 확률변수 또는 확률벡터의 차원 수, 또는 본질적으로는 “자유로운” 구성 요소의 수로 볼 수 있습니다. 이 용어는 특정 임의 벡터가 선형 부분 공간에 속하도록 제한되어 있고 자유도가 공간의 차원을 나타내어 선형모델(선형회귀 분석, 분산분석)에 주로 사용됩니다. 자유도는 또한 벡터의 제곱 크기(좌표의 제곱합)와 연관된 통계에서 나타나는 카이제곱 및 기타 분포의 모수(매개변수, parameter)와 관련됩니다.

출처

Degrees of freedom (statistics) – Wikipedia

[DATA SCIENCE]