Learning DATALINK

[QA]

QA > 모델링 > 통계모델 

변동계수 ?

ARTICLE CONTENTS

Play Video

Coefficient of variation

Print

변동계수

변동계수(변이계수, variation coefficient)는 집단의 평균에 대한 표준편차의 비입니다. 변동계수는 한 확률변수가 나타내는 확률분포의 표준편차를 평균으로 나눈 것이라고 할 수 있습니다. 따라서 변동계수는 단위가 없고 단위가 다른 속성을 비교할 수 있는 장점이 있습니다. 변동계수는 표준편차와 평균간의 계수이며 여기서, 평균은 0이 될 수 없고 양의 실수인 경우입니다. 변동계수는 평균에 대한 표준편차의 크기 비율이므로 상대표준편차(relative standard deviation, RSD)라는 용어가 변동계수가 가진 개념을 더 명확하게 설명해 줍니다. 

모집단의 변동계수(coefficient of variation, CV)는 모표준편차($\sigma$)를 모평균($\mu$)으로 표준화(standardization)시킨 것입니다. 즉, 변동계수는 모표준편차를 모평균으로 나눈 것입니다.

$$CV=\dfrac {\sigma}{\mu}$$

표본에서의 변동계수(coefficient of variation, CV)는 표본의 표준편차($S$)를 표본의 산술평균($\bar{X}$)으로 나눈 것입니다.

$$CV=\dfrac {S}{\bar{X}}$$

여기서, $X$는 확률변수

모집단의 변동계수는 상수입니다. 표본의 변동계수는 평균과 표준편차인 두 확률변수의 비입니다. 그리고 평균을 양의 실수로 한다면 변동계수는 새로운 확률변수로 정의할 수 있습니다.

변동계수와 변동의 개념비교

변동계수와 변동은 다른 개념을 설명하는 용어입니다. 변동(variation)은 집단의 각 데이터 포인트의 평균과의 차이(편차)를 제곱하여 합한 값입니다. 변동은 집단에 속한 개체의 수의 정보도 포함하고 있습니다. 따라서 개체의 수가 많을 수록 집단의 변동은 커지며 집단에 속한 개체수가 많다는 것은 집단의 정보량도 많다고 할 수 있습니다. 따라서 변동은 집단간의 상대빈도(개체의 출현확률)를 반영하는 상대적인 개념을 가지고 있습니다.집단의 변동은 집단의 개체수 외에 각 개체의 속성을 나타내는 데이터는 얼마나 평균으로 부터 얼마나 떨어져 있는 지를 알려 줍니다. 이 두가지 정보를 합하면 집단이 얼마나 퍼져 있는 지, 즉 변동이 큰 지를 알려줍니다. 즉 집단의 분포의 정도를 수치적으로 파악할 수 있습니다. 집단의 변동을 집단의 자유도로 나누어 집단의 분산을 구하고 그 분산의 제곱근으로 표준편차를 구합니다. 

변동계수 활용사례

변동계수는 농장에서 생산한 딸기가 당도가 얼마나 고른지를 알고자 하는 경우에 사용합니다. 딸기의 표본은 보통 출하시에 추출하게 되는데 당도는 출하시기의 영향을 크게 받습니다. 즉, 출하시기별로 당도의 표본평균이 다릅니다. 표본의 당도의 표본평균이 높으면 당도의 변화(변동)가 덜 느껴지기 때문에 표본표준편차를 표본평균으로 나눈(표준화한) 변동계수로 출하시기별 당도의 변화를 비교하게 됩니다.

다음 동영상에서는 변동계수의 활용사례로 1) 기업성과 비교, 2) 상품가치 비교를 설명하고 있습니다.

변동계수 활용사례 1 : 기업성과 비교
변동계수 활용사례 2 : 상품가치 비교

Terminology

산술평균

확률과 통계에서 데이터의 평균은 보통 산술평균을 의미합니다. 산술평균 (기대값)은 중심값으로서 데이터 값의 합을 데이터 수로 나눈 값입니다. 숫자 집합 x1, x2, …, xn의 산술평균은 일반적으로 “엑스 바(X bar)”라고 발음되는 $\bar {X}$로 표시됩니다. 집단의 모평균($\mu$ 또는 $\mu_{X}$로 표시)은 “뮤”라고 발음합니다. 집단에서 추출하여 얻은 여러 개의 표본의 산술평균을 집단의 표본평균 ($\bar {X}$)의 표집(Sample distribution)이라고 부릅니다.

확률 및 통계에서 집단의 모평균(기대값)은 확률분포 또는 그 분포로 특정되는 확률변수의 중심을 표현하는 대표적인 척도입니다. 확률변수 $X$의 이산확률분포의 경우, 평균은 그 값의 확률로 가중치화된 모든 값의 합과 동일합니다. 즉, $X$의 가능한 값 $x$와 그 확률$p (x)$의 곱을 취한 다음 이들을 모두 합하여 구합니다. $ \mu = \sum xp(x)$. 연속확률 분포의 경우에도 유사한 공식이 적용됩니다. 예를 들어, 구성원의 평균 키는 모든 구성원의 키를 합하여 전체 개체 수로 나눈 값과 같습니다. 모든 확률분포에 정의된 평균이 있는 것은 아닙니다. 예를 들어 Cauchy 분포입니다.

집단의 표본평균은 집단의 모평균과 다를 수 있으며, 특히 표본크기가 작을수록 경우집단의 표본평균과 모평균은 다를 가능성이 높아집니다. 큰 수의 법칙은 표본의 크기가 클수록 집단의 표본평균이 집단의 모평균에 가까울 확률이 높다는 것을 나타냅니다.

출처

Mean – Wikipedia

표준편차

표준편차(모표준편차는 $\sigma$, 표본표준편차는 $S$를 기호로 사용)는 데이터 값의 다양성이나 분포를 나타내는 척도입니다. 표준편차가 작다는 것은 데이터 값들이 대략적으로 평균(기대값)에 가까이 분포한다는 것을, 표준편차가 높다는 것은 평균에서 멀리 분포한다는 것을 의미합니다.

확률변수, 통계적 집단, 데이터의 무한집합 또는 확률분포의 모표준편차는 모분산의 제곱근입니다. 절대편차의 평균보다 정확하지는 않지만 수학의 대수적인 면에서 더 간단합니다. 표준편차가 가지는 장점은 분산과 다르게 데이터와 같은 단위를 사용한다는 것입니다.

표준편차는 집단의 분포정도(분산도)를 표현하기 위한다는 것 외에도 통계적 결론에 대한 신뢰도를 측정하는 데에도 사용됩니다. 예를 들어, 투표 데이터의 오류 허용 범위는 투표가 여러번 진행되었을 때 기대되는 표준편차를 계산하여 구하게 됩니다. 이 표준편차의 활용은 추정치의 표준오차, 또는 평균값의 표준 편차라고 부릅니다. 무한한 수의 표본이 추출되고 각 표본의 평균이 계산될 경우 그 집단에서 추출될 수 있는 모든 표본에서 계산되는 표본평균의 표준편차를 표본평균 표집의 모표준편차로 부릅니다. 즉, 표본평균의 표집의 모표준편차가 통계적 결론(모평균 점추정)에 대한 신뢰도로 나타납니다.

집단의 모표준편차와 집단에서 추출한 표본에서 구한 표본평균의 표준오차는 서로 다르면서도 연관되어 있다는 것(관측 수의 제곱근과 관련됨)이 매우 중요합니다. 관찰된 오류는 표본평균의 표준 오차(집단의 모표준편차에 표본크기의 제곱근의 역수를 곱한 것)로 계산되며 일반적으로 95% 신뢰구간의 절반, 표준편차의 약 2배(정확하게는 1.96배)입니다.

과학에서는 많은 연구자들이 실험 데이터의 표준편차를 기록한 후, 기대했던 값보다 표준편차의 2배가 넘게 차이가 났을 때에만 통계적으로 의미있다고 판단해 일반적인 무작위적 오류를 배제합니다. 또한 표준편차는 투자 변동성의 척도를 수익률의 표준편차로 계산되는 것처럼 금융에서도 중요합니다.

집단의 데이터 중 일부만 사용이 가능할 경우, “표준편차의 표본” 또는 “표본표준편차” 이 2가지 표현이 모두 위에서 언급한 양 또는 집단의 모표준편차의 편견없는 기대값을 의미할 수 있습니다.

출처

standard deviation – Wikipedia


[DATA SCIENCE]