Learning DATALINK

[DATA SCIENCE]

데이터사이언스 > 데이터분석> 관계비교 > 상관분석

두 연속형 확률변수의 상관계수 비교: 상관분석 t검정

산점도와 피어슨상관계수
표1

[Q&A]

범주형데이터, 순서있는 범주형데이터, 이산형데이터, 연속형데이터 이 중에서 이산형데이터와 연속형데이터는 수치로 나타나는 양적데이터입니다. 

데이터 프레임은 열과 행으로 구성된 테이블 형태의 데이터 구조로, 다양한 데이터 타입의 값을 저장하고 데이터 분석에 활용됩니다.

개체의 속성으로 확률공간을 모델링

ARTICLE CONTENTS

Play Video

상관분석 t검정

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

Abstract

모수와 통계량 추정에서, 확률변수의 모평균, 모분산, 모표준편차는 각각 표본평균, 표본분산, 표본표준편차를 통해 추정됩니다. 상관분석은 두 변수 간의 선형적 관계를 측정하며, 피어슨상관계수는 이 관계의 강도와 방향을 수치화합니다. 공분산은 두 변수 간의 변동성을 나타내며, 상관계수는 공분산을 표준화한 값입니다. 상관계수의 제곱인 결정계수는 변수 간 관계의 적합도를 평가합니다. 표본상관계수의 표준오차와 검정통계량을 이용해 상관관계의 유의성을 검정할 수 있습니다.

Key Word

연속형 확률변수, 산점도, 상관계수, 피어슨상관계수, 상관분석, t검정

모수와 통계량의 추정량

양적 확률변수 $X$의 추정량(estimator)

$X$의 모평균 : $\mu_{X}$

$$\mu_{X} = \dfrac{\sum\limits_{i=1}^{N}X_i}{N}$$

여기서,  $N$은 집단크기 : 무한집단인 경우  $N → ∞$

$X$의 표본평균 : $\bar {X}$

$$\bar {X} =\dfrac{\sum\limits_{i=1}^{n}X_i}{n}$$

여기서, $n$은 표본크기

$X$의 모분산 : $\sigma^2_{X}$

$$\sigma^2_{X} = \dfrac{\sum\limits_{i=1}^{N}(X_i – \mu_X)^2}{N}$$

여기서,  $\mu_X$는 확률변수 $X$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$X$의 표본분산 : $S^2_{X}$

$$S^2_{X} = \dfrac{\sum\limits_{i=1}^{n}(X_i{-}\bar{X})^2}{n-1}$$

여기서, $\bar{X}$는 확률변수 $X$의 표본평균

$n$은 표본크기

$X$의 모표준편차 : $\sigma_{X}$

$$\sigma_{X} = \sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i – \mu_X)^2}{N}}$$

여기서,  $\mu_X$는 확률변수 $X$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$X$의 표본표준편차 : $S_{X}$

$$S_{X} = \sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i{-}\bar{X})^2}{n-1}}$$

여기서, $\bar{X}$는 확률변수 $Y$의 표본평균

$n$은 표본크기

양적 확률변수 $Y$의 추정량(estimator)

$Y$의 모평균 : $\mu_{Y}$

$$\mu_{Y} = \dfrac{\sum\limits_{i=1}^{N}Y_i}{N}$$

여기서,  $N$은 집단크기 : 무한집단인 경우  $N → ∞$

$Y$의 표본평균 : $\bar {Y}$

$$\bar {Y} =\dfrac{\sum\limits_{i=1}^{n}Y_i}{n}$$

여기서, $n$은 표본크기

$Y$의 모분산 : $\sigma^2_{X}$

$$\sigma^2_{Y} = \dfrac{\sum\limits_{i=1}^{N}(Y_i – \mu_Y)^2}{N}$$

여기서,  $\mu_Y$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$Y$의 표본분산 : $S^2_{Y}$

$$S^2_{Y} = \dfrac{\sum\limits_{i=1}^{n}(Y_i{-}\bar{Y})^2}{n-1}$$

여기서, $\bar{Y}$는 확률변수 $Y$의 표본평균

$n$은 표본크기

$Y$의 모표준편차 : $\sigma_{Y}$

$$\sigma_{Y} = \sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i{-}\mu_{Y})^2}{N}}$$

여기서, $\mu_{Y}$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$Y$의 표본표준편차 : $S_Y$

$$S_{Y} = \sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i{-}\bar{Y})^2}{n-1}}$$

여기서, $\bar{Y}$는 확률변수 $Y$의 표본평균

$n$은 표본크기

양적 확률변수 $X$와 $Y$의 추정량

모공분산 : 모$\mathrm{Cov}(X{,}Y)=\sigma_{XY}$

$$\sigma_{XY}=\dfrac{\sum\limits_{i=1}\limits^{N}(X_i{-}\mu_{X})(Y_i{-}\mu_{Y})}{N}$$

여기서,  $\mu_{X}$는 확률변수 $X$의 모평균

$\mu_{Y}$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

표본공분산 : 표본$\mathrm{Cov}(X{,}Y)=S_{XY}$

$$S_{XY}=\dfrac{\sum\limits_{i=1}\limits^{n}(X_i{-}\bar{X})(Y_i{-}\bar{Y})}{n-1}$$

여기서,  $\bar{X}$는 확률변수 $X$의 표본평균

$\bar{Y}$는 확률변수 $Y$의 표본평균  

$n$은 표본크기

모피어슨상관계수

$$\rho_{XY}=\dfrac {\sigma_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{N}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}$$

여기서, $\sigma_{XY}$는  $X$와 $Y$의 모공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

표본피어슨상관계수

$${r}_{XY}=\dfrac {S_{XY}} {S_{X}S_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}{n-1}}}$$

여기서, $S_{XY}$는  $X$와 $Y$의 표본공분산

$S_X$는 $X$의 표본표준편차

$S_Y$는 $Y$의 표본표준편차

$\bar X$는 $X$의 표본평균

$\bar Y$는 $Y$의 표본평균

$n$은 표본크기

상관

상관(correlation)은 두 변수 간의 관계의 방향과 강도를 나타내는 통계적 척도입니다. 두 확률변수가 종모양의 확률분포를 가지고 있다는 것은 두 확률변수가 평균으로의 회귀성을 가지고 있다고 볼 수 있습니다. 한 변수가 증가할 때 다른 변수가 비례하여 얼마나 선형적으로 증가 또는 감소를 하는가를 선형의 상관의 정도라고 할 수 있고 회귀성(중심으로 돌아가려는 성질)이 있다고도 할 수 있습니다. 

상관계수

상관계수(correlation coefficient)는 이러한 관계의 정도를 수치적으로 표현한 것으로, 일반적으로 -1에서 +1 사이의 값을 가집니다. 상관계수의 절대값이 클수록 두 변수 간의 관계가 강하다는 것을 의미하며, 부호는 관계의 방향을 나타냅니다. +1에 가까울수록 완벽한 양의 선형 관계를, -1에 가까울수록 완벽한 음의 선형 관계를 나타냅니다. 상관계수가 0에 가까울수록 두 변수 간에는 선형적인 관계가 없다는 것을 의미합니다. 가장 널리 사용되는 상관계수는 피어슨 상관계수(Pearson correlation coefficient)로, 연속적인 변수 간의 선형 관계의 강도를 측정합니다. 스피어만 상관계수(Spearman’s rank correlation coefficient)는 순위 기반의 비선형 관계를 평가하는 데 사용되며, 서열 척도의 데이터에 적합합니다.

항상 부호가 양수가 되는 상관계수의 제곱은 회귀의 정도를 나타내는 결정계수가 됩니다. 상관계수는 두 변수가 증가 또는 감소의 방향이 같거나 다름에 따라 양의 상관과 음의 상관이 있습니다. 하지만 회귀성을 나타내는 결정계수는 부호가 항상 양수입니다.

상관의 시각화 : 산점도와 산점도행렬

개체(object, 요소, element)가 두 변수를 가지고 두 변수가 서로 독립적이라면 2차원 직교좌표계에 개체를 점(point)로 표시할 수 있습니다. 개체에서 관측된 두 변수값은 점의 좌표가 됩니다. 개체가 이루는 집단을 좌표계에 점들로 표현한 것을 그 집단의 산점도라 합니다. 산점도를 통해서 개체가 이루는 집단의 분포를 볼 수 있고 더욱 더 중요한 것은 개체가 가지는 변수 간의 상관(서로 간의 관계)의 정도를 볼 수 있다는 것입니다. 예를 들면 개체가 가지는 두 변수의 상관관계를 보고자 할때 개체가 이루는 집단의 2차원 산점도(scatter plot)를 그립니다. 만일 산점도의 점들이 평균점을 중심으로 방사형으로 고르게 나타나거나 점들이 축과 평행하게 분포한다면 두 변수는 상관이 없다고 할 수 있습니다. 즉, 평균점을 기준으로 방향이 랜덤하거나 평균점에서 좌표축과 평행하게 나타난다는 것은 모두 고정되어 있는 두 평균만 관계가 있다고 볼 수 있습니다. 즉 상관이 있다는 것은 한 변수가 변화할 때 다른 변수가 일정한 규칙으로 변화한다는 것을 의미합니다.

– 한 변수의 자기상관(auto correlation) : 2차원 산점도에서 한 직선상에 분포합니다.

– 두 변수의 상관(correlation) : 두 변수를 좌표축으로 하는 2차원 산점도를 그려서 시각화합니다.

– 공유된 한 변수(종속변수)와 여러 변수(독립변수)가 각기 이루는 상관 : 공유된 한 변수를 한 좌표축으로 하고 그 축에서의 독립변수들의 절편을 같게 한 직교좌표계에 독립변수 수 만큼의 2차원 산점도를 그려서 시각화합니다.

– 여러 변수의 상관 : 2차원 산점도를 원소로 하는 자기상관행렬(auto correlation matrix)을 그려서 시각화합니다.

상관분석

상관분석(correlation analysis)는 두 변수 간의 선형적인 관계의 정도를 분석합니다. 예를 들면 한 변수의 증가분에 비례하여 다른 변수가 증가 또는 감소하는 가를 분석하는 것입니다. 만일 두 변수값이 종모양의 확률분포를 가지는 확률변수에서 실현된 변수값이라고 한다면, 점들의 분포가 원형분포에서 타원형분포로 더나아가 직선으로 분포하는 것은 점점 상관이 커지고 있다고 말할 수 있습니다. 상관분석(correlation analysis)은 두 변수 간의 상관관계의 존재 여부와 그 강도를 파악하기 위해 사용되며, 이를 통해 변수들 사이의 관계를 이해할 수 있습니다. 상관관계는 인과관계(causality)를 의미하지는 않으며, 두 변수가 서로 영향을 주고받는다는 것을 직접적으로 나타내지 않습니다.

공분산

공분산(covariance)은 두 확률변수 사이의 관계정보를 가지고 있습니다. 공분산은 실현된 개체를 표현하는 점과  평균점이 만드는 두 편차의 곱의 기대값($MM_{XY}$)으로 정의합니다. 편차제곱과 달리 두 편차의 곱은 부호를 가집니다. 공분산은 실현된 점(개체, 요소, point, object, element)들의 각 변수값(변량, 데이터값, 데이터수치)과 평균점의 같은 변수와의 편차의 곱의 기대값입니다. 표본의 공분산은 편차곱의 평균입니다. 여기서 각 확률변수의 편차제곱의 기대값은 각 확률변수의 분산입니다. 분산은 항상 0 이상의 실수이지만 공분산은 분산과 달리 음수가 될 수도 있습니다.

모공분산 : 모$\mathrm{Cov}(X{,}Y)=\sigma_{XY}$

$$\sigma_{XY}=\dfrac{\sum\limits_{i=1}\limits^{N}(X_i{-}\mu_{X})(Y_i{-}\mu_{Y})}{N}$$

여기서,  $\mu_{X}$는 확률변수 $X$의 모평균

$\mu_{Y}$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

표본공분산 : 표본$\mathrm{Cov}(X{,}Y)=S_{XY}$

$$S_{XY}=\dfrac{\sum\limits_{i=1}\limits^{n}(X_i{-}\bar{X})(Y_i{-}\bar{Y})}{n-1}$$

여기서,  $\bar{X}$는 확률변수 $X$의 표본평균

$\bar{Y}$는 확률변수 $Y$의 표본평균  

$n$은 표본크기

2차원 평면에 표본을 이루는 점을 표시한다고 할때 점은 두개의 변수를 가진다고 할 수 있습니다. 따라서 표본의 평균점을 표시할 수 있고 표본집합의 원소(개체, 요소, element)를 나타내는 점이 분포할 때 공분산은 평균점(mean point, balance point)을 중심으로 하나의 방향으로 모여져 있는가 입니다.  여기서 한 방향성이란 평균점을 중심으로 사사분면으로 나누었을 때 증감의 부호가 같은 1사분면과 3사분면, 그리고 증감의 부호가 다른 2사분면과 4사분면에 퍼져있을 때 같은 방향성을 가진다고 할 수 있습니다. 그리고 표본의 원소가 기울기를 가지는 한 직선상에 모두 위치하는 경우  편차곱의 합이 최대가  되며 두 변수의 표본표준편차의 곱과 같습니다. 사사분면을 나누는 축선에 분포할 때는 편차곱이 0이 되어 공분산도 0이 됩니다.

공분산값은 퍼짐의 방향이 같고 다름에따라 보강 또는 상쇄되어 나타납니다. 평균점을 중심으로 방향에 랜덤하게 골고루 분포하면 공분산은 0이 됩니다.  즉  분포의 방향성이 없다는 것입니다. 사사분면을 나누는 축선과 평행한 직선에 있는 점들은 두 변수가 서로 영향을 미치지 않는 즉, 관계가 없기 때문에 공분산은 0이 됩니다. 반대로 분포가 방향성을 가지고 있는 경우 중에서 가장 방향성이 큰 경우는 점들이 기울기를 가지는 직선 상에 분포할 때 입니다.

피어슨상관계수

공분산이 두 변수의 상관을 표현하기 때문에 공분산을 이용하여 상관계수를  정의합니다. 상관이 가장 큰 경우는  방향을 이루는 경향이 강해서 개체들을 표현한 점들이 평균점을 지나는 한 직선상에 있는 경우입니다. 공분산의 값을 -1과 1사이에 나타내게 하는 방법은 두 변수의 표준편차의 곱으로 나누어 표준화하는 것입니다. 즉, 집단의 모공분산을 두 확률변수의 표준편차의 곱으로 나눈 값을 피어슨상관계수(Pearson correlation coefficient)라 하고 $\rho$(“로”로 읽음)로  표기합니다. 상관계수는 단위가 없는 무차원수입니다.

두 변수가 선형관계라면 이의 정도를 나타내는 비례상수(proportional factor, proportional constant)를 상관계수(correlation efficiency)라 합니다. 한편, 상관계수는 표준화된 공분산이라고 할 수 있습니다. 공분산은 각 변수의 단위에 의존하게 되어 변동의 크기를 가늠하기 어려우므로 공분산을 각 변수의 표준편차로 나누어 표준화합니다. 양의 값이면 두 변수가 같은 방향으로 움직이고 음의 값이면 두 변수가 다른 방향으로 움직임을 의미합니다. 상관계수가 0이면 선형관계가 없다는 뜻입니다. 반면 상관계수가 1이나 -1이면 완전한 선형관계를 의미합니다.

확률변수 $X$와 $Y$의 모피어슨상관계수($\rho_{X,Y}$)의 추정량(estimator)은 다음과 같습니다.

$$\rho_{XY}=\dfrac {\sigma_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac {{\rm E}[(X-\mu_{X})(Y-\mu_{Y})]} {\sigma_X \sigma_Y}=\dfrac{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{N}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}=\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}\sqrt{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}}$$

여기서, $\sigma_{XY}$는  $X$와 $Y$의 모공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

그리고, ${\rm E}[(X-\mu_{X})(Y-\mu_{Y})]={\rm E}[XY]-{\rm E}[X]{\rm E}[Y]$가 성립합니다.

모피어슨상관계수의 예측값($\hat {\rho}$)의 추정량은 아래와 같습니다.

$${\hat {\rho}}_{XY}= \dfrac {S_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac {{\rm E}\left[{\left({X-\bar {X}}\right)\left({Y-\bar {Y}}\right)}\right]} {\sigma_{X}\sigma_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}$$

여기서, $S_{XY}$는  $X$와 $Y$의 표본공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$S_X$는 $X$의 표본표준편차

$S_Y$는 $Y$의 표본표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$\bar X$는 $X$의 표본평균

$\bar Y$는 $Y$의 표본평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

$n$은 표본크기

표본상관계수는 $r$로 표기하며 추정량은 다음과 같습니다. 표본상관계수의 추정량은 모피어슨상관계수의 예측량에서 모분산을 표본분산으로 대체한 경우입니다.

$${r}_{XY}=\dfrac {S_{XY}} {S_{X}S_{Y}}=\dfrac{{\rm E}[(X-\bar X)(Y-\bar Y)]}{S_{X}S_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}{n-1}}}=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{\sqrt{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}\sqrt{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}}$$

여기서, $S_{XY}$는  $X$와 $Y$의 표본공분산

$S_X$는 $X$의 표본표준편차

$S_Y$는 $Y$의 표본표준편차

$\bar X$는 $X$의 표본평균

$\bar Y$는 $Y$의 표본평균

$n$은 표본크기

상관분석표

변수 편차곱합 or 편차제곱합 자유도 편차곱평균 or 편차제곱평균 검정통계량과 확률분포 결정계수($R^2$)
$X,Y$ $SM_{XY}$ $n-1$ $MM_{XY}=\dfrac{SM_{XY}}{n-1}=S_{XY}$ : $X$, $Y$의 표본공분산 $$F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{R^2}{1-R^2}∼F_{1,n-2}$$ $$R^2=\dfrac{s^2_{XY}}{s^2_{X}s^2_{Y}}$$
$X$ $SS_X$ $n-1$ $MS_X=\dfrac{SS_X}{n-1}= S_X^2$ : $X$의 표본분산
$Y$ $SS_X$ $n-1$ $MS_Y=\dfrac{SS_Y}{n-1}=S_Y^2$ : $Y$의 표본분산

표본상관계수의 표준오차

표본피어슨상관계수의 표준오차($\mathrm{SE}(r)$)는 표본피어슨상관계수($r$) 표집의 표준편차와 같으며 다음과 같습니다.

$$\mathrm {SE}(r)=\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}$$

여기서, $n$은 표본크기

표본피어슨상관계수의 표준오차 유도

분산분석에서 회귀정도를 나타내는 새로운 확률변수 $F$는 다음과 같습니다.

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{k-1}}{\dfrac{SS_{Res}}{n-k}}$$

여기서, $k$는 수준수

$n$은 표본크기

두 변수의 상관에서는 상관이 있는 집단과 상관이 없는 집단으로 구분할 수 있습니다. 그래서, 위식의 분산분석에서의 집단의 수인 $k$를 2로 놓을 수 있습니다. 따라서 새로운 확률변수인 $F$는 상관분석에서는 다음식과 같습니다.

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{2-1}}{\dfrac{SS_{Res}}{n-2}}$$

여기서,  $n$은 표본크기

피어슨상관계수가 회귀직선으로의 회귀정도를 나타내므로 피어슨상관계수와 새로운 확률변수 $F$의 관계를 구할 수 있습니다. 결정계수($R^2$)의 정의는 다음과 같습니다.

$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$

여기서, $SS_{Reg}$는 회귀제곱합

$SS_{Res}$는 잔차제곱합

$SS_T$는 총제곱합

결정계수식을 변형하면 다음식과 같습니다.

$$\dfrac{1}{R^2}=1+\dfrac{SS_{Res}}{SS_{Reg}}=1+\dfrac{(n-2)MS_{Res}}{MS_{Reg}}$$

여기서, $MS_{Res}$는 잔차제곱합의 평균

$MS_{Reg}$는 회귀제곱합의 평균

$n$은 표본크기

따라서, 결정계수($R^2$)와 새로운 확률변수($F$)의 관계식을 아래와 같이 구할 수 있습니다.

$$1=R^2+(n-2)R^2\dfrac{1}{F}$$

위식을 정리하면

$$F=(n-2)\dfrac{R^2}{1-R^2}$$

여기서, $n$은 표본크기

$R^2$은 결정계수

두 변수의 표본피어슨상관계수의 제곱($r^2$)은 두 변수를 가지는 개체로 이루어진 표본의 결정계수($R^2$)와 같습니다. 따라서, 새로운 확률변수, $F$를 상관계수로 표현하면 다음식과 같습니다.

$$F=(n-2)\dfrac{r^2}{1-r^2}$$

여기서, $n$은 표본크기

$r$은 표본피어슨상관계수

새로운 확률변수인 $t$로 정리하면

$$t=\sqrt{F}=\sqrt{(n-2)\dfrac{r^2}{1-r^2}}=\dfrac{r}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}$$

여기서, $n$은 표본크기

$r$은 표본피어슨상관계수

모상관계수의 점추정

두 확률변수 $X$와 $Y$를 속성으로 가지는 개체로 이루어진 모집단의 크기가 $N$일 때 모피어슨상관계수의 추정량은 다음과 같습니다.

$$\rho_{XY}= \dfrac {{\rm Cov}({X,Y})} {\sigma_{X}\sigma_{Y}}=\dfrac {\sigma_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac {{\rm E}[(X-\mu_{X})(Y-\mu_{Y})]} {\sigma_X \sigma_Y}=\dfrac{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{N}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}=\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}\sqrt{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}}$$

여기서, $\sigma_{XY}$는  $X$와 $Y$의 모공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

표본피어슨상관계수의 추정량($R$)은 아래와 같습니다.

$${R}_{XY}=\dfrac {S_{XY}} {S_{X}S_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}{n-1}}}=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{\sqrt{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}\sqrt{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}}$$

여기서, $S_{XY}$는 확률변수 $X$와 $Y$의 모공분산의 점추정량인 표본공분산

$S_X$는 확률변수 $X$의 모표준편차의 점추정량인 표본표준편차

$S_Y$는 확률변수 $Y$의 모표준편차의 점추정량인 표본표준편차

$\bar X$는 확률변수 $X$의 모평균의 점추정량인 표본평균

$\bar Y$는 확률변수 $Y$의 모평균의 점추정량인 표본평균

$n$은 표본크기

표본피어슨상관계수의 추정량(estmator)인 $R$은 모피어슨상관계수($\rho$)의 점추정량으로 사용됩니다. 추정량에 관측값(데이터)을 넣으면 표본피어슨상관계수의 추정값(estimate)인 $r$을 구할 수 있습니다.

$${r}_{XY}=\dfrac {s_{XY}} {s_{X}s_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar x)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(y_i-\bar y)^2}{n-1}}}=\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum\limits_{i=1}^{n}(x_i-\bar x)^2}\sqrt{\sum\limits_{i=1}^{n}(y_i-\bar y)^2}}$$

여기서, $s_{XY}$는  확률변수 $X$와 $Y$의 표본공분산의 관측값

$s_X$는 확률변수 $X$의 표본표준편차의 관측값

$s_Y$는 확률변수 $Y$의 표본표준편차의 관측값

$\bar x$는 확률변수 $X$의 표본평균의 관측값

$\bar y$는 확률변수 $Y$의 표본평균의 관측값

$n$은 표본크기

모상관계수의 구간추정

표본피어슨상관계수($r$)와 유의수준($\alpha$)을 통하여 모피어슨상관계수의 구간을 추정할 수 있습니다. 표본피어슨상관계수를 $t$변환한 다음식의 확률변수는 $t$분포를 따르며 자유도는 ($n-2$)입니다.

$$t=\dfrac{r}{{\rm SE}(r)}∼t_{n-2}$$

여기서, ${\rm SE}(r)$는 표본피어슨상관계수의 표준오차 : ${\rm SE}(r)=\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}$

$n$은 표본크기

구간추정 - 유의수준이 $\alpha$일 때

$$P\left({r}-t_{\frac{\alpha}{2}}\dfrac{ r}{\sqrt{n}}\leq\rho\leq{r}+t_{\frac{\alpha}{2}}\dfrac{r}{\sqrt{n}}\right)=1-\alpha$$

상관분석 t검정

표본피어슨상관계수($r$)는 모피어슨상관계수($\rho$)의 가설검정에 사용됩니다. 모피어슨상관계수에 대한 가설검정에서 선형상관관계의 존재여부가 가장 관심있는 가설일 것입니다. 따라서 가설검정은 추정량($R$)을 $t$분포를 따르도록 다음과 같이 구할 수 있습니다. 즉, 두 확률변수 $X$와 $Y$가 2변수 정규분포를 나타낸다는 가정하에 추정량($R$)의 함수는 귀무가설, $H_0 : \rho = 0$에서 자유도 $(n-2)$인 $t$분포를 따릅니다.

$${R}_{X,Y}=\dfrac {S_{XY}} {S_{X}S_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}{n-1}}}=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{\sqrt{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}\sqrt{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}}$$

여기서, $S_{XY}$는 확률변수 $X$와 $Y$의 모공분산의 점추정량인 표본공분산

$S_X$는 확률변수 $X$의 모표준편차의 점추정량인 표본표준편차

$S_Y$는 확률변수 $Y$의 모표준편차의 점추정량인 표본표준편차

$\bar X$는 확률변수 $X$의 표본평균

$\bar Y$는 확률변수 $Y$의 표본평균

$n$은 표본크기

변동(편차제곱합)의 등식은 다음과 같습니다.

$$SS_{T}=SS_{Y}=SS_{Reg}+SS_{Res}$$

여기서, $SS_T$는 총변동

$SS_{Reg}$는 회귀제곱합

$SS_{Res}$는 잔차제곱합

자유도 등식은 다음과 같습니다.

총자유도 = 회귀의 자유도 + 잔차의 자유도

자유도 등식을 표본크기($n$)으로 표현하면 다음과 같습니다.

$$n-1=1+ (n-2)$$

윗식에서 선형회귀는 회귀직선상에 있는 기준과 표본평균으로 모델링되고 표본평균은 자유도 1을 가져갑니다. 

각각의 변동(편차제곱합)을 각각의 자유도로 나누어 구한 각각의 분산은 다음과 같습니다.

$Y$분산

$$MS_{T}=MS_{Y}=\dfrac{SS_Y}{n-1}=S_{Y}^2$$

회귀분산

$$MS_{Reg}=\dfrac{SS_{Reg}}{1}=S_{Reg}^2$$

잔차분산

$$MS_{Res}=\dfrac{SS_{Res}}{n-2}=S_{Res}^2$$

아래식과 같이 표본피어슨상관계수($r$)의 제곱은 “원인에 의하여 설명되는 변동”과 “총변동”의 비와 같습니다.

표본피어슨상관계수

$$r=\dfrac{MM_{XY}}{\sqrt{MS_X}\sqrt{MS_Y}}=\dfrac{SM_{XY}}{\sqrt{SS_X}\sqrt{SS_Y}}=\dfrac{S_{XY}}{S_X S_Y}$$

표본피어슨상관계수의 제곱 : 결정계수

$$r^2=\dfrac{(MM_{XY})^2}{MS_X MS_Y}=\dfrac{(SM_{XY})^2}{SS_X SS_Y}=\dfrac{S_{XY}^2}{S_X^2 S_Y^2}$$

결정계수

$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$

여기서, $SS_{Reg}$는 회귀제곱합 : $SS_{Reg}=MS_{Reg}$

$SS_{Res}$는 잔차제곱합 : $SS_{Res}=(n-2)MS_{Reg}$

참고로, 표본회귀계수($\hat{\beta}$) 중에서 회귀직선의 기울기($\hat{\beta}_1$)는 다음식과 같습니다.

$$\hat{\beta}_1=\dfrac{MM_{XY}}{MS_X}=\dfrac{SM_{XY}}{SS_X}=\dfrac{S_{XY}}{S_X^2}=r\dfrac{S_Y}{S_X}$$

상관분석에서의 귀무가설은 두 변수는 상관이 없다라고 할 수 있고 따라서 다음과 같이 표현할 수 있습니다.

귀무가설

$$H_0 : \rho = 0$$

대립가설

$$H_1 : \rho > 0$$

$$H_1 : \rho < 0$$

$$H_1 : \rho \neq 0$$

그리고 다음과 같이 검정통계량을 구할 수 있습니다.

$F$검정통계량

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{R^2}{1-R^2}∼F_{1,n-2}$$

$t$검정통계량

$$t=\sqrt{\dfrac{MS_{Reg}}{MS_{Res}}}=\sqrt{(n-2)\dfrac{R^2}{1-R^2}}=\dfrac{r}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}∼t_{n-2}$$

여기서, $r$은 표본피어슨상관계수

$R^2$은 결정계수

상관분석과 단순선형회귀분석에서는 변수가 2개이므로 결정계수의 제곱근($\sqrt{R^2}$)은 표본피어슨상관계수($r$)와 같습니다. 반대로  표본피어슨상관계수의 제곱($r^2$)은 결정계수($R^2$)와 같습니다.

상관분석과 단순성형회귀분석에서는 $\sqrt{R^2}=r$ 이고 $r^2=R^2$

결정계수($R^2$, coefficient of determination)는 회귀기준(회귀점, 회귀선, 회귀면, 회귀초면)의 적합도 개념을 나타내는 용어입니다.

상관분석 $t$검정표

귀무가설($H_0$)

검정통계량의 값

대립가설($H_1$)

귀무가설 기각역
$\rho=0$$t=\sqrt{\dfrac{MS_{Reg}}{MS_{Res}}}=\sqrt{(n-2)\dfrac{R^2}{1-R^2}}=\dfrac{r}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}∼t_{n-2}$$\rho<0$$t<-t_{n-2;\alpha}$
$\rho>0$$t>t_{n-2;\alpha}$
$\rho\neq0$$\mid {t} \mid>t_{n-2;\frac{\alpha}{2}}$

Terminology

공분산(covariance)

확률이론 및 통계에서 공분산(covariance)은 두 확률변수의 연결된 가변성(the joint variability)을 측정한 것입니다. 한 변수의 큰 값이 다른 변수의 큰 값과 주로 일치하고 작은 값에서도 동일한 경향이 유지되는 경우 (즉, 두 변수가 유사한 행동을 보이는 경향이 있는 경우), 공분산은 양수입니다. 반대의 경우에, 하나의 변수의 큰 값이 다른 변수의 더 작은 값에 주로 대응할 때 (즉, 변수가 반대의 행동을 나타내는 경향이있는 경우), 공분산은 음의 값을 가집니다. 따라서 공분산의 부호는 변수간의 선형 관계의 경향을 보여줍니다.

공분산의 크기는 정규화되지 않았기 때문에 해석하기가 쉽지 않으므로 변수의 크기에 따라 달라집니다. 그러나 공분산을 정규화한 상관계수는 크기에 따라 선형 상관관계의 강도를 보여줍니다. 아래의 둘은 반드시 구분되어야 합니다.

(1) 두 확률변수의 모공분산(the covariance of two random variables). 여기서 모공분산은 모집단 매개변수(population parameter)이고 모집단 매개변수는 연관 확률분포(joint probability distribution)의 특성으로 볼 수 있습니다.

(2) 표본공분산(the sample covariance). 여기서 표본공분산은 표본을 표현할 뿐만 아니라 모집단 매개변수의 추정값으로 제공됩니다.

출처

Covariance – Wikipedia

상관(dependence)

통계에서 상관(dependence or association)은 두 확률변수(random variables or bivariate data)의 인과에는 무관한 단지 통계적 관계일 뿐입니다. 가장 넓은 의미에서 상관관계(correlation)는 통계적 연관성이지만 일반적으로는 한 쌍의 두 확률변수가 선형적으로 관련되는 정도를 나타냅니다. 상관에 부가되는 인과의 예는 부모와 자녀의 육체적인 체격 사이의 상관관계와 한정적으로 공급되는 제품에 대한 수요와 그 가격 간의 상관관계가 있습니다. 상관관계는 실제로 활용될 수 있는 예측가능한 관계(causal relationship)를 나타내기 때문에 유용합니다. 예를 들어, 발전소는 전기수요와 날씨 간의 상관관계를 기반으로 온화한 날에 적은 전력을 생산할 수 있습니다. 왜냐하면 극단적인 날씨에 사람들이 난방이나 냉방에 더 많은 전기를 사용하기 때문입니다.

일반적으로, 상관관계의 존재는 인과 관계의 존재를 추론하기에 충분하지 않습니다 (즉, 상관관계는 인과 관계를 의미하지 않습니다).

공식적으로, 확률변수가 확률적 독립(probabilistic independence)의 수학적 성질을 만족시키지 않는다면 종속변수입니다.

비공식적인 의미에서 상관관계는 종속성과 동의어입니다. 그러나 기술적인 의미에서 사용될 때, 상관은 평균값들 사이의 관계 중 어떤 몇 가지  특정 유형을 의미합니다. 상관의 정도를 나타내는  $\rho$ 또는 $r$로 표시되는 몇몇 상관계수가 있습니다. 이들 중 가장 널리 사용되는 것은 피어슨 상관계수(Pearson correlation coefficient)로 두 변수 사이의 선형관계를 잘 나타내 줍니다. 물론 한 변수가 다른 변수와 비선형관계일 때도 사용할 수 있습니다. 다른 상관계수는 Pearson 상관관계보다 강하게(robust) 개발되었기 떄문에 비선형 상관관계에서 더 민감합니다. 상호정보(Mutual information)는 두 변수 사이의 상관을 측정하는 데에도 적용될 수 있습니다.

출처

Correlation and dependence – Wikipedia

상관계수(correlation coefficient)

상관계수는 두 변수 간의 관계를 나타내는 수치입니다. 여기서 두 변수는 표본 데이터세트의 2개 열의 확률변수, 아니면 분포를 알고 있는 2개의 확률변수입니다.

상관계수는 -1에서 1 사이의 값들을 가지는데, 여기서 ±1은 가장 강한 상관이 있음을 나타내고 0은 상관관계가 없음을 의미합니다. 분석의 수단으로서, 상관계수는 특이성에 의해 왜곡되는 유형의 경향 및 두 변수간 인과 관계를 잘못 추론할 가능성이 있습니다.

출처

Correlation coefficient – Wikipedia

결정계수(coefficient of determination)

변동계수(Coefficient of variation), 상관계수(Coefficient of correlation)와 혼동하기 쉽습니다. 통계에서, 결정계수(coefficient of determination: R2 ,r2로 표현되며 R squared로 읽음) 는 독립변수들로부터 예측이 가능한 종속변수가 가지는 분산의 확률(예측이 가능하지 않은 종속변수와 상대비율)입니다.

통계적 모형(statistical models)에서 주로 사용되는 통계로써, 관련 정보를 통한 가설의 증명이나 미래의 일을 예상하는 데에 주로 사용됩니다. 결정계수는 통계적 모델로 표현된 결과의 전체 변동 비율에 따라 모델이 관찰된 결과를 얼마나 잘 반영했는지에 대한 수치를 제공합니다.

결정계수, $R^2$는 여러 정의가 존재합니다. 한 종류로는 $R^2$ 대신에 쓰여지는 $r^2$로 단순선형회귀(simple linear regression)가 있습니다. 절편(intercept)이 포함된 경우에는 관측된 결과와 예측값 사이의 표본상관계수($r$, correlation coefficient)의 제곱입니다. 회귀분석기(regressors)가 포함된 경우, R2는 다중상관계수(coefficient of multiple correlation)의 제곱입니다. 두 경우 모두, 결정계수는  0에서 1 사이입니다.

정의에 따라 $r^2$이 음수가 될 수 있습니다. 이는 해당 결과에 대한 예측이 모형(model)의 적합한 방식으로 도출되지 않았을 때에 발생할 수 있습니다. 또는 모형의 적합한 방식이 사용되더라도 여전히 음수일 수도 있습니다. 예를 들어, 절편을 포함하지 않고 선형회귀를 수행하거나, 데이터를 위해 비선형 함수를 사용할 경우에 음수가 될 수 있습니다. 음수가 되었다는 것은 특정 기준에 따라 데이터의 평균이 적합 함수값보다 더 적합하다는 뜻입니다. 결정계수의 가장 일반적인 정의는 “내쉬-서트클리프  모형 효율 계수(Nash–Sutcliffe model efficiency coefficient) “로도 알려져 있고, 이 표기법은 제곱기호가 있어서 혼동이 되기는 하지만 음의 값을 가지는 -∞에서 1까지의 범위를 가지는 적합도 지표를 나타내고 많은 분야에서 선호됩니다.

시뮬레이션값($Y_{pred}$)과 측정값($Y_{obs}$)의 적합도(the goodness-of-fit)를 평가할 때 선형회귀의 선형계수($R^2$)를 기반으로 하는 것은 적절하지 않습니다(i.e., $Y_{obs}= mY_{pred} + b$). 선형계수는 시뮬레이션값과 측정값의 선형 상관정도를 정량화하는 반면에, 적합도 평가의 경우에는 하나의 특정 선형 상관관계($Y_{obs}= Y_{pred} + b$ :  the 1:1 line)만 고려해야 합니다.

출처 Coefficient of determination – Wikipedia

Reference

  1.  

본인의 Google 계정으로 구글시트를 복사

=COUNTA(B3:B22) : B3~B22 행의 범위에 있는 데이터의 개수
=COUNT(C3:C22) : C3 ~C22 행의 범위에 숫자 데이터의 개수

[DATA SCIENCE]

[PROJECT BASED LEARNING]