DATALINK

[DATA SCIENCE]

데이터사이언스 > 데이터 > 데이터수집 > 데이터분류

피어슨상관계수

산점도와 피어슨상관계수
표1

[Q&A]

범주형데이터, 순서있는 범주형데이터, 이산형데이터, 연속형데이터 이 중에서 이산형데이터와 연속형데이터는 수치로 나타나는 양적데이터입니다. 

데이터 프레임은 열과 행으로 구성된 테이블 형태의 데이터 구조로, 다양한 데이터 타입의 값을 저장하고 데이터 분석에 활용됩니다.

개체의 속성으로 확률공간을 모델링

ARTICLE CONTENTS

피어슨상관계수

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

DOI : 24711

데이터사이언스, Vol, Issue, 

Print

Abstract

상관분석은 개체가 가진 두 변수 간의 선형적 관계를 분석합니다. 두 변수가 서로 독립적일 경우, 이들은 2차원 직교좌표계에서 점으로 나타나며, 이를 통해 생성된 산점도는 집단의 분포와 변수 간 상관의 정도를 시각적으로 보여줍니다. 두 변수 사이에 상관관계가 있음은 한 변수의 변화가 다른 변수에 일정한 규칙으로 영향을 미친다는 것을 의미합니다. 상관의 시각화는 자기상관, 두 변수의 상관, 여러 변수 간 상관 등 다양한 방식으로 이루어질 수 있습니다. 피어슨 상관계수를 통해 이러한 상관관계의 정도를 수치화할 수 있으며, 이는 -1에서 1 사이의 값으로 표현됩니다. 공분산은 두 변수 사이의 관계정보를 제공하며, 이는 평균점을 중심으로 한 방향성의 존재 유무를 나타냅니다. 피어슨 상관계수는 공분산을 표준화하여 두 변수 간의 선형 상관성의 정도를 나타내는 데 사용되며, 상관계수가 1에 가까울수록 두 변수는 강한 선형 관계를 가집니다.

Key Word

피어슨상관계수, 상관분석, 공분산

모수와 표본통계량의 추정량

양적 확률변수 $X$의 추정량(estimator)

$X$의 모평균 : $\mu_{X}$

$$\mu_{X} = \dfrac{\sum\limits_{i=1}^{N}X_i}{N}$$

여기서,  $N$은 집단크기 : 무한집단인 경우  $N → ∞$

$X$의 표본평균 : $\bar {X}$

$$\bar {X} =\dfrac{\sum\limits_{i=1}^{n}X_i}{n}$$

여기서, $n$은 표본크기

$X$의 모분산 : $\sigma^2_{X}$

$$\sigma^2_{X} = \dfrac{\sum\limits_{i=1}^{N}(X_i – \mu_X)^2}{N}$$

여기서,  $\mu_X$는 확률변수 $X$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$X$의 표본분산 : $S^2_{X}$

$$S^2_{X} = \dfrac{\sum\limits_{i=1}^{n}(X_i{-}\bar{X})^2}{n-1}$$

여기서, $\bar{X}$는 확률변수 $X$의 표본평균

$n$은 표본크기

$X$의 모표준편차 : $\sigma_{X}$

$$\sigma_{X} = \sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i – \mu_X)^2}{N}}$$

여기서,  $\mu_X$는 확률변수 $X$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$X$의 표본표준편차 : $S_{X}$

$$S_{X} = \sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i{-}\bar{X})^2}{n-1}}$$

여기서, $\bar{X}$는 확률변수 $Y$의 표본평균

$n$은 표본크기

양적 확률변수 $Y$의 추정량(estimator)

$Y$의 모평균 : $\mu_{Y}$

$$\mu_{Y} = \dfrac{\sum\limits_{i=1}^{N}Y_i}{N}$$

여기서,  $N$은 집단크기 : 무한집단인 경우  $N → ∞$

$Y$의 표본평균 : $\bar {Y}$

$$\bar {Y} =\dfrac{\sum\limits_{i=1}^{n}Y_i}{n}$$

여기서, $n$은 표본크기

$Y$의 모분산 : $\sigma^2_{X}$

$$\sigma^2_{Y} = \dfrac{\sum\limits_{i=1}^{N}(Y_i – \mu_Y)^2}{N}$$

여기서,  $\mu_Y$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$Y$의 표본분산 : $S^2_{Y}$

$$S^2_{Y} = \dfrac{\sum\limits_{i=1}^{n}(Y_i{-}\bar{Y})^2}{n-1}$$

여기서, $\bar{Y}$는 확률변수 $Y$의 표본평균

$n$은 표본크기

$Y$의 모표준편차 : $\sigma_{Y}$

$$\sigma_{Y} = \sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i{-}\mu_{Y})^2}{N}}$$

여기서, $\mu_{Y}$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

$Y$의 표본표준편차 : $S_Y$

$$S_{Y} = \sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i{-}\bar{Y})^2}{n-1}}$$

여기서, $\bar{Y}$는 확률변수 $Y$의 표본평균

$n$은 표본크기

양적 확률변수 $X$와 $Y$의 추정량(estimator)

모공분산 : 모$\mathrm{Cov}(X{,}Y)=\sigma_{XY}$

$$\sigma_{XY}=\dfrac{\sum\limits_{i=1}\limits^{N}(X_i{-}\mu_{X})(Y_i{-}\mu_{Y})}{N}$$

여기서,  $\mu_{X}$는 확률변수 $X$의 모평균

$\mu_{Y}$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

표본공분산 : 표본$\mathrm{Cov}(X{,}Y)=S_{XY}$

$$S_{XY}=\dfrac{\sum\limits_{i=1}\limits^{n}(X_i{-}\bar{X})(Y_i{-}\bar{Y})}{n-1}$$

여기서,  $\bar{X}$는 확률변수 $X$의 표본평균

$\bar{Y}$는 확률변수 $Y$의 표본평균  

$n$은 표본크기

모피어슨상관계수

$$\rho_{XY}=\dfrac {\sigma_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{N}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}$$

여기서, $\sigma_{XY}$는  $X$와 $Y$의 모공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

표본피어슨상관계수

$${r}_{XY}=\dfrac {S_{XY}} {S_{X}S_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}{n-1}}}$$

여기서, $S_{XY}$는  $X$와 $Y$의 표본공분산

$S_X$는 $X$의 표본표준편차

$S_Y$는 $Y$의 표본표준편차

$\bar X$는 $X$의 표본평균

$\bar Y$는 $Y$의 표본평균

$n$은 표본크기

상관

상관(correlation)은 변수간의 선형 관계를 말합니다. 개체(object, 요소, element)가 두 변수를 가지고 두 변수가 서로 독립적이라면 2차원 직교좌표계에 개체를 점(point)로 표시할 수 있습니다. 개체에서 관측된 두 변수값은 점의 좌표가 됩니다. 개체가 이루는 집단을 좌표계에 점들로 표현한 것을 그 집단의 산점도라 합니다. 산점도를 통해서 개체가 이루는 집단의 분포를 볼 수 있고 더욱 더 중요한 것은 개체가 가지는 변수 간의  상관(서로 간의 관계)의 정도를 볼 수 있다는 것입니다. 예를 들면 개체가 가지는 두 변수의  상관관계를 보고자 할때 개체가 이루는 집단의 2차원 산점도(scatter plot)를 그립니다. 만일 산점도의 점들이 평균점을 중심으로 방사형으로 고르게 나타나거나 점들이 축과 평행하게 분포한다면 두 변수는 상관이 없다고 할 수 있습니다. 즉, 평균점을 기준으로 방향이 랜덤하거나 평균점에서 좌표축과 평행하게 나타난다는 것은 모두 고정되어 있는 두 평균만 관계가 있다고 볼 수 있습니다. 즉 상관이 있다는 것은 한 변수가 변화할 때 다른 변수가 일정한 규칙으로 변화한다는 것을 의미합니다.

상관의 시각화

한 변수의 자기상관(auto correlation) : 2차원 산점도에서 한 직선상에 분포합니다.

두 변수의 상관(correlation) : 두 변수를 좌표축으로 하는 2차원 산점도를 그려서 시각화합니다.

공유된 한 변수(종속변수)와 여러 변수(독립변수)가 각기 이루는 상관 : 공유된 한 변수를 한 좌표축으로 하고 그 축에서의 독립변수들의 절편을 같게 한 직교좌표계에 독립변수 수 만큼의 2차원 산점도를 그려서 시각화합니다.

여러 변수의 상관 : 2차원 산점도를 원소로 하는 자기상관행렬(auto correlation matrix)을 그려서 시각화합니다.

상관분석

상관분석(correlation analysis)는 두 변수 간의 선형적인 관계의 정도를 분석합니다. 예를 들면 한 변수의 증가분에 비례하여 다른 변수가  증가 또는 감소하는 가를 분석하는 것입니다. 만일 두 변수값이 종모양의 확률분포를 가지는 확률변수에서 실현된 변수값이라고 한다면, 점들의 분포가 원형분포에서 타원형분포로 더나아가 직선으로 분포하는 것은 점점 상관이 커지고 있다고 말할 수 있습니다. 이 정도를 수치화하는 방법에는 피어슨 상관계수가 있습니다. 피어슨 상관계수는 마이너스 1부터 플러스 1까지 숫자로 나타납니다. 

두 확률변수가 종모양의 확률분포를 가지고 있다는 것은 두 확률변수가 평균으로의 회귀성을 가지고 있다고 볼 수 있습니다. 한 변수가 증가할 때 다른 변수가 비례하여 얼마나 선형적으로  증가 또는 감소를 하는가를 선형의 상관의 정도라고 할 수 있고 회귀성(중심으로 돌아가려는 성질)이  있다고도 할 수 있습니다. 따라서 상관의 정도를 나타내는 제곱하여 항상 부호가 양수가 되는 상관계수의 제곱은 회귀의 정도를 나타내는 결정계수가 됩니다. 상관계수는 두 변수가 증가 또는 감소의 방향이 같거나 다름에 따라 양의 상관과 음의 상관이 있습니다. 하지만 회귀성을 나타내는 결정계수는 부호가 항상 양수입니다. 

공분산

집단이나 표본의 공분산(covariance)은 개체가 가지는 두 확률변수 사이의 관계정보를 가지고 있습니다. 공분산은 개체를 나타내는 점(개체가 가지는 두 변수의 좌표)과  평균점(개체가 가지는 두 변수의 평균을 좌표로 하는 점)이 만드는 두 편차의 곱의 기대값($MM_{XY}$)으로 정의합니다. 따라서 편차제곱과 달리 편차곱은 부호를 가집니다. 집단이나 표본의 공분산은 점(개체, 요소, point, object, element)들의 각 변수값(변량, 데이터값, 데이터수치)과 평균점의 같은 변수와의 편차의 곱의 기대값입니다. 표본의 공분산은 편차곱의 평균입니다. 여기서 각 확률변수의 편차제곱의 기대값은 각 확률변수의 분산입니다. 분산은 항상 0 이상의 실수이지만 공분산은 분산과 달리 음수가 될 수도 있습니다.

모공분산 : 모$\mathrm{Cov}(X{,}Y)=\sigma_{XY}$

$$\sigma_{XY}=\dfrac{\sum\limits_{i=1}\limits^{N}(X_i{-}\mu_{X})(Y_i{-}\mu_{Y})}{N}$$

여기서,  $\mu_{X}$는 확률변수 $X$의 모평균

$\mu_{Y}$는 확률변수 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우  $N → ∞$

표본공분산 : 표본$\mathrm{Cov}(X{,}Y)=S_{XY}$

$$S_{XY}=\dfrac{\sum\limits_{i=1}\limits^{n}(X_i{-}\bar{X})(Y_i{-}\bar{Y})}{n-1}$$

여기서,  $\bar{X}$는 확률변수 $X$의 표본평균

$\bar{Y}$는 확률변수 $Y$의 표본평균  

$n$은 표본크기

2차원 평면에 표본을 이루는 점을 표시한다고 할때 점은 두개의 변수를 가진다고 할 수 있습니다. 따라서 표본의 평균점을 표시할 수 있고 표본집합의 원소(개체, 요소, element)를 나타내는 점이 분포할 때 공분산은 평균점(mean point, balance point)을 중심으로 하나의 방향으로 모여져 있는가 입니다.  여기서 한 방향성이란 평균점을 중심으로 사사분면으로 나누었을 때 증감의 부호가 같은 1사분면과 3사분면, 그리고 증감의 부호가 다른 2사분면과 4사분면에 퍼져있을 때 같은 방향성을 가진다고 할 수 있습니다. 그리고 표본의 원소가 기울기를 가지는 한 직선상에 모두 위치하는 경우  편차곱의 합이 최대가  되며 두 변수의 표본표준편차의 곱과 같습니다. 사사분면을 나누는 축선에 분포할 때는 편차곱이 0이 되어 공분산도 0이 됩니다.

공분산값은 퍼짐의 방향이 같고 다름에따라 보강 또는 상쇄되어 나타납니다. 평균점을 중심으로 방향에 랜덤하게 골고루 분포하면 공분산은 0이 됩니다.  즉  분포의 방향성이 없다는 것입니다. 사사분면을 나누는 축선과 평행한 직선에 있는 점들은 두 변수가 서로 영향을 미치지 않는 즉, 관계가 없기 때문에 공분산은 0이 됩니다. 반대로 분포가 방향성을 가지고 있는 경우 중에서 가장 방향성이 큰 경우는 점들이 기울기를 가지는 직선 상에 분포할 때 입니다.

피어슨상관계수

공분산은 두 변수의 평균점으로부터의 방향의 일치성을 나타냅니다. 그리고 두 변수의 공분산은 두 변수의 표준편차의 곱보다 클 수는 없습니다. 따라서 공분산과 두 표준편차의 곱을 이용하여 피어슨상관계수(Pearson correlation coefficient)를 정의합니다. 상관이 가장 큰 경우는  방향을 이루는 경향이 강해서 개체들을 표현한 점들이 직선상에 있는 경우입니다. 공분산의 값을 -1과 1사이에 나타내게 하는 방법은 두 변수의 표준편차의 곱으로 나누어 표준화하는 것입니다. 집단의 모공분산을 두 확률변수의 표준편차의 곱으로 나눈 값을 피어슨 상관계수라 하고 $\rho$(“로”로 읽음)로  표기합니다. 상관계수는 단위가 없는 무차원수입니다.

다시한번 정리하면 두 변수사이가 상관관계가 있다면 이의 정도를 나타내는 비례상수(proportional factor, proportional constant)를 상관계수(correlation efficiency)라 합니다. 또한 상관계수는 표준화된 공분산이라고 할 수 있습니다. 공분산은 각 변수의 단위에 의존하게 되어 변동의 크기를 가늠하기 어려우므로 공분산을 각 변수의 표준편차로 나누어 표준화합니다. 양의 값이면 두 변수가 같은 방향으로 움직이고 음의 값이면 두 변수가 다른 방향으로 움직임을 의미합니다. 상관계수가 0이면 선형관계가 없다는 뜻입니다. 반면 상관계수가 1이나 -1이면 완전한 선형관계를 의미합니다.

확률변수 $X$와 $Y$의 모피어슨상관계수($\rho_{X,Y}$)의 추정량(estimator)은 다음과 같습니다.

$$\rho_{XY}=\dfrac {\sigma_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac {{\rm E}[(X-\mu_{X})(Y-\mu_{Y})]} {\sigma_X \sigma_Y}=\dfrac{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{N}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}=\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}\sqrt{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}}$$

여기서, $\sigma_{XY}$는  $X$와 $Y$의 모공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

그리고, ${\rm E}[(X-\mu_{X})(Y-\mu_{Y})]={\rm E}[XY]-{\rm E}[X]{\rm E}[Y]$가 성립합니다.

모피어슨상관계수의 예측값($\hat {\rho}$)의 추정량은 아래와 같습니다.

$${\hat {\rho}}_{XY}= \dfrac {S_{XY}} {\sigma_{X}\sigma_{Y}}=\dfrac {{\rm E}\left[{\left({X-\bar {X}}\right)\left({Y-\bar {Y}}\right)}\right]} {\sigma_{X}\sigma_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{N}(X_i-\mu_X)^2}{N}}\sqrt{\dfrac{\sum\limits_{i=1}^{N}(Y_i-\mu_Y)^2}{N}}}$$

여기서, $S_{XY}$는  $X$와 $Y$의 표본공분산

$\sigma_{X}$는 $X$의 모표준편차

$\sigma_{Y}$는 $Y$의 모표준편차

$S_X$는 $X$의 표본표준편차

$S_Y$는 $Y$의 표본표준편차

$\mu_{X}$는  $X$의 모평균

$\mu_{Y}$는 $Y$의 모평균

$\bar X$는 $X$의 표본평균

$\bar Y$는 $Y$의 표본평균

$N$은 집단크기 : 무한집단인 경우, $N → ∞$

$n$은 표본크기

표본상관계수는 $r$로 표기하며 추정량은 다음과 같습니다. 표본상관계수의 추정량은 모피어슨상관계수의 예측량에서 모분산을 표본분산으로 대체한 경우입니다.

$${r}_{XY}=\dfrac {S_{XY}} {S_{X}S_{Y}}=\dfrac{{\rm E}[(X-\bar X)(Y-\bar Y)]}{S_{X}S_{Y}}=\dfrac{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{n-1}} {\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{n-1}}\sqrt{\dfrac{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}{n-1}}}=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{\sqrt{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}\sqrt{\sum\limits_{i=1}^{n}(Y_i-\bar Y)^2}}$$

여기서, $S_{XY}$는  $X$와 $Y$의 표본공분산

$S_X$는 $X$의 표본표준편차

$S_Y$는 $Y$의 표본표준편차

$\bar X$는 $X$의 표본평균

$\bar Y$는 $Y$의 표본평균

$n$은 표본크기

정규분포를 갖는 두 확률변수의 상관

정규분포를 가지는 두 확률변수의 상관을 살펴보기 위해서는 두 확률변수를 가지는 개체로 이루어진 표본집단의 2차원 산점도를 그려보게 됩니다. 관측한 개체(object)는 산점도에서 점(point)으로 나타나며 평균에서 제일 밀도가 높고 평균점에서 떨어질수록 밀도가 낮게 분포합니다. 두 확률변수의 표준편차의 비만큼 분포의 모양은 타원형을 가집니다. 만일 두 확률변수의 표준편차가 같다면 점들의 분포의 모양은 원형을 가집니다.

$$\dfrac{\sigma_X}{\sigma_Y}\,\ , \,\,\dfrac{\sigma_Y}{\sigma_X}$$

공분산의 크기는 표준편차곱보다 클 수는 없습니다.

$$\sigma_{XY} < \sigma_X\sigma_Y$$

공분산과 두 표준편차곱의 비(피어슨상관계수)의 값은 -1과 1의 사이에 위치하며 피어슨상관계수라고 부릅니다. 피어슨상관계수가  0에서 1로 변하면 타원이 납작해지면서 Y축과 점점 평행하게 됩니다. 피어슨상관계수가 0에서 -1로 변하면 타원이 납작해지면서 X축과 점점 평행해집니다. 

$$\rho_{XY}=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y}$$

점의 분포를 표현하는 타원형의 기울기는 공분산과 분산의 비가 결정합니다.

$$\beta_1=\dfrac{\sigma_{XY}}{\sigma^2_X}\,\ , \,\,\dfrac{1}{\beta_1}=\dfrac{\sigma_{XY}}{\sigma^2_Y}$$

기울기는 피어슨상관계수와 표준편차의 비로도 표현할 수 있습니다.

$$\beta_1=\dfrac{\sigma_{XY}}{{\sigma_X}{\sigma_Y}}\dfrac{\sigma_Y}{\sigma_X}=\rho_{XY}\dfrac{\sigma_Y}{\sigma_X}=\dfrac{\sigma_Y}{\sigma_X}\rho_{XY}\,\ , \,\,\dfrac{1}{\beta_1}=\dfrac{\sigma_{XY}}{{\sigma_X}{\sigma_Y}}\dfrac{\sigma_X}{\sigma_Y}=\rho_{XY}\dfrac{\sigma_X}{\sigma_Y}=\dfrac{\sigma_X}{\sigma_Y}\rho_{XY}$$

기울기는 표준편차의 비에 피어슨상관계수를 곱한 것이라고 볼 수 있습니다. 즉, 표준편차의 비로 나타나는 타원을 피어슨상관게수로 표현되는 비가 회전시킨다고 볼 수 있습니다. 

정리하면 정규분포를 가지는 두 확률변수의 분포값(분산, 표준편차)의 비가 분포의 모양의 기준값을 결정합니다.

$$\dfrac{\sigma_X}{\sigma_Y}\,\ , \,\,\dfrac{\sigma_Y}{\sigma_X}$$

피어슨상관계수에 따라 선형상관성과 모양의 평균점을 중심으로 하는 회전이 동시에 나타납니다.

$$\rho_{XY}=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y}$$

기울기는 분포모양의 기준값인 두 표준편차의 비와 피어슨상관계수의 곱으로 다음과 같습니다.

$$\beta_1=\dfrac{\sigma_Y}{\sigma_X}\cdot\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y}=\dfrac{\sigma_{XY}}{\sigma^2_X} \, , \,\, \dfrac{1}{\beta_1}=\dfrac{\sigma_X}{\sigma_Y}\cdot\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y}=\dfrac{\sigma_{XY}}{\sigma^2_Y} $$

Terminology

공분산(covariance)

확률이론 및 통계에서 공분산(covariance)은 두 확률변수의 연결된 가변성(the joint variability)을 측정한 것입니다. 한 변수의 큰 값이 다른 변수의 큰 값과 주로 일치하고 작은 값에서도 동일한 경향이 유지되는 경우 (즉, 두 변수가 유사한 행동을 보이는 경향이 있는 경우), 공분산은 양수입니다. 반대의 경우에, 하나의 변수의 큰 값이 다른 변수의 더 작은 값에 주로 대응할 때 (즉, 변수가 반대의 행동을 나타내는 경향이있는 경우), 공분산은 음의 값을 가집니다. 따라서 공분산의 부호는 변수간의 선형 관계의 경향을 보여줍니다.

공분산의 크기는 정규화되지 않았기 때문에 해석하기가 쉽지 않으므로 변수의 크기에 따라 달라집니다. 그러나 공분산을 정규화한 상관계수는 크기에 따라 선형 상관관계의 강도를 보여줍니다. 아래의 둘은 반드시 구분되어야 합니다.

(1) 두 확률변수의 모공분산(the covariance of two random variables). 여기서 모공분산은 모집단 매개변수(population parameter)이고 모집단 매개변수는 연관 확률분포(joint probability distribution)의 특성으로 볼 수 있습니다.

(2) 표본공분산(the sample covariance). 여기서 표본공분산은 표본을 표현할 뿐만 아니라 모집단 매개변수의 추정값으로 제공됩니다.

출처

Covariance – Wikipedia

상관(dependence)

통계에서 상관(dependence or association)은 두 확률변수(random variables or bivariate data)의 인과에는 무관한 단지 통계적 관계일 뿐입니다. 가장 넓은 의미에서 상관관계(correlation)는 통계적 연관성이지만 일반적으로는 한 쌍의 두 확률변수가 선형적으로 관련되는 정도를 나타냅니다. 상관에 부가되는 인과의 예는 부모와 자녀의 육체적인 체격 사이의 상관관계와 한정적으로 공급되는 제품에 대한 수요와 그 가격 간의 상관관계가 있습니다. 상관관계는 실제로 활용될 수 있는 예측가능한 관계(causal relationship)를 나타내기 때문에 유용합니다. 예를 들어, 발전소는 전기수요와 날씨 간의 상관관계를 기반으로 온화한 날에 적은 전력을 생산할 수 있습니다. 왜냐하면 극단적인 날씨에 사람들이 난방이나 냉방에 더 많은 전기를 사용하기 때문입니다.

일반적으로, 상관관계의 존재는 인과 관계의 존재를 추론하기에 충분하지 않습니다 (즉, 상관관계는 인과 관계를 의미하지 않습니다).

공식적으로, 확률변수가 확률적 독립(probabilistic independence)의 수학적 성질을 만족시키지 않는다면 종속변수입니다.

비공식적인 의미에서 상관관계는 종속성과 동의어입니다. 그러나 기술적인 의미에서 사용될 때, 상관은 평균값들 사이의 관계 중 어떤 몇 가지  특정 유형을 의미합니다. 상관의 정도를 나타내는  $\rho$ 또는 $r$로 표시되는 몇몇 상관계수가 있습니다. 이들 중 가장 널리 사용되는 것은 피어슨 상관계수(Pearson correlation coefficient)로 두 변수 사이의 선형관계를 잘 나타내 줍니다. 물론 한 변수가 다른 변수와 비선형관계일 때도 사용할 수 있습니다. 다른 상관계수는 Pearson 상관관계보다 강하게(robust) 개발되었기 떄문에 비선형 상관관계에서 더 민감합니다. 상호정보(Mutual information)는 두 변수 사이의 상관을 측정하는 데에도 적용될 수 있습니다.

출처

Correlation and dependence – Wikipedia

상관계수(correlation coefficient)

상관계수는 두 변수 간의 관계를 나타내는 수치입니다. 여기서 두 변수는 표본 데이터세트의 2개 열의 확률변수, 아니면 분포를 알고 있는 2개의 확률변수입니다.

상관계수는 -1에서 1 사이의 값들을 가지는데, 여기서 ± 1은 가장 강한 상관이 있음을 나타내고 0은 상관관계가 없음을 의미합니다. 분석의 수단으로서, 상관계수는 특이성에 의해 왜곡되는 유형의 경향 및 두 변수간 인과 관계를 잘못 추론할 가능성이 있습니다.

출처

Correlation coefficient – Wikipedia

Reference

  1.  

본인의 Google 계정으로 구글시트를 복사

=COUNTA(B3:B22) : B3~B22 행의 범위에 있는 데이터의 개수
=COUNT(C3:C22) : C3 ~C22 행의 범위에 숫자 데이터의 개수

[DATA SCIENCE]

[PROJECT BASED LEARNING]