[DATA SCIENCE]
데이터사이언스 > 데이터분석 > 관계비교 > 회귀분석
범주형데이터, 순서있는 범주형데이터, 이산형데이터, 연속형데이터 이 중에서 이산형데이터와 연속형데이터는 수치로 나타나는 양적데이터입니다.
데이터 프레임은 열과 행으로 구성된 테이블 형태의 데이터 구조로, 다양한 데이터 타입의 값을 저장하고 데이터 분석에 활용됩니다.
개체의 속성으로 확률공간을 모델링
프랜시스 갈톤은 1885년, 부모와 자식 간의 키 관계를 연구하며, 평균 키로의 회귀 경향을 발견했습니다. 이는 부모와 자식의 키 관계가 기울기가 1보다 작은 회귀직선으로 표현됨을 의미합니다. 회귀분석은 변수 간 함수관계를 파악하는 데 사용되며, 결과변수(종속변수)와 원인변수(독립변수) 간 관계를 모델링합니다. 단순선형회귀는 1개의 원인변수와 결과변수 간 선형 관계를 나타내며, 회귀계수는 원인변수의 변화에 따른 결과변수의 평균 변화량을 의미합니다. 회귀계수 추정에는 최소제곱법이 사용되며, 모델 적합성은 결정계수로 평가됩니다. 수정결정계수는 무의미한 변수 추가 시 발생하는 문제를 보정합니다. 회귀계수의 유의성 검증은 귀무가설을 통해 수행되며, 유의확률을 사용하여 가설을 검증합니다. 이 모든 과정은 변수 간의 선형적 관계와 해당 관계의 통계적 유의성을 평가하기 위해 수행됩니다.
회귀, 선형, 결과변수, 원인변수, 설명변수, 반응변수, 단순선형회귀모델, 결정계수, 수정결정계수
영국의 프랜시스 갈톤(Francis Galton)은 1885년에 발표한 논문 “Family Likeness in Stature”를 통해 부모와 자식 간의 키가 완벽하게 상속되지 않고, 평균적인 키로 회귀(regression)하는 경향이 있다는 것을 발표했습니다. 즉, 부모와 자식간의 키의 좌표계에서 점들의 분포가 기울기가 1보다 작은 회귀직선으로 대표됨을 발견하였습니다. 회귀분석은 어떤 한 확률변수가 다른 변수에 영향을 받을 때 함수관계를 파악하기 위해 사용합니다.
이때 분석의 대상이 되는 변수, 즉 관심이 있어 예측하고 싶은 $Y$를 결과변수, 반응변수(response variable) 또는 종속변수(dependent variable)라고 합니다. 반면에 결과의 원인이 되는 변수, 즉 결과의 원인을 설명해 줄 변수 $X$를 원인변수(factor variable), 설명변수(explanatory variable), 또는 독립변수(independent variable)라고 합니다.
여러 원인변수와 1개의 결과변수가 선형인 관계를 가지는 선형회귀모델의 예는 다음과 같습니다.
$$Y=\beta_0+\beta_{1}X_1+\beta_2X_2+\beta_3X_3$$
$$Y=\beta_0+\beta_{1}t_1+\beta_2t_2+\beta_3t_3$$
$$Y=ln(e^{\beta_0}+e^{\beta_{1}t_1}+e^{\beta_2t_2}+e^{\beta_3t_3})$$
선형회귀에서 선형성은 원인변수($X$)가 아니라 회귀계수($\beta$)를 기준으로 생각합니다. 선형회귀에서의 선형성은 $\bf{X}$의 함수로서 $Y$의 예측값이 $\bf{X}$의 선형 조합이라는 의미에서, 회귀계수($\bf{\beta}$)들이 모델의 선형성을 결정짓는 핵심 요소입니다. 즉, 독립변수가 서로 복잡한 비선형 관계를 가지더라도, 회귀계수의 선형 조합을 통해 종속변수($Y$)를 선형적으로 예측하는 것이 선형회귀의 목적입니다.
단순선형회귀모델은 1개의 원인변수와 1개의 결과변수를 1차함수로 모델링한 모델입니다.
회귀계수의 의미
$\beta_0$의 의미는 원인변수가 0일 때 결과변수의 값입니다. 또는 원인변수가 0일 때 $Y$의 기대값입니다. 표본절편이라고 합니다.
$$\mathrm{E}[Y|X=0]=\beta_0$$
$\beta_1$의 의미는 원인변수가 한 단위 증가함에 따라 발생하게 되는 확률변수인 결과변수의 평균값의 증가분입니다. 원인변수와 결과변수의 관계를 규정지어 주는 중요한 모수(parameter)입니다.
$$\mathrm{E}[Y|X=m]-\mathrm{E}[Y|X=m-1]=\beta_1$$
모회귀계수($\beta_0$, $\beta_1$)와 잔차의 모분산( $\sigma_{Res}^2$)은 알고자 하는 값입니다. 잔차의 모분산의 추정값(estimate)을 구하기 위해 추정량(estimatior)중에서 최소제곱법(LSE)을 사용합니다. 잔차제곱합($SS_{Res}$)을 최소화하는 표본회귀계수를 구합니다. 표본회귀계수는 모회귀계수의 점추정량입니다. 잔차제곱합의 추정량을 자유도로 나누어 잔차의 모분산을 점추정합니다.
잔차제곱합은 다음과 같습니다.
$$SS_{Res}=\sum\limits_{i=1}^{n}{e_i}^2=\sum\limits_{i=1}^{n}\epsilon_i^2=\sum\limits_{i=1}^{n}({y_i}−{\beta_0}−{\beta_1}{x_i})^2$$
$$SS_{Res}=\sum\limits_{i=1}^{n}\left(y_i^2-{\beta_0}{y_i} – {\beta_1}{x_i}{y_i}-{\beta_0}{y_i} + \beta_0^2 + {\beta_0}{\beta_1}{x_i} -{\beta_1}{x_i}{y_i} + {\beta_0}{\beta_1}{x_i} + ({\beta_1}{x_i})^2\right)$$
$$SS_{Res}=\sum\limits_{i=1}^{n}\left(y_i^2 – 2{\beta_0}{y_i} – 2{\beta_1}{x_i}{y_i} + \beta_0^2 + 2{\beta_0}{\beta_1}{x_i} + ({\beta_1}{x_i})^2\right)$$
$SS_{Res}$를 ($\beta_0$)로 편미분한 값이 0이 되는 편미분식은 아래와 같습니다.
$$\dfrac{\partial SS_{Res}}{\partial \beta_0}=\dfrac{\partial \sum\limits_{i=1}^{n} \left(y_i^2 – 2{\beta_0}{y_i} – 2{\beta_1}{x_i}{y_i} + \beta_0^2 + 2{\beta_0}{\beta_1}{x_i} + ({\beta_1}{x_i})^2\right)}{\partial \beta_0}=0$$
$$\dfrac{\partial SS_{Res}}{\partial \beta_0}=\sum\limits_{i=1}^{n}\left( – 2{y_i} + 2\beta_0 + 2{\beta_1}{x_i} \right)=0$$
$$\dfrac{\partial SS_{Res}}{\partial {\beta_0}}=-2\sum\limits_{i=1}^{n}\left(y_i – {\beta_0} – {\beta_1}{x_i}\right)=0$$
$$\sum\limits_{i=1}^{n}y_i =\sum\limits_{i=1}^{n}{\beta_0} + \sum\limits_{i=1}^{n}{\beta_1}{x_i}$$
$$\sum\limits_{i=1}^{n}y_i =n{\beta_0} + \sum\limits_{i=1}^{n}{\beta_1}{x_i}$$
$$\bar y=\hat{\beta_0} + \hat{\beta_1}\bar{x_i}$$
$$\hat{\beta_0} = \bar y – \hat{\beta_1}\bar{x_i}$$
$SS_{Res}$를 ${\beta_1}$로 편미분한 값이 $0$이 되는 편미분식은 아래와 같습니다.
$$\dfrac{\partial SS_{Res}}{\partial \beta_1}=\dfrac{\partial \sum\limits_{i=1}^{n} \left(y_i^2 – 2{\beta_0}{y_i} – 2{\beta_1}{x_i}{y_i} + \beta_0^2 + 2{\beta_0}{\beta_1}{x_i} + ({\beta_1}{x_i})^2\right)}{\partial \beta_1}=0$$
$$\dfrac{\partial SS_{Res}}{\partial \beta_1}=\sum\limits_{i=1}^{n}\left( – 2{x_i}{y_i} + 2{\beta_0}{x_i} + 2\beta_{1}{x_i}\right)=0$$
$$\dfrac{\partial SS_{Res}}{\partial {\beta_1}}=-2\sum\limits_{i=1}^{n}\left( {x_i}{y_i} – {\beta_0}{x_i} -\beta_1 {x_i^2}\right)=0$$
$$\sum\limits_{i=1}^{n}{x_i}{y_i} ={\beta_0}\sum\limits_{i=1}^{n}{x_i} + {\beta_1}\sum\limits_{i=1}^{n}{x_i^2}$$
$$\sum\limits_{i=1}^{n}({x_i}-{\bar X})({y_i}-{\bar Y}) ={\beta_0}\sum\limits_{i=1}^{n}({x_i}-{\bar X}) + {\beta_1}\sum\limits_{i=1}^{n}({x_i}-{\bar X})^2$$
여기서, ${\beta_0}\sum\limits_{i=1}^{n}({x_i}-{\bar X})=0$
$$\sum\limits_{i=1}^{n}({x_i}-{\bar X})({y_i}-{\bar Y}) = {\beta_1}\sum\limits_{i=1}^{n}({x_i}-{\bar X})^2$$
$$\hat{\beta}_1=\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar X)(y_i-\bar Y)}{\sum\limits_{i=1}^{n}(x_i-\bar X)^2}$$
최소제곱법은 잔차제곱합($SS_{Res}$)을 최소화하는 기울기($\beta_1$)와 절편($\beta_0$)을 구하는 것으로 윗 식과 같이 편미분을 사용하여 구한 결과는 다음과 같습니다.
$$\hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X}$$
$$\hat{\beta}_1=\dfrac{\sum\limits_{i=1}^{n}(x_i-\bar X)(y_i-\bar Y)}{\sum\limits_{i=1}^{n}(x_i-\bar X)^2}$$
$\epsilon_i$와 $e_i$를 구분하면 $\epsilon_i$는 “model error term”이라고 불리며 실제값과 예측값과의 오차입니다. 실제 반응변수의 관측값에서 집단의 반응변수의 모평균(기대값)을 뺀 값입니다.
$$\epsilon_i=y_i-\mathrm {E}[y_i]$$
$e_i$는 잔차(residual)로 실제 관측값에서 표본의 회귀식으로 예측한 값을 뺀 값입니다.
$$e_i=y_i-(\beta_0+\beta_ix_i)=y_i−\hat{y}_i$$
단순회귀모델의 적합성(goodness of fit)이란 도출된 표본회귀선이 각 관측점들을 얼마나 잘 나타내는지, 또는 주어진 데이터로부터 독립변수가 종속변수를 얼마나 잘 설명하는 지를 말합니다. 결정계수(coefficient of determination)는 표본회귀선의 적합도를 나타내는 지표 및 기준입니다.
$Y$의 변동에 대한 설명
$$Y_i=\hat{\beta_0}+\hat{\beta_1}X_i+e_i=\hat{Y_i}+e_i$$
표본평균($\bar X$)를 기준으로 정리하면
$$({Y_i} – \bar{Y})=(\hat{Y_i} – \bar{Y}) + e_i$$
$$\sum\limits_{i=1}\limits^{n}{(Y_i–\bar{Y})}^2=\sum\limits_{i=1}\limits^{n}{(\hat{Y_i}–\bar{Y})}^2+\sum\limits_{i=1}\limits^{n}{e_i}^2$$
여기서, $\sum\limits_{i=1}\limits^{n}{(Y_i–\bar{Y})}^2$: 종속변수 $Y$ 가 그 평균인 $\bar{Y}$로부터 얼마나 변동하는가를 나타태는 $Y$의 전체변동
$\sum\limits_{i=1}\limits^{n}{(\hat{Y_i}–\bar{Y})}^2$는 $Y$ 중에서 $X$에 의해 설명되는 회귀의 변동
$\sum\limits_{i=1}\limits^{n}{e_i}^2$는 $Y$ 중에서 $X$에 의해 설명되지 않는 잔차의 변동
총제곱합 $SS_T$(total sum of squares) : 종속변수 $Y$ 가 그 평균인 $\bar{Y}$로부터 얼마나 변동하는가를 나타내는 $Y$의 총변동은 다음과 같습니다.
$$SS_T=\sum\limits_{i=1}\limits^{n}{(Y_i–\bar{Y})}^2$$
회귀제곱합 $SS_{Reg}$(regression sum of squares) : $Y$ 중에서 $X$ 에 의해 설명되는 변동(explained variation)은 다음과 같습니다.
$$\sum\limits_{i=1}\limits^{n}(\hat{Y}– \bar{Y})^2$$
잔차제곱합 $SS_{Res}$(residual sum of squares) :$Y$ 중에서 $X$에 의해 설명되지 않는 잔차의 변동(unexplained variation)은 다음과 같습니다.
$$SS_{Res}=\sum\limits_{i=1}\limits^{n}{e_i}^2$$
변동의 등식
$$SS_T = SS_{Reg} + SS_{Res}$$
결정계수($R^2$)는 $Y_i$ 의 변동 중 얼마 만큼의 부분이 설명되고 있는가를 보여줍니다.
$$R^2 = \dfrac{SS_{Reg}}{SS_T}= 1- \dfrac{SS_{Res}}{SS_T}$$
결정계수($R^2$)가 1에 가까워질수록 주어진 선형회귀모델이 데이터에 더 적합하다고 판정합니다.
$$0 ≤ R^2≤1$$
결정계수($R^2$)는 단순히 선형회귀모델의 적합도에 대한 수치적 척도를 나타낼 뿐 질적인 척도를 나타내지는 못합니다. 따라서 $R^2$를 극대화 하는 것에 초점을 두는 것은 옳지 못합니다.
선형회귀의 적합성(Quality)은 보통 잔차표준오차($\mathrm {SE}(Residual)$, $S_{Res}$)와 표본결정계수$(R^2)$ 등의 표본통계량을 사용하여 평가합니다. 잔차표준오차($\mathrm {SE}(Res)=\sigma_{Rse}$)는 $\epsilon$의 표준편차의 추정값으로 종속변수의 값이 회귀선으로부터 벗어나는 평균값을 의미합니다.
$$\mathrm {SE}(Residual)=\dfrac{1}{n}−2SS_{Res}=\dfrac{1}{n}−2\sum\limits_{i=1}^{n}(y_i−\hat{y}_i)^2$$
$$\mathrm{SE}(Residual) = \dfrac{\sigma_Y}{\bar X}$$
표본통계량 중에서 표본결정계수$(R^2)$는 선형회귀모델의 적합성을 평가할 때 사용합니다.
$$R^2=\dfrac{SS_{Reg}}{SS_T}=1−\dfrac{SS_{Res}}{SS_T}$$
$SS_T$는 총제곱합입니다. $\sum\limits_{i=1}^{n}(y_i−\bar y)^2$ 로 표현할 수 있으며 평균으로부터 실제값의 변화량을 나타내며 결과변수($Y$)의 변동입니다.
$SS_{Reg}$는 $SS_T – SS_{Res}$로 표현되며 설명되는 변동(Explained Sum of Squares)입니다. 선형회귀모델에서의 예측값의 변동입니다.
$SS_{Res}$는 잔차제곱합(Residual Sum of Squares)입니다. 표본크기가 커지면 잔차제곱의 표준편차는 작아져서 모형의 예측값의 변화는 실제값의 변화와 같아집니다.
결정계수($R^2$)를 통한 분석은 잔차표준오차로 분석하는 방법보다 더 직관적입니다. $R^2$의 범위는 0부터 1로, 1에 가까울수록 관심있는 결과가 모델링한 원인으로 설명이 잘되는 것을 의미합니다. 특별히 원인변수(설명변수, 요인변수, 인자, factor)가 1개인 선형회귀모델에서는 상관계수의 제곱은 결정계수가 됩니다.
원인변수(설명변수)와 결과변수(반응변수)의 관계를 파악하기 위하여 상관분석과 회귀분석을 사용합니다. 만일 선형적인 관계가 발견되면 관계를 표현하는 회귀식인 일차함수를 모델링합니다.
선형회귀와 확률변수의 평균값 추정은 편향(bias)의 개념으로 설명합니다. 편향은 예측할 모수들과 모델의 기대값 간 차이로 정의할 수 있습니다. 그리고 분산이 커지면 예측값의 범위가 넓어집니다.
확률변수 $Y$의 모평균($\mu_Y$)또는 모회귀선을 추정할 때 표본평균($\bar Y$) 또는 표본회귀선($\hat{Y}$)이 실제로 얼마나 정확한가를 판단하게 됩니다. 모분산을 알 수 없는 경우가 대부분이므로 모분산을 표본분산으로 대체하여 표준오차를 계산하고 표본회귀선의 정확성을 판단합니다.
우선, 표본평균의 표준편차 즉, 표준오차는 다음과 같습니다.
$$\sigma_{\hat Y}=\mathrm{SE}(\hat{Y})=\dfrac{\sigma_Y}{n}$$
여기서, $\sigma_Y$는 $y_i$의 표준편차
$n$은 표본크기
$\hat{\beta}_0$, $\hat{\beta}_1$의 표준오차는 다음 식을 사용하여 계산합니다
$$\mathrm{SE}(\hat{\beta}_1)^2=\dfrac{\sum\limits_{i=1}^{n}(y_i−\bar{Y})^2}{\sigma^2}$$
$$\mathrm{SE}(\hat{\beta}_0)^2=\bar Y-{\bar {X}^2}\dfrac{\sum\limits_{i=1}^{n}(x_i−\bar{X})^2}{\sigma^2}$$
만약 $\bar X$가 $0$이면 $\mathrm{SE}(\beta_0)$과 $\mathrm{SE}(\hat{\beta}_0)$는 같아집니다.
$\sigma_{Res}=\sigma_{e_i^2}$의 경우, 그 추정값은 잔차표준오차$(MS_{Res})$이고 다음과 같습니다.
$$\sigma_{Res}=\sigma_{e_i^2}=MS_{Res}=\dfrac{SS_{Res}}{n−2}$$
자유도가 ($n−2$)인 이유는 $\hat{\beta}_0$, $\hat{\beta}_1$ 두 개의 모수를 이용하기 때문입니다.
표준오차는 신뢰구간을 구하는 데 사용됩니다. 신뢰구간은 값의 범위로 정의된다. 대표적으로 사용하는 95% 신뢰구간은 이러한 형태로 표현할 수 있습니다.
$$\beta_1=\hat{\beta}_1±1.96⋅\mathrm{SE}(\hat{\beta}_1)$$
표준오차는 회귀계수의 가설검정에도 사용됩니다. 귀무가설에서 의미있는 차이가 없다는 것을 증명하기 위해 사용합니다. 대립가설은 독립변수와 종속변수 사이에 특정 관계를 증명하고자 할 때 사용합니다.
독립변수와 종속변수간 관계가 있고 없음을 판정하기 위해 귀무가설을 세웁니다.
귀무가설
$H_0$ : $X$와 $Y$사이에 어떠한 상관관계도 없다. 즉 $\beta_1$은 0이다.
대립가설
$H_1$ : $X$와 $Y$사이에 상관관계가 있다. 즉 $\beta_1$은 0이 아니다.
검정을 할 때 만약 $\beta_1=0 $이라면 수식은 $Y=\beta_0+\epsilon$이 되므로 $X$와 상관없이 항상 일정한 값이 나오게 되며, $X$는 $Y$와 관련이 없다고 판단할 수 있습니다. 이때 이러한 $t$검정을 위해 $t$검정통계량을 사용합니다.
– 선형성 (원인변수와 결과변수간의 선형상관)
– 오차항의 평균은 0, 분산은 $\sigma_{Res}^2$
– 원인변수(독립변수)들 사이의 선형관계가 없다
– 원인변수(독립변수)는 오차항과 상관이 없다.
– 오차항들은 서로 독립적이며 연관성이 없다.
회귀계수에 대한 가설검증은 집단의 모회귀계수에 대해 가설이 맞는 지를 표본으로부터 구한 결과를 토대로 판단하는 것입니다.
1종 오류(type I error): 귀무가설이 맞는데도 이를 기각하는 오류
2종 오류(type II error): 귀무가설이 틀리는데도 이를 기각하지 못하는 오류
유의수준($\alpha$, significance level)은 1종 오류를 일으킬 확률이며 일반적으로 1%(0.01), 5%(0.05), 10%(0.1) 중에서 많이 채택하지만 각 분야의 축적된 전문적 지식에 따라 정하기도 합니다.
귀무가설($H_0$) : 집단의 모회귀계수가 특정값과 같다는 가설
$H_0$ : ${\beta}$ = $\beta_0$
대립가설 ($H_1$): 귀무가설에 대립하는 가설
$H_1$ : ${\beta}$ ≠ $\beta_0$
표뵨으로 검정하기 위한 가설을 수립
$H_0 : \hat{\beta_0}$ = $\beta_0$
$H_1 : \hat{\beta_0}$ ≠ $\beta_0$
검정통계량
$$\dfrac{\hat{\beta} – \beta_0}{ S_\hat{\beta}}$$
검정통계량의 표집은 자유도가 $n-2$인 다음식으로 표현되는 $t$분포를 따릅니다.
$$\dfrac{\hat{\beta} – \beta_0}{ S_\hat{\beta}}$ ~$ t_{n-2}$$
여기서, $\hat{\beta}$는 표본회귀계수
$\beta_0$은 귀무가설을 위한 모회귀계수의 특정값
$S_{\hat{\beta}}$은 회귀계수의 표본표준편차
$t_{n-2}$는 자유도가 $(n-2)$인 $t$확률분포
규정하는 유의수준($\alpha$)에 따른 임계량(critical value)은 다음과 같이 표현합니다.
$$t_{n-2; \frac{\alpha}{2}}$$
기각역(rejection region)을 결정하고 검정을 행합니다. 귀무가설, $H_0$ : $\hat{\beta}$ = $\beta_0$ 에 대하여 대립가설은 설정방향에 따라 3가지가 있습니다. 대립가설에 따라 양측검정 또는 단측검정이 결정됩니다. 단측검정은 대립가설에서 부등호가 한쪽 방향일 경우 사용합니다.
우측검정 : $H_1$ : $\hat{\beta}$ > $\beta_0$
좌측검정 : $H_1$ : $\hat{\beta}$ < $\beta_0$
양측검정 : $H_1$ : $\hat{\beta}$ ≠ $\beta_0$
귀무가설 기각
$$H_0 : \hat{\beta} ≥ \beta_{0}$$
$$H_1 : \hat{\beta} < \beta_0$$
검정통계량과 유의수준으로 귀무가설 기각
$$t = \dfrac{\hat{\beta} – \beta}{S_\beta} > -t_{\alpha}$$
여기서, 임계량이 $-t_{\alpha}$일 때 귀무가설을 기각하지 못함.
우측검정가설
$$H_0 : \hat{\beta} ≥ \beta_0$$
$$H_1 : \hat{\beta} < \beta_0$$
좌측검정가설
$$t =\dfrac{\hat{\beta} – \beta}{S_{\beta}} < t_{\alpha}$$
여기서, 임계치가 $t_{\alpha}$일때 귀무가설을 기각하지 못함.
양측검정가설
$$H_0 : \hat{\beta} = \beta_0$$
$$H_1 : \hat{\beta} ≠ \beta_0$$
양측검정
$ |t=\dfrac{\hat{\beta} – \beta}{ S_\beta}| ≥ t_{n-2; \frac{\alpha}{2}}$이면, 귀무가설 기각
$|t=\dfrac{\hat{\beta} – \beta}{S_\beta}| < t_{n-2; \frac{\alpha}{2}}$이면, 귀무가설 채택
유의확률에 의한 가설검정은 추정량의 유의성 검증(significance test)에 사용합니다. 귀무가설이 기각되면, 원인변수 $X$ 가 결과변수 $Y$ 에 유의적인 (significant) 영향을 주지 못합니다. 즉, 추정량이 통계적으로 유의하지 못합니다. 귀무가설이 기각되지 않으면 원인변수{$X$)가 종속변수($Y$)에 유의적인(significant) 영향을 줍니다. 즉, 추정량이 통계적으로 유의합니다. 귀무가설하에서의 $t$통계치($t-ratio$)는 다음과 같습니다.
$$t =\dfrac{\hat{\beta} – \beta_{0}}{ S_{\beta}} = \dfrac{\hat{\beta}}{ S_{\beta}}$$
여기서, $\beta_0 = 0$
통계치의 표본분포는 $t$분포를 가지나 표본수가 충분히 클 때$(n→∞)$ 정규분포에 근접합니다. 정규분포에서 5%의 유의수준의 임계값은 $1.96$입니다. 만일 $ |t| < 1.96 (-1.96< t <1.96)$이면 귀무가설이 기각되지 못하여 원인변수($X$) 가 결과변수($Y$)에 유의한 영향을 주지 못함을 의미합니다. 어떠한 원인변수가 결과변수에 중요한 변수인지 아닌지를 판단하기위해서는 $t$-statistic와 임계값을 비교하여 유의성을 검증하는 것이 필요합니다.
유의성 검증을 위한 가설검정에 있어서, 유의확률($P$-value)을 사용합니다. 유의확률($p$값)을 결정하는 것은 검정통계량입니다. 특히, 주어진 귀무가설을 기각하는데 있어서는 “유의수준 절대값”보다 검정통계량이 클 확률을 유의확률이라고 합니다.
$p$-value = $P[t_{n-2}>|t\mathrm{-statistic}|]$
여기서, 유의확률 > 유의수준: 귀무가설 채택
유의확률 < 유의수준: 귀무가설 기각
데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와 비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.
일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는 “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인 “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.
출처
데이터세트는 데이터의 집합입니다. 일반적으로 데이터세트는 단일 데이터베이스 테이블의 내용 또는 테이블의 모든 열이 특정 변수를 나타내는 단일 통계 데이터 행렬에 해당하며 각 행은 해당 데이터 집합의 특정 구성요소에 해당합니다. 데이터세트에는 각 개체의 변수값이 나열됩니다. 각 변수값을 데이텀이라고 합니다. 데이터세트는 행의 수에 대응하는 하나 이상의 개체(member)에 대한 데이터를 포함합니다. 데이터세트라는 용어는 특정 실험이나 이벤트에 해당하는 데이터를 적용하기 위해 좀 더 광범위하게 사용될 수도 있습니다.
데이터세트 보다 덜 사용되는 이름은 데이터 자료 및 데이터 저장소입니다. 사용 예는 우주인이 우주 탐사선을 타고 실험을 수행하여 데이터세트를 수집하는 것입니다. 매우 큰 데이터세트는 일반적인 데이터 처리프로그램이 처리하기에 부적합한데 이를 빅 데이터라고 합니다. 공개 데이터 분야에서 데이터세트는 공공 데이터저장소에서 공개정보를 측정하는 단위입니다. European Open Data 포털은 50 만 개 이상의 데이터세트를 가지고 있습니다.
출처
본인의 Google 계정으로 구글시트를 복사
=COUNTA(B3:B22) : B3~B22 행의 범위에 있는 데이터의 개수
=COUNT(C3:C22) : C3 ~C22 행의 범위에 숫자 데이터의 개수