Learning DATALINK

프로그래밍

구글시트

데이터

수집, 시각화, 설명

모델링

확률모델, 새 확률변수, 통계모델, 연구계획

데이터분석

모수추정, 모수비교

표본종류: 대응표본

확률변수가정: 선형성, 등분산성, 독립성, 정규성

새확률변수: 결정계수(공분산제곱과 분산곱의 비)

표집분포: 결정계수 중심극한정리

검정확률분포: F분포

검정통계량: 표본결정계수와 표준오차의 비

귀무가설: 마블링스코어로 설명되는 등심지방함량은 0

가설검정: 유의확률과 유의수준을 비교

정규분포

$$f(y \, ; \mu_Y, \sigma_Y^2)=\dfrac{1}{\sqrt{2\pi}\sigma_Y} \mathrm{exp} \left(-\dfrac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$$

여기서, $y$는 정규분포를 나타내는 확률변수, $Y$의 값(변량)

$\mu_Y$는 확률변수, $Y$의 기대값: 집단의 모평균

$\sigma_Y^2$는 확률변수, $Y$의 모분산: 집단의 모분산

확률변수 카이제곱

$$\chi^2= Z_1^2 + Z_2^2 + \cdots = \sum\limits_{i=1}^{k}Z_{i}^2$$

여기서, $Z_i$는 표준정규분포 확률변수
$k$는 자유도: 표준정규분포 확률변수 개수

카이제곱분포

$$f(x \, ; k)=\dfrac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}$$

여기서, $x$는 카이제곱분포를 나타내는 확률변수의 값(변량)

$k$는 자유도: 확률변수제곱의 개수

확률변수 F

$$F = \dfrac{\frac{\chi^2_1}{d_1}}{\frac{\chi^2_2}{d_2}}$$

여기서, $F$는 F분포를 나타내는 확률변수

$\chi^2_1$과 $\chi^2_2$는 카이제곱분포를 나타내는 확률변수

$d_1$과 $d_2$는 $\chi^2_1$과 $\chi^2_2$가 나타내는 카이제곱분포의 자유도

F분포

$$f(x; d_1, d_2) = \frac{\left(\dfrac{d_1}{d_2}\right)^{\frac{d_1}{2}} x^{\frac{d_1}{2} – 1} \left(1 + \frac{d_1}{d_2}x\right)^{-\frac{d_1 + d_2}{2}}}{B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}
$$

여기서, $x$는 F분포를 나타내는 확률변수의 값(변량)

$d_1$과 $d_2$는 각각 분자와 분모의 자유도

$B(\,\,)$는 베타함수

$B(\frac{d_1}{2}, \frac{d_2}{2}) = \frac{\Gamma(\frac{d_1}{2}) \Gamma(\frac{d_2}{2})}{\Gamma(\frac{d_1}{2} + \frac{d_2}{2})}$

$\Gamma(\,\,)$는 감마함수

F = 집단간분산 / 집단내분산

$$F=\dfrac{MS_{B}}{MS_{W}}=\dfrac{\dfrac{SS_{B}}{k-1}}{\dfrac{SS_{W}}{n-k}}$$

여기서, $MS_B$는 집단간분산

$MS_W$는 집단내분산

$SS_B$는 집단간변동

$SS_W$는 집단내변동

$k$는 집단수

$n$은 표본크기

F = 회귀분산 / 잔차분산

$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{\dfrac{SS_{Reg}}{k-1}}{\dfrac{SS_{Res}}{n-k}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$$

여기서, $MS_{Reg}$는 회귀분산: 회귀집단의 분산

$MS_{Res}$는 잔차분산: 잔차집단내분산 $\because$ 회귀집단내분산=0

$SS_{Reg}$는 회귀변동

$SS_{Res}$는 잔차변동

$k$는 집단수: 회귀집단과 잔차집단 $\therefore k=2$

$n$은 표본크기

결정계수 = 설명된 변동 / 총 변동

$$R^2=\dfrac{SS_{Reg}}{SS_T}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}$$

여기서, $SS_{Reg}$는 회귀제곱합

$SS_{Res}$는 잔차제곱합

$SS_T$는 총제곱합

$SS_{Reg}$ / $SS_{Res}$

$$\dfrac{SS_{Reg}}{SS_{Res}}=\dfrac{R^2}{1-R^2}$$

$$F=(n-2)\dfrac{R^2}{1-R^2}$$

여기서, $n$은 표본크기

$R^2$은 결정계수

회귀직선의 적합성

$$R^2=r^2$$

$$F=(n-2)\dfrac{r^2}{1-r^2}$$

여기서, $n$은 표본크기

$r$은 표본피어슨상관계수

단순선형회귀분석표

 변동: 편차제곱합자유도분산: 편차제곱평균검정통계량
회귀
(Regression)
$SS_{Reg}$$1$${MS}_{Reg}=\dfrac{SS_{Reg}}{1}$$F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$
잔차
(Residual)
$SS_{Res}$$n-2$$MS_{Res}=\dfrac{SS_{Res}}{n-2}$
벡터합
(Total)
$SS_T$$n-1$$MS_T=\dfrac{SS_T}{n-1}$

단순선형회귀분석 F검정표

귀무가설$(H_0)$검정통계량대립가설$(H_1)$귀무가설 기각역
$$ \beta_1=\beta_{1,0}$$$F=\dfrac{MS_{Reg}}{MS_{Res}}$$\beta_1<\beta_{1,0}$검정통계량으로 $\beta_1$이 $\beta_{1,0}$보다 작은 지 알 수 없다. 
$\beta_1>\beta_{1,0}$검정통계량으로 $\beta_1$이 $\beta_{1,0}$보다 큰 지 알 수 없다. 
$$ \beta_1 \ne \beta_{1,0}$$$F\gt F_{1,\ n-2\ ;\ \alpha}$