Learning DATALINK

프로그래밍

구글시트

데이터

수집, 시각화, 설명

모델링

확률모델, 새 확률변수, 통계모델, 연구계획

데이터분석

모수추정, 모수비교

스프레드시트: 구글시트

프로그래밍 언어: 파이썬

표본종류: 대응표본

확률변수가정: 등분산성, 독립성, 정규성

새확률변수: 차이평균

표집분포: 표본평균 중심극한정리

검정확률분포: t분포

검정통계량: 차이평균과 표준오차의 비

귀무가설: 지방함량 차이평균은 0

가설검정: 유의확률과 유의수준을 비교

정규분포

$$f(y \, ; \mu_Y, \sigma_Y^2)=\dfrac{1}{\sqrt{2\pi}\sigma_Y} \mathrm{exp} \left(-\dfrac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$$

여기서, $y$는 정규분포를 나타내는 확률변수, $Y$의 값(변량)

$\mu_Y$는 확률변수, $Y$의 기대값: 집단의 모평균

$\sigma_Y^2$는 확률변수, $Y$의 모분산: 집단의 모분산

확률변수 t

$$t = \dfrac{Z}{\sqrt{\dfrac{V}  {\nu}}}$$

여기서, $Z$는 표준정규분포를 나타내는 확률변수
$V$는 자유도 $\nu$의 $\chi^2$분포를 나타내는 확률변수
$\nu$는 $V$의 자유도

t분포

$$f(t \, ; \nu)=\dfrac{\Gamma \left({\frac{\nu +1}{2}}\right)}{\sqrt{\nu \pi}\Gamma \left(\dfrac{\nu }{2}\right)}\left(1+\dfrac {t^2}{\nu }\right)^{-\frac{\nu +1}{2}}$$

여기서, $f(\,\,)$는 확률밀도함수

$t$는 t분포를 나타내는 확률변수의 값(변량)

$\nu$는 자유도로 모수(매개변수, parameter)

$\Gamma(\,\,)$는 감마함수

대응표본 차이의 확률분포 (확률변수의 정규성가정에 의해 $f$는 정규분포)

$$f(d_i \, ; 0, \sigma_D^2)=\dfrac{1}{\sqrt{2\pi}\sigma_D} \mathrm{exp} \left(-\dfrac{d^2_i}{2 \sigma_D^2}\right)$$

여기서, $d_i$는 두 집단의 $i$번째 대응된 확률변수값의 차이: $d_i=y_{i1}-y_{i2}$

$d_i$는 연속형 확률변수: $d_i=D$ if $(i=1) \rightarrow (i=\infty)$

$D$는 연속형 확률변수

$\sigma_D^2$은 확률변수 $D$의 모분산

대응표본 차이의 분산 (대응표본은 공분산이 존재)

$$\sigma^2_{D}=\sigma^2_{(Y_{1}-Y_{2})} = \sigma^2_{Y_{1}} + \sigma^2_{Y_{2}}- 2\sigma_{Y_{1} Y_{2}}$$

여기서, $D$는 확률변수이며 대응된 확률변수인 $Y_{1}$과 $Y_{2}$의 차이: $D=Y_1-Y_2$

$\sigma^2_{D}$는 확률변수 $D$의 모분산

$\sigma^2_{Y_{1}}$는 확률변수 $Y_1$의 모분산

$\sigma^2_{Y_{2}}$는 확률변수 $Y_2$의 모분산

$\sigma_{Y_{1} Y_{2}}$는 대응된 확률변수인 $Y_1$과 $Y_2$의 모공분산

$${\rm Var}[D]={\rm Var}[Y_1-Y_2]= {\rm Var}[Y_1] + {\rm Var}[Y_2] – 2{\rm Cov}[Y_1, Y_2]$$

여기서, $D$는 대응된 확률변수인 $Y_1$과 $Y_2$의 차이이며 확률변수: $D=Y_1-Y_2$

${\rm Var}[D]$는 확률변수 $D$의 분산

${\rm Var}[Y_1]$는 확률변수 $Y_1$의 분산

${\rm Var}[Y_2]$는 확률변수 $Y_2$의 분산

${\rm Cov}[Y_1, Y_2]$는 대응된 확률변수인 $Y_1$과 $Y_2$의 공분산이며 확률변수

코시-슈바르츠 부등식

$$|\text{Cov}[Y_1, Y_2]| \leq \sqrt{\text{Var}[Y_1] \cdot \text{Var}[Y_2]}$$

$$(E[Y_1Y_2])^2 \leq E[Y_1^2] \cdot E[Y_2^2]$$

코시-슈바르츠 부등식을 확률변수차이에 적용

$$\text{Var}[Y_1] + \text{Var}[Y_2] – 2\sqrt{\text{Var}[Y_1] \cdot \text{Var}[Y_2]}$$

$$ \leq \text{Var}[D] $$

$$\leq \text{Var}[Y_1] + \text{Var}[Y_2] + 2\sqrt{\text{Var}[Y_1] \cdot \text{Var}[Y_2]}$$

여기서, $D$는 대응된 확률변수인 $Y_1$과 $Y_2$의 차이이며 확률변수: $D=Y_1-Y_2$

${\rm Var}[D]$는 확률변수 $D$의 모분산

${\rm Var}[Y_1]$는 확률변수 $Y_1$의 모분산

${\rm Var}[Y_2]$는 확률변수 $Y_2$의 모분산

${\rm Cov}[Y_1, Y_2]$는 대응된 확률변수 $Y_1$과 $Y_2$의 공분산이며 확률변수

대응표본 차이평균(mean difference) 표집의 확률분포 (확률변수의 정규성가정에 의해 $f$는 정규분포)

$$f(\bar {d} \, ; 0, \sigma^2_{\bar D})=\dfrac{1}{\sqrt{2\pi}\sigma_{\bar D}}\mathrm{exp} \left(-\dfrac{{\bar d}^2}{2\sigma^2_{\bar D}}\right)$$

여기서, $\bar {d}$는 차이의 평균값

$\sigma_{\bar D}^2$은 확률변수 $\bar D$의 모분산

대응표본 Z검정의 검정통계량 (귀무가설)

$$z = \dfrac{\bar{d}-d_0}{\dfrac{\sigma_D}{\sqrt{n}}}$$

여기서, $\bar d$는 차이평균의 관측값: $\bar d=\bar y_{\cdot 1}-y_{\cdot 2}$

$d_0$는 귀무가설로 주어지는 모평균차이: $\mu_{Y_1}-\mu_{Y_2}=d_0$

$\sigma_D$는 확률변수 $D$의 모표준편차

$n$은 대응표본크기(대응쌍의 수)

대응표본 t검정의 검정통계량 (귀무가설): Z검정의 $\sigma_{D}$를 $s_D$로 대체

$$t = \dfrac{\bar{d}-d_0}{\dfrac{s_D}{\sqrt{n}}}$$

여기서, $\bar d$는 차이평균의 관측값: $\bar d=\bar y_{\cdot 1}-y_{\cdot 2}$

$d_0$는 귀무가설로 주어지는 모평균차이: $\mu_{Y_1}-\mu_{Y_2}=d_0$

$s_D$는 확률변수 $D$의 표본표준편차

$n$은 대응표본크기(대응쌍의 수)

대응표본 t검정표

귀무가설($H_0$)검정통계량대립가설($H_1$)귀무가설 기각역
$$\mu_{Y_1}-\mu_{Y_2}=d_0$$$$t=\dfrac{\bar{d}-d_0}{\dfrac{s_D}{\sqrt{n}}}$$$$\mu_{Y_1}-\mu_{Y_2}\gt d_0$$$$\dfrac{\bar{d}-d_0}{\dfrac{s_D}{\sqrt{n}}}\gt t_{n-1\ ;\ \alpha}$$
$$\\mu_{Y_1}-\mu_{Y_2}\lt d_0$$$$\dfrac{\bar{d}-d_0}{\dfrac{s_D}{\sqrt{n}}}\lt-t_{n-1\ ;\ \alpha}$$
$$\\mu_{Y_1}-\mu_{Y_2}\ne d_0$$$$\left|\dfrac{\bar{d}-d_0}{\dfrac{s_D}{\sqrt{n}}}\right|\gt t_{n-1\ ;\ \frac{\alpha}{2}}$$