확률 – Learning DATALINK

확률

용어	표기 예	표기 설명	유사 용어	영문 용어	개념
확률	$P$ $Pr$ $p$	영 이탤릭 대문자 $P$ 영 이탤릭 대문자 $Pr$ 영 이탤릭 소문자 $p$	가능성	probability	확률은 범주에 부여되나 범주의 크기가 무한소가 되면 속성값이 되며 확률은 확률밀도가 됨 판정의 기준이 되는 유의수준($\alpha$)은 확률
표본공간	$\Omega=\{앞면, 뒷면\}$	그리스 이탤릭 대문자 $\Omega$	결과공간 샘플공간	sample space	확률실험에서 가능한 모든 결과의 집합
사건공간	$\mathcal{P}(\Omega)=\{\{\,\,\,\}, \{\text{앞면}\}, \{\text{뒷면}\}, \{\text{앞면, 뒷면}\}\}$ $2^{\Omega}=\{\{\,\,\,\}, \{1\}, \{2\}, \{1, 2\}\}$ $\sigma\text{-algebra}$ 여기서 $\Omega$는 표본공간	수학기호 $\mathcal{P}$ 수식 $2^{\Omega}$	시그마-대수(sigma-algebra) 시그마-필드(sigma-field)	event space	사건공간의 모든 요소는 표본공간의 부분집합 표본공간의 멱집합
확률변수	$X$, $X\left({\omega}\right)$	영 이탤릭 대문자	랜덤변수 난수	random variable probability variable	확률을 가지는 변수, 확률의 선행 개념
변량	$x$	영 이탤릭 소문자	데이터포인트 변수값 관측값	data value datum	변수의 측정된 값, 변수의 가능한 값 보통 숫자로 표현되나 범주형 데이터(예: 성별)는 단어로도 표현
변수값	$x_{1},x_{2},\cdots ,x_{n}$	영 이탤릭 소문자	변량 데이터포인트 관측값	variable value	변수에 할당된 구체적인 수치나 데이터 변수값이 연속형 수치: 연속형 변수 변수값이 이산형 횟수: 이산형 변수 변수값이 범주명: 범주형 변수
누적확률	$P\left({X\leq x}\right)$	영 이탤릭 대문자	확률적 적분	a cumulative probability	특정 확률분포에 대해 주어진 값 이하의 모든 확률을 합한 것
확률변수값	$x_i$	영 이탤릭 소문자	실현값(realization) 결과값(outcome) 관측값(observation) 표본값(sample value)	particular realizations of a random variable	사건의 결과인 집합의 $i$번째 원소
기대값	${\rm{E}}\left[{Y}\right]=\mu_Y$ 여기서 $Y$는 확률변수	영 대문자 E	모평균(population mean) 일차적률(first moment)	expected value of $Y$	확률변수 $Y$의 기대값
분산	${\rm{Var}}\left[{Y}\right]=\sigma^2_Y$: 확률변수의 분산 (모분산) $S^2_Y$: 표본의 분산 (표본분산) 여기서 $Y$는 확률변수	영 문자 Var: 모분산 그리스 이탤릭 소문자 $\sigma^2$: 모분산 영 이탤릭 대문자: $S^2$: 표본분산	퍼짐(dispersal) 확산(spread) 변동성(volatility)	variance of $Y$	확률변수 $Y$의 분산
공분산	${\rm{Cov}}\left[{X,Y}\right]=\sigma_{XY}$	[ ] 대괄호 내에 확률변수	상관정도(degree of correlation) 연관성(association) 연계성(linkage) 상호변동성(mutual variability)	covariance of $X$ and $Y$	확률변수 $X$와 $Y$의 공분산
모수	모평균 $\mu$ 모분산 $\sigma^2$ 모비율 $p$	그리스 이탤릭 소문자 영 이탤릭 소문자	모집단 매개변수(Population Parameter) 모집단 통계량 (Population Statistic) 모집단 지표 (Population Index) 기초통계량 (Fundamental Statistic)	parameter	모집단의 특성을 나타내는 수치 모집단을 표현하는 확률분포함수의 매개변수
확률질량함수	$f$	영 이탤릭 소문자	pmf	probability mass function	범주형 또는 이산형 변수의 확률질량
확률밀도함수	$f$	영 이탤릭 소문자	pdf	probability density function	연속형 변수의 확률밀도
누적분포함수	$F$	영 이탤릭 대문자	cdf, 누적확률함수	cumulative distribution function	이분 경계값에서의 생성된 확률질량
확률분포	$X \sim t_{n-1}$	영 이탤릭 대문자 $\sim$ 확률분포	확률모델 (Probability Model) 분포함수 (Distribution Function) 확률법칙 (Probability Law) 빈도분포 (Frequency Distribution)	probability distribution	확률변수가 취할 수 있는 모든 가능한 값들과 그 값들이 발생할 확률 이산확률분포 (discrete probability distribution): 확률변수가 취할 수 있는 값이 명확하게 분리되어 있는 경우 연속확률분포 (continuous probability distribution): 확률변수의 값이 연속적인 값인 경우
확률분포추정	$X \sim t_{n-1}$	영 이탤릭 대문자 $\sim$ 확률분포	확률함수추정	probability distribution estimation	확률밀도함수의 종류와 그에 따른 매개변수를 추정
생성함수	$G(x)=\sum\limits_{n=1}^{\infty}(n-1)x^{n}=x^0+2x^1+3x^2+4x^3+\cdots$ $S=\{ 1, 2x, 3x^2, 4x^3, \cdots \}$	영 이탤릭 대문자 $G$	반복자함수	generating function	수열이나 이산 확률변수의 전체 정보를 압축한 함수 매개변수 추정값의 확률질량 또는 확률밀도
확률생성함수	PGF: 이산형확률변수인 경우 MGF: 이산형확률변수, 연속형확률변수인 경우 $G_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$ $P_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$ $P_{Y} = \{P(Y=0)\cdot z^0, P(Y=1)\cdot z^1, P(Y=2)\cdot z^2, P(Y=3)\cdot z^3, \ldots\}$ 여기서, $P_{Y}$는 이산확률변수 $Y$의 확률생성성함수 $Y$는 이산확률변수 $P$는 확률질량함수 $z$는 복소수	영 대문자 PGF 영 대문자 MGF 영 이탤릭 대문자 $G$ 영 이탤릭 대문자 $P$	확률발생함수 이산형특성함수 (discrete characteristic function) 이산형누적확률함수 (discrete cumulative probability function) 확률전파함수 (probability propagation function)	probability generating function: PGF moment generating function: MGF	확률변수의 확률분포를 다항식으로 나타낸 함수
생성모델	$p$	영 이탤릭 소문자	통계모형	generation model	주어진 데이터의 분포를 학습하여 새로운 데이터를 생성할 수 있는 모델 새로운 데이터 포인트를 실제 데이터와 유사하게 생성
표준정규분포의 pdf	$\varphi\left({z}\right) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$ 여기서 $z$는 실수	그리스 이탤릭 소문자 $\varphi$	표준정규 확률밀도함수	the pdf of the standard normal distribution	자연현상과 인간활동 결과의 분포를 모델링하는 데 사용 모든 실수의 독립변수($Z$)에 대해 정의된 연속형 함수 독립변수의 값($z$)에 따라 확률밀도를 나타내는 연속형 함수 표준정규분포는 평균(0)을 중심으로 완벽하게 대칭 그래프의 모양이 종(bell) 모양을 이루며, 중심에서 멀어질수록 확률밀도가 급격히 감소 모든 확률밀도의 총합은 1
표준정규분포의 cdf	$\Phi(z) = \dfrac{1}{2} \left[1 + \text{erf}\left(\dfrac{z}{\sqrt{2}}\right)\right]$ 여기서, $\text{erf}(z) = \dfrac{2}{\sqrt{\pi}} \int_0^z e^{-t^2} \, dt$ $z$는 실수 $t$는 실수	그리스 이탤릭 대문자 $\Phi$	표준정규 누적분포함수	the cdf of the standard normal distribution	주어진 독립변수값($z$)까지 표준정규 확률밀도함수의 적분으로 정의 $Z$값($z$)에 따라 비선형적으로 증가 그래프는 중심(평균)을 기준으로 대칭 $$Z$값이$ 음의 무한대로 갈 때 표준정규 누적분포함수는 0으로 수렴하고 양의 무한대로 갈 때는 1로 수렴
F분포 임계값	$F_{(\nu_1,\nu_2;\alpha)}$	$F_{\text{자유도1},\ \text{자유도2}\ ;\ \text{유의수준}}$	F분포 임계치	F distribution critical value	특정 신뢰수준에서 집단간분산과 집단내분산의 다름이 우연히 발생했을 확률을 결정하는 주어지는 F확률변수값 주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산 F검정통계량이 F분포 임계값보다 클 경우, 귀무가설(집단간분산과 집단내분산이 같다)을 기각
t분포 임계값	$t_{n-1\ ;\ \frac{\alpha}{2}}$	$t_{\text{자유도}\ ;\ \text{양측검정 유의수준}}$	t분포 임계치	t distribution critical value	표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 t확률변수값 주어지는 유의수준($\alpha$)과 표본의 자유도($df$)와 검정종류(양측 또는 단측)로 계산 t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각
Z분포 임계값	$z_{\frac{\alpha}{2}}$	$z_{\text{양측검정 유의수준}}$	Z분포 임계치	Z distribution critical value	표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 Z확률변수값 주어지는 유의수준($\alpha$)과 검정종류(양측 또는 단측)로 계산 Z검정통계량이 Z분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각
카이제곱분포 임계값	$\chi_{n-1\ ;\ \alpha}^2$	$\chi^2_{\text{자유도}\ ;\ \text{유의수준}}$	카이제분포 임계치	chi-square distribution critical value	관측빈도(관측확률)와 기대빈도(기대확률) 사이의 다름을 평가하는 데 사용하는 계산되는카이제곱확률변수값 주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산 t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정 값과 같다)을 기각
확률변수의 독립	$X\bot Y$ $X$와 $Y$는 확률변수	$\bot $는 독립 기호	독립성 독립관계	$X$ is independent of $Y$	$X$는 $Y$는 독립적
확률변수의 조건독립	$X\bot Y\mid W$ 여기서, $X, Y, W$는 확률변수	$\mid $ 는 조건 기호 $\bot $는 독립 기호	조건독립성 조건독립관	$X$ is independent of $Y$ given $W$	확률변수 $X$와 $Y$는 주어진 확률변수 $W$에서 독립
조건부확률	$P\left({A\mid B}\right)$ 여기서 $A$와 $B$는 사건	영 이탤릭 대문자 $P$	조건부발생확	the conditional probability	$B$사건이 일어난 상태에서 $A$사건이 일어날 확률
가능도함수	$L\left(\mathbf{\theta} \, ; \mathbf{X}\right)$ 여기서, $\mathbf{\theta}$는 확률분포의 모수벡터(parameter vector) $\mathbf{X}$는 확률벡터(probability vector)	영 이탤릭 대문자 $L$	우도함수	likelihood function	가능도함수는 관측데이터에 기반하여 모수의 값을 추정하는 데 사용 모수값 추정의 통계적 도구(추정량, estimator)인 MLE(최대우도추정법)의 중요한 요소 평균과 분산을 동시에 추정하는 데 사용하는 통계적 도구에는 최소제곱법이 있음 가능도함수를 미분한 함수가 “스코어 함수(score function) 최대우도추정은 스코어 함수를 사용하여 가능도 함수를 최대화하는 과정 중 하나
목적함수	$J(\theta)$	영 이탤릭 대문자 $J$	스코어함수(score function) 비용함수(cost function) 손실함수(loss function) 오차함수(error function)	objective function	주어진 문제의 목표를 수학적으로 정의한 함수 목적함수를 최소화하거나 최대화하는 변수 값의 조합을 찾는 것이 최적화 문제의 핵심
공동확률분포	$P\left({X,Y}\right)$	영 이탤릭 대문자 $P$	결합확률분포 (Joint Probability Distribution) 다변량확률분포 (Multivariate Probability Distribution) 다차원확률분포 (Multidimensional Probability Distribution) 복합확률분포 (Composite Probability Distribution) 확장확률분포 (Extended Probability Distribution)	the joint probability distribution of random variables $X$ and $Y$	두 개 이상의 확률변수가 동시에 특정 값이나 이벤트를 취할 확률을 설명하는 확률분포
공동확률질량함수	$p\left({x,y}\right)=P(X = x, Y = y)$ $p\left({x,y,z}\right)=P(X = x, Y = y, Z=z)$ 여기서 $X, Y, Z$는 확률변수 $x, y, z$는 확률변수값 $p(\mathbf{x}) = p(X_1 = x_1, \ldots, X_n = x_n)$ 여기서 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$	영 이탤릭 소문자 $p$	결합확률밀도함수 (Joint Probability density Function) 다변량 확률밀도함수 (Multivariate density Mass Function) 다차원 확률밀도함수 (Multidimensional Probability density Function 결합확률함수 (Joint Probability Function)	joint probability mass function	두 개 이상의 이산형 확률변수가 동시에 특정 값을 취할 확률을 나타내는 함수 함수값은 양수이며 합은 1 공동확률밀도함수로 주변확률질량함수를 구할 수 있음 두 변수가 통계적 독립인지 확인: $p(x, y) = p_X(x) \cdot p_Y(y)$ 두 변수의 조건부확률식의 분자: $p(y \mid x) = \dfrac{p(x, y)}{p_X(x)}$ 변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악
공동확률밀도함수	$f_{X,Y}(x, y) $ 여기서 $X, Y$는 확률변수	영 이탤릭 소문자 $f$	결합확률질량함수 (Joint Probability Mass Function) 다변량 확률질량함수 (Multivariate Probability Mass Function) 다차원 확률질량함수 (Multidimensional Probability Mass Function 결합확률함수 (Joint Probability Function)	joint probability density function	두 개 이상의 연속형 확률변수가 동시에 특정 값을 취할 확률밀도를 나타내는 함수 함수값은 양수이며 적분값은 1 공동확률밀도함수로 주변확률밀함수를 구할 수 있음 두 변수가 통계적 독립인지 확인: $f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) $ 두 변수의 조건부확률식의 분자: $f_{Y\|X}(y\|x) = \dfrac{f_{X,Y}(x, y)}{f_X(x)} $ 변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악
공동누적분포함수	$F_{X,Y}(x, y) = P(X \leq x, Y \leq y)$ 여기서 $X, Y$는 확률변수 $x$와 $y$는 확률변수 $X$와 $Y$의 확률변수값	영 이탤릭 대문자 $F$	결합누적분포함수 (Joint cumulative distribution Function) 다변량누적분포함수 (Multivariate cumulative distribution Function) 다차원누적분포함수 (Multidimensional cumulative distribution Function 복합누적분포함수 (composite cumulative distribution Function)	joint cumulative distribution function	만일 $x_1 \leq x_2$이고 $ y_1 \leq y_2$이면 $F_{X,Y}(x_1, y_1) \leq F_{X,Y}(x_2, y_2)$ 경계조건: $F_{X,Y}(-\infty, y) = 0, \quad F_{X,Y}(x, -\infty) = 0, \quad \text{and} \quad F_{X,Y}(\infty, \infty) = 1$ 연속형 확률변수에 대한 공동누적분포함수의 미분은 해당 위에서의 공동확률밀도함수를 제공 $X$가 $a$와 $b$사이이고 $Y$가 $c$와 $d$ 사이일 확률: $F_{X,Y}(b, d) – F_{X,Y}(b, c) – F_{X,Y}(a, d) + F_{X,Y}(a, c)$ 두 변수의 공동누적분포함수를 통해 변수들이 어떻게 함께 변화하는지, 서로 어떤 종속성을 가지는지 분석 여러 변수를 포함하는 복잡한 확률 모델을 구축하고 분석

확률

도큐헛(주)

문의

주소