Learning DATALINK

확률

용어표기 예표기 설명유사 용어영문 용어개념
확률

$P$

$Pr$

$p$

영 이탤릭 대문자 $P$

영 이탤릭 대문자 $Pr$

영 이탤릭 소문자 $p$

가능성probability

확률은 범주에 부여되나 범주의 크기가 무한소가 되면 속성값이 되며 확률은 확률밀도가 됨

판정의 기준이 되는 유의수준($\alpha$)은 확률

표본공간$\Omega=\{앞면, 뒷면\}$그리스 이탤릭 대문자 $\Omega$

결과공간

샘플공간

sample space확률실험에서 가능한 모든 결과의 집합
사건공간

$\mathcal{P}(\Omega)=\{\{\,\,\,\}, \{\text{앞면}\}, \{\text{뒷면}\}, \{\text{앞면, 뒷면}\}\}$
$2^{\Omega}=\{\{\,\,\,\}, \{1\}, \{2\}, \{1, 2\}\}$
$\sigma\text{-algebra}$

여기서 $\Omega$는 표본공간

수학기호 $\mathcal{P}$

수식 $2^{\Omega}$

시그마-대수(sigma-algebra)

시그마-필드(sigma-field)

event space

사건공간의 모든 요소는 표본공간의 부분집합

표본공간의 멱집합

확률변수$X$, $X\left({\omega}\right)$영 이탤릭 대문자

랜덤변수

난수

random variable

probability variable

확률을 가지는 변수, 확률의 선행 개념
변량$x$영 이탤릭 소문자

데이터포인트

변수값

관측값

data value

datum

변수의 측정된 값, 변수의 가능한 값

보통 숫자로 표현되나 범주형 데이터(예: 성별)는 단어로도 표현

변수값$x_{1},x_{2},\cdots ,x_{n}$영 이탤릭 소문자

변량

데이터포인트

관측값

variable value

변수에 할당된 구체적인 수치나 데이터

변수값이 연속형 수치: 연속형 변수

변수값이 이산형 횟수: 이산형 변수

변수값이 범주명: 범주형 변수

누적확률$P\left({X\leq x}\right)$ 영 이탤릭 대문자확률적 적분a cumulative probability특정 확률분포에 대해 주어진 값 이하의 모든 확률을 합한 것
확률변수값$x_i$ 영 이탤릭 소문자

실현값(realization)

결과값(outcome)

관측값(observation)

표본값(sample value)

particular realizations of a random variable사건의 결과인 집합의 $i$번째 원소
기대값

${\rm{E}}\left[{Y}\right]=\mu_Y$

여기서 $Y$는 확률변수

영 대문자 E

모평균(population mean)

일차적률(first moment)

expected value of $Y$확률변수 $Y$의 기대값
분산

${\rm{Var}}\left[{Y}\right]=\sigma^2_Y$: 확률변수의 분산 (모분산)

$S^2_Y$: 표본의 분산 (표본분산)

여기서 $Y$는 확률변수

영 문자 Var: 모분산

그리스 이탤릭 소문자 $\sigma^2$: 모분산

영 이탤릭 대문자: $S^2$: 표본분산

퍼짐(dispersal)

확산(spread)

변동성(volatility)

variance of $Y$확률변수 $Y$의 분산
공분산${\rm{Cov}}\left[{X,Y}\right]=\sigma_{XY}$[  ] 대괄호 내에 확률변수

상관정도(degree of correlation)

연관성(association)

연계성(linkage)

상호변동성(mutual variability)

covariance of $X$ and $Y$확률변수 $X$와 $Y$의 공분산
모수

모평균

$\mu$

모분산

$\sigma^2$

모비율

$p$

그리스 이탤릭 소문자

영 이탤릭 소문자

모집단 매개변수(Population Parameter)

모집단 통계량 (Population Statistic)

모집단 지표 (Population Index)

기초통계량 (Fundamental Statistic)

parameter

모집단의 특성을 나타내는 수치

모집단을 표현하는 확률분포함수의 매개변수

확률질량함수$f$영 이탤릭 소문자pmfprobability mass function범주형 또는 이산형 변수의 확률질량
확률밀도함수$f$영 이탤릭 소문자pdfprobability density function연속형 변수의 확률밀도
누적분포함수$F$영 이탤릭 대문자cdf, 누적확률함수cumulative distribution function이분 경계값에서의 생성된 확률질량
확률분포$X \sim t_{n-1}$영 이탤릭 대문자 $\sim$  확률분포

확률모델 (Probability Model)

분포함수 (Distribution Function)

확률법칙 (Probability Law)

빈도분포 (Frequency Distribution)

probability distribution

확률변수가 취할 수 있는 모든 가능한 값들과 그 값들이 발생할 확률

이산확률분포 (discrete probability distribution): 확률변수가 취할 수 있는 값이 명확하게 분리되어 있는 경우

연속확률분포 (continuous probability distribution): 확률변수의 값이 연속적인 값인 경우

확률분포추정$X \sim t_{n-1}$영 이탤릭 대문자 $\sim$  확률분포확률함수추정probability distribution estimation확률밀도함수의 종류와 그에 따른 매개변수를 추정
생성함수

$G(x)=\sum\limits_{n=1}^{\infty}(n-1)x^{n}=x^0+2x^1+3x^2+4x^3+\cdots$

$S=\{ 1, 2x, 3x^2, 4x^3, \cdots \}$

영 이탤릭 대문자 $G$반복자함수generating function

수열이나 이산 확률변수의 전체 정보를 압축한 함수

매개변수 추정값의 확률질량 또는 확률밀도

확률생성함수

PGF: 이산형확률변수인 경우

MGF: 이산형확률변수, 연속형확률변수인 경우

$G_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$

$P_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$

$P_{Y} = \{P(Y=0)\cdot z^0, P(Y=1)\cdot z^1, P(Y=2)\cdot z^2, P(Y=3)\cdot z^3, \ldots\}$

여기서, $P_{Y}$는 이산확률변수 $Y$의 확률생성성함수

$Y$는 이산확률변수

$P$는 확률질량함수

$z$는 복소수

영 대문자 PGF

영 대문자 MGF

영 이탤릭 대문자 $G$

영 이탤릭 대문자 $P$

확률발생함수

이산형특성함수 (discrete characteristic function)

이산형누적확률함수 (discrete cumulative probability function)

확률전파함수 (probability propagation function)

probability generating function: PGF

moment generating function: MGF

확률변수의 확률분포를 다항식으로 나타낸 함수
생성모델$p$영 이탤릭 소문자통계모형generation model

주어진 데이터의 분포를 학습하여 새로운 데이터를 생성할 수 있는 모델

새로운 데이터 포인트를 실제 데이터와 유사하게 생성

표준정규분포의 pdf

$\varphi\left({z}\right) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$

여기서 $z$는 실수

그리스 이탤릭 소문자 $\varphi$표준정규 확률밀도함수the pdf of the standard normal distribution

자연현상과 인간활동 결과의 분포를 모델링하는 데 사용

모든 실수의 독립변수($Z$)에 대해 정의된 연속형 함수

독립변수의 값($z$)에 따라 확률밀도를 나타내는 연속형 함수

표준정규분포는 평균(0)을 중심으로 완벽하게 대칭

그래프의 모양이 종(bell) 모양을 이루며, 중심에서 멀어질수록 확률밀도가 급격히 감소

모든 확률밀도의 총합은 1

표준정규분포의 cdf

$\Phi(z) = \dfrac{1}{2} \left[1 + \text{erf}\left(\dfrac{z}{\sqrt{2}}\right)\right]$

여기서, $\text{erf}(z) = \dfrac{2}{\sqrt{\pi}} \int_0^z e^{-t^2} \, dt$

$z$는 실수

$t$는 실수

그리스 이탤릭 대문자 $\Phi$표준정규 누적분포함수the cdf of the standard normal distribution

주어진 독립변수값($z$)까지 표준정규 확률밀도함수의 적분으로 정의

$Z$값($z$)에 따라 비선형적으로 증가

그래프는 중심(평균)을 기준으로 대칭

음의 무한대로 갈 때 표준정규 누적분포함수는 0으로 수렴하고 양의 무한대로 갈 때는 1로 수렴

F분포 임계값$F_{(\nu_1,\nu_2;\alpha)}$$F_{\text{자유도1},\ \text{자유도2}\ ;\ \text{유의수준}}$F분포 임계치F distribution critical value

특정 신뢰수준에서 집단간분산과 집단내분산의 다름이 우연히 발생했을 확률을 결정하는 주어지는 F확률변수값

주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산

F검정통계량이 F분포 임계값보다 클 경우, 귀무가설(집단간분산과 집단내분산이 같다)을 기각

t분포 임계값$t_{n-1\ ;\ \frac{\alpha}{2}}$$t_{\text{자유도}\ ;\ \text{양측검정 유의수준}}$t분포 임계치t distribution critical value

표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 t확률변수값

주어지는 유의수준($\alpha$)과 표본의 자유도($df$)와 검정종류(양측 또는 단측)로 계산

t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각

Z분포 임계값$z_{\frac{\alpha}{2}}$$z_{\text{양측검정 유의수준}}$Z분포 임계치Z distribution critical value

표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 Z확률변수값

주어지는 유의수준($\alpha$)과 검정종류(양측 또는 단측)로 계산

Z검정통계량이 Z분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각

카이제곱분포 임계값$\chi_{n-1\ ;\ \alpha}^2$$\chi^2_{\text{자유도}\ ;\ \text{유의수준}}$카이제분포 임계치chi-square distribution critical value

관측빈도(관측확률)와 기대빈도(기대확률) 사이의 다름을 평가하는 데 사용하는 계산되는카이제곱확률변수값

주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산

t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정 값과 같다)을 기각

확률변수의 독립

$X\bot Y$

$X$와 $Y$는 확률변수

$\bot $는 독립 기호

독립성

독립관계

$X$ is independent of $Y$$X$는 $Y$는 독립적
확률변수의 조건독립

$X\bot Y\mid W$

여기서, $X, Y, W$는 확률변수

$\mid $ 는 조건 기호

$\bot $는 독립 기호

조건독립성

조건독립관

$X$ is independent of $Y$ given $W$확률변수 $X$와 $Y$는 주어진 확률변수 $W$에서 독립
조건부확률

$P\left({A\mid B}\right)$

여기서 $A$와 $B$는 사건

영 이탤릭 대문자 $P$조건부발생확the conditional probability$B$사건이 일어난 상태에서 $A$사건이 일어날 확률
가능도함수

$L\left(\mathbf{\theta} \, ; \mathbf{X}\right)$

여기서, $\mathbf{\theta}$는 확률분포의 모수벡터(parameter vector)

$\mathbf{X}$는 확률벡터(probability vector)

영 이탤릭 대문자 $L$우도함수likelihood function

가능도함수는 관측데이터에 기반하여 모수의 값을 추정하는 데 사용

모수값 추정의 통계적 도구(추정량, estimator)인  MLE(최대우도추정법)의 중요한 요소

평균과 분산을 동시에 추정하는 데 사용하는 통계적 도구에는 최소제곱법이 있음

가능도함수를 미분한 함수가 “스코어 함수(score function)

최대우도추정은 스코어 함수를 사용하여 가능도 함수를 최대화하는 과정 중 하나

목적함수$J(\theta)$영 이탤릭 대문자 $J$

스코어함수(score function)

비용함수(cost function)

손실함수(loss function)

오차함수(error function)

objective function

주어진 문제의 목표를 수학적으로 정의한 함수

목적함수를 최소화하거나 최대화하는 변수 값의 조합을 찾는 것이 최적화 문제의 핵심

공동확률분포$P\left({X,Y}\right)$영 이탤릭 대문자 $P$

결합확률분포 (Joint Probability Distribution)

다변량확률분포 (Multivariate Probability Distribution)

다차원확률분포 (Multidimensional Probability Distribution)

복합확률분포 (Composite Probability Distribution)

확장확률분포 (Extended Probability Distribution)

the joint probability distribution of random variables $X$ and $Y$두 개 이상의 확률변수가 동시에 특정 값이나 이벤트를 취할 확률을 설명하는 확률분포
공동확률질량함수

$p\left({x,y}\right)=P(X = x, Y = y)$

$p\left({x,y,z}\right)=P(X = x, Y = y, Z=z)$

여기서 $X, Y, Z$는 확률변수

$x, y, z$는 확률변수값

$p(\mathbf{x}) = p(X_1 = x_1, \ldots, X_n = x_n)$

여기서 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$

영 이탤릭 소문자 $p$

결합확률밀도함수 (Joint Probability density Function)

다변량 확률밀도함수 (Multivariate density Mass Function)

다차원 확률밀도함수 (Multidimensional Probability density Function

결합확률함수 (Joint Probability Function)

joint probability mass function

두 개 이상의 이산형 확률변수가 동시에 특정 값을 취할 확률을 나타내는 함수

함수값은 양수이며 합은 1

공동확률밀도함수로 주변확률질량함수를 구할 수 있음

두 변수가 통계적 독립인지 확인: $p(x, y) = p_X(x) \cdot  p_Y(y)$

두 변수의 조건부확률식의 분자: $p(y \mid x) = \dfrac{p(x, y)}{p_X(x)}$

변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악

공동확률밀도함수

$f_{X,Y}(x, y)
$

여기서 $X, Y$는 확률변수

영 이탤릭 소문자 $f$

결합확률질량함수 (Joint Probability Mass Function)

다변량 확률질량함수 (Multivariate Probability Mass Function)

다차원 확률질량함수 (Multidimensional Probability Mass Function

결합확률함수 (Joint Probability Function)

joint probability density function

두 개 이상의 연속형 확률변수가 동시에 특정 값을 취할 확률밀도를 나타내는 함수

함수값은 양수이며 적분값은 1

공동확률밀도함수로 주변확률밀함수를 구할 수 있음

두 변수가 통계적 독립인지 확인: $f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)
$

두 변수의 조건부확률식의 분자: $f_{Y|X}(y|x) = \dfrac{f_{X,Y}(x, y)}{f_X(x)}
$

변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악

공동누적분포함수

$F_{X,Y}(x, y) = P(X \leq x, Y \leq y)$

여기서 $X, Y$는 확률변수

$x$와 $y$는 확률변수 $X$와  $Y$의  확률변수값

영 이탤릭 대문자 $F$

결합누적분포함수 (Joint cumulative distribution Function)

다변량누적분포함수 (Multivariate cumulative distribution Function)

다차원누적분포함수 (Multidimensional cumulative distribution Function

복합누적분포함수 (composite cumulative distribution Function)

joint cumulative distribution function

만일 $x_1 \leq x_2$이고 $ y_1 \leq y_2$이면 $F_{X,Y}(x_1, y_1) \leq F_{X,Y}(x_2, y_2)$

경계조건: $F_{X,Y}(-\infty, y) = 0, \quad F_{X,Y}(x, -\infty) = 0, \quad \text{and} \quad F_{X,Y}(\infty, \infty) = 1$

연속형 확률변수에 대한 공동누적분포함수의 미분은 해당 위에서의 공동확률밀도함수를 제공

$X$가 $a$와 $b$사이이고 $Y$가 $c$와 $d$ 사이일 확률: $F_{X,Y}(b, d) – F_{X,Y}(b, c) – F_{X,Y}(a, d) + F_{X,Y}(a, c)$

두 변수의 공동누적분포함수를 통해 변수들이 어떻게 함께 변화하는지, 서로 어떤 종속성을 가지는지 분석

여러 변수를 포함하는 복잡한 확률 모델을 구축하고 분석