[QA]
QA > 모델링 > 통계모델
확률변수의 이름을 “로또복권의 등수”라 한다면 확률변수값은 1등, 2등, 3등, 4등, 5등 그리고 꽝으로 총 6개가 있을 수 있습니다. 여기서 “로또복권의 등수”는 범주형 확률변수입니다. 그리고 6개의 확률변수값으로 구성됩니다. 로또복권의 한 회차의 판매를 마감하면 각 등수에 대한 확률도 규정된 수식에 의해 계산될 수 있습니다.
간단한 예로 동전던지기를 한 후 나온 윗면을 범주형 확률변수라 할 수 있습니다. 만일, 0과 1을 써 놓은 동전은 확률변수값으로 0과 1 두 개를 가지게 되고 동전던지기를 한 후 나온 윗면은 이산형 확률변수가 됩니다. 그리고 완벽하게 두 면이 대칭된 동전이라면 한 개의 동전을 던져서 나온 확률변수값은 0과 1 두 개이고 확률변수값이 가지는 확률은 각각 1/2로 같습니다. 여기서 확률(probability)이 있다는 것은 사건(event)이 있다는 것을 전제합니다. 즉, 동전을 던져서 윗면의 숫자를 관측한다는 실제적인 시행(trial)을 해야 시행의 결과인 사건(event)이 나타납니다. 여기서 사건은 0과 1 두가지가 있습니다. 동전의 한 면이 나올 확률을 일반화하여 $p$라고 하면 다른 한면의 확률은 $(1-p)$가 됩니다. 이런 경우를 특별히 베르누이 시행(Bernoulli try) 또는 베르누이 프로세스(Bernoulli process)라고 합니다.
12면 주사위는 확률변수값이 12개입니다. 여기서도 주사위를 던진다는 시행(trial)이 전제되어야 사건(event)이 발생하고 확률이 존재합니다. 한편, 궁수가 과녁에 화살을 쏘는 행위를 할 때 확률변수는 과녁의 나누어진 면적이 될 수도 있고 과녁이 나누어지지 않고 중심만 있을 때는 중심에서 떨어진 거리가 될 수 있습니다.
또 다른 예로 궁수의 실력을 확률변수로 표현할 수 있습니다. 궁수가 활을 쏜 후 관측된 점수를 확률변수값으로 하면 궁수의 실력, 즉 궁수의 점수는 확률변수라 할 수 있습니다. 이렇게 관측된 확률변수값을 데이터라고도 합니다. 궁수의 데이터가 많을 수록 궁수의 실력을 보다 정확히 말할 수 있습니다. 궁수의 실력을 나타내는 확률분포는 궁수가 많이 쏠수록 궁수의 실력을 더 잘 반영할 것입니다. 그렇지만, 데이터가 충분히 많고 그 데이터가 좋게 나온 궁수가 활쏘기 대회에서 우승한다고 단언할 수 는 없습니다. 확률이 높다고만 할 수 있고 기대값만 말할 수 있지 활쏘기 대회에서 어떤 점수가 나올지 모르기 때문입니다. 만일 활쏘기 횟수가 적은 대회라면 더더욱 우승을 예측하기는 어려울 수 있습니다. 표적은 면적으로 확률을 잘 설명할 수 있는 예입니다. 그래서 확률을 영어로 probability(가능성)뿐만아니라 stochastic(표적)으로도 표현합니다.
범주형 확률변수의 확률변수값의 예를 보면 다음과 같습니다.
– 동전의 확률변수값 : 앞면, 뒷면
– 6면 주사위의 확률변수값 : 1면, 2면, 3면, 4면, 5면, 6면
– 12면 주사위의 확률변수값 : 1면, 2면, 3면, 4면, 5면, 6면, 7면, 8면, 9면, 10면, 11면, 12면
– 과녁의 확률변수명 : 노랑, 빨강, 파랑, 검정
범주형 확률변수의 확률변수값은 질적속성을 나타내므로 질적 확률변수라고도 합니다. 이에 반해 확률변수값이 양적인 수치를 가지는 확률변수를 양적 확률변수라고 합니다. 양적 확률변수를 수치형 확률변수라고도 합니다. 양적 확률변수는 다시 이산형 확률변수와 연속형 확률변수로 나누어 집니다.
변수는 정해지지 않은 수, 변하는 값을 나타내는 문자입니다. 보통 사칙연산이 가능한 수(數)를 대신하는 대수(代數)인 알파벳을 이용해서 표현합니다. 확률변수도 변수입니다. 변수에서의 정의역은 확률변수에서는 지지집합(support)에 해당합니다. 지지집합은 확률이 나타나는 확률변수의 집합입니다. 그리고 확률변수는 고유한 확률분포를 가집니다.
확률변수(random variable)는 말 그대로 확률을 가지는 변수입니다. 변수이기 때문에 어떤 값을 가질지는 모르지만 변수값에 따라 나올 가능성, 즉 확률(probability)이 정해져 있는 변수를 확률변수라고 합니다. 예를 들어 로또복권은 등수에 따라서 각각 다른 확률을 가지게 됩니다. 따라서 등수는 확률변수가 됩니다. 확률변수를 표현하려면 확률변수명을 정하고 확률변수값에 대한 정의를 내리면 됩니다. 물론 확률도 확률변수값에 대응하여 표현하면 됩니다.
확률변수의 관측에 사용되는 척도를 살펴보면 동전던지기라는 시행으로 생성된 시행공간은 동전의 앞면과 뒷면입니다. 이 시행공간을 확률변수로 대응한다면 범주형 확률변수입니다. 여기서 척도로는 명목척도가 사용됩니다. 주사위도 마찬가지로 6면을 1에서 6까지의 숫자로 표시하였을 때 “주사위 던지기”라는 시행에서 시행공간은 1, 2, 3, 4, 5, 6의 숫자이며 이는 바로 확률변수값으로 사용할 수 있습니다. 그리고 이 확률변수는 수치형(양적 데이터) 중에서 연속형이 아닌 이산형 확률변수입니다. 그리고 척도로는 수식계산이 가능한 간격척도가 사용됩니다.
확률변수의 설명을 정리하면 다음과 같습니다.
– 확률을 가지는 변수 : 특별히, 연속형 확률변수의 경우는 구간이 주어져야 확률을 가짐. 즉, 점에서의 확률은 0
– 시행(Trial)을 해서 어떤 사건이 나타났는지 보고 값이 정해지는 변수
– 시행을 많이 해서 평균을 구하면 어떤 값, 즉 기대값에 수렴하는 변수
확률변수(random variable, stochastic variable, 確率變數)는 알파벳 대문자로 표기합니다. 아래 첨자로 확률변수를 구분하기도 합니다.
$X, \, Y, \, Z$
$X_1, \, X_2, \, X_3$
한 확률변수의 값(Value of random variable)은 확률변수에서 사용한 알파벳의 소문자를 사용합니다. 그리고 구분자는 아래첨자를 사용하기도 합니다.
$x_1, x_2, x_3$, …
$x_{11}, x_{12}, x_{13}$, …
유한집합은 원소의 수가 유한한 집합입니다.
범주형 확률변수의 예 – 동전에 기호를 적고 동전을 던져 결과를 보는 경우
$$\{\text{앞 면, 뒷 면}\}$$
$$\{\text{H, T}\}$$
기호를 적지 않고 동전을 바닥에 던져 관측하고 난 후 표현하는 경우
$$\{\text{보이는 면, 안 보이는 면}\}$$
동전의 두면에 수치를 적으면 이산형 확률변수가 됩니다.
$$\{1, 2\}$$
$$\{0, 100\}$$
범주형 확률변수의 예 – 설문지 문항의 답
$$\{\text{싫다, 좋다}\}$$
$$\{\text{동의하지 않는다, 동의한다}\}$$
$$\{\text{매우동의하지 않는다, 동의하지 않는다, 중간이다, 동의한다, 매우 동의한다}\}$$
유한집합은 원소의 수가 유한한 집합입니다.
$$\{0, 1, 2, 3 \}$$
이산형 확률변수의 예 : 육각주사위에 수치를 적고 결과를 보는 경우
$$\{\text{1, 2, 3, 4, 5, 6}\}$$
$$\{\text{1, 10, 100, 1,000, 10,000, 100,000}\}$$
육각주사위에 기호를 적으면 범주형 확률변수가 됩니다.
$$\{\text{1면, 2면, 3면, 4면, 5면, 6면}\}$$
$$\{\text{A, B, C, D, E, F}\}$$
셀 수 있는 무한집합은 원소의 수가 무한 개이지만 셀 수 있는 집합입니다.
$$\{0, 1, 2, 3, \cdots \}$$
셀 수 없는 무한집합은 원소의 수가 무한이며 셀 수 없는 경우입니다.
$$155.5 <X<180.2$$
확률변수는 확률실험의 발생 가능한 결과에 하나의 값을 배정하는 함수입니다. 범주형 확률변수도 고유한 확률분포를 따릅니다. 범주형 확률변수는 숫자일 필요는 없습니다. 기호나 단어여도 됩니다. 예를 들면, 동전의 면, 12면 주사위의 면, 과녁, 한우등급 등입니다. 범주형 확률변수의 확률변수값은 기호나 단어인 경우가 많습니다.
확률질량함수 $f(x)$는 범주형 확률변수 $X$가 $x$를 변수값으로 가질 때의 확률입니다.
$$f(x)=P(X=x)$$
모든 $x$에 대한 $f(x)$의 합은 1입니다.
$$\sum\limits_{{\rm all} \,\, x}f(x)=1$$
확률의 공리에 따라 0에서1까지의 범위를 갖습니다.
$$0 \leq f(x) \leq 1$$
확률변수 $X$의 $R_X$가 유한집합 또는 셀 수 있는 무한집합의 경우, 확률변수, $X$를 이산형 확률변수라고 합니다.
확률질량함수 $f(x)$는 확률변수 $X$가 $x$를 변수값으로 가질 때의 확률입니다.
$$f(x)=P(X=x)$$
모든 $x$에 대한 $f(x)$의 합은 1입니다.
$$\sum\limits_{{\rm all} \,\, x}f(x)=1$$
확률의 공리에 따라 0에서1까지의 범위를 갖습니다.
$$0 \leq f(x) \leq 1$$
확률변수 $X$ 의 $R_X$가 셀 수 없는 무한집합의 경우, 확률변수 $X$를 연속형 확률변수라고 합니다.
확률밀도 함수 $f(x)$는 확률변수 $X$가 변수값 $x$에 대해 밀집된 정도를 나타내는 함수입니다. 확률밀도함수를 수식으로 나타내면 다음과 같으며, 여기서 $X$는 연속형 확률변수이고 $a$와 $b$는 상수입니다.
$$P(a\lt X\lt b)=\int_a^b f(x)dx$$
확률밀도함수는 양의 함수여야 합니다.
$$0 \leq f(x)$$
$-\infty$에서 $+\infty$까지 확률밀도함수를 적분했을 때의 값은 1이 됩니다.
$$\int_{-\infty}^{\infty}f(x)dx=1$$
연속형 확률변수 $X$가 어떤 특정한 값을 가질 확률은 0입니다.
$$𝑃(𝑋=𝑥)=0$$
따라서, 지지집합(support) 원소인 $a$, $b$에서 다음의 4가지 확률이 같습니다. 즉, 연속형 확률변수의 확률값은 확률변수의 구간의 등호에 영향을 받지 않습니다.
$$𝑃(𝑎 \lt 𝑋 \lt 𝑏)=𝑃(𝑎 \leq 𝑋 \lt 𝑏)=𝑃(𝑎 \lt 𝑋 \leq 𝑏)=𝑃(𝑎 \leq 𝑋 \leq 𝑏)$$
확률변수는 확률질량 또는 확률밀도들이 흩어져 있는 변수라고 할 수 있습니다. 확률변수는 고유한 하나의 분포를 이루고 있는데 분포의 중심인 평균과 분포의 중심으로부터 각각의 값들이 얼마만큼 흩어져 있는지 나타내는 측도(measure)인 분산이 있습니다. 확률변수의 평균은 분포의 중심입니다.
확률변수 $X$의 평균(mean)의 표기는 그리스문자 $\mu$입니다.
확률변수의 기대값( expected value)은
${\rm 𝐸}[𝑋]$로 표기합니다.
그리고 확률변수의 평균과 그 확률변수의 기대값은 같습니다.
$$\mu_X={\rm E}[X]$$
이산형 확률변수일 때 확률변수의 기대값 ${\rm E}[X]$
$${\rm E}[X]=\sum_{\text{all X}}xf(x)$$
연속형 확률변수일 때 확률변수의 기대값 ${\rm E}[X]$
$${\rm E}[X]=\int_{-\infty}^{\infty}xf(x)dx$$
확률변수의 분산은 분포의 중심으로부터 각각의 값들이 어느 정도 흩어져 있는지를 나타내는 측도(measure)입니다.
확률변수 $X$의 분산은그리스문자 $\sigma^2$로 표기합니다. 그리고 ${\rm Var}[X]$로 표기하기도 합니다.
정리하면, 확률변수 $X$의 분산은 확률변수 $X$가 확률변수 평균 $\mu_X$로부터 얼마나 흩어져 있는지에 대한 측도(measure)입니다.
$$\sigma_X^2={\rm Var}[X]={\rm E}[X-\mu]^2={\rm E}[X^2]-\mu_X^2$$
여기서, ${\rm E}[X^2]=\sum\limits_{all \, X}x^2f(x)$
이산형 확률변수의 분산
$${\rm Var}[X]=\sum_{all \, X}(x-\mu)^2f(x)$$
연속형 확률변수의 분산
$${\rm Var}[X]=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx$$
확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면, 2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.
실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.
확률은 사건이 일어날 가능성을 정량화하는 척도입니다. 확률은 0에서 1 사이의 숫자로 정량화됩니다. 여기서, 0은 불가능함을 나타내며 1은 확실함을 나타냅니다. 시행(event)의 확률이 높을수록 시행이 발생할 가능성이 큽니다. 간단한 예가 동전 던지기입니다. 동전 던지기는 결과가 명확하게 두 가지 결과인 “앞면(Head)”와 “뒷면(Tale)”으로 나타납니다. 그리고 쉽게 앞면과 뒷면의 확률은 동일하다고 동의가 이루어집니다. 다른 결과가 없기 때문에 “앞면”또는 뒷면”의 확률은 1/2 (0.5 또는 50 %)입니다.
이러한 확률개념은 수학, 통계, 금융, 도박, 과학 (특히 물리학), 인공지능, 기계 학습, 컴퓨터 과학, 게임 이론 등과 같은 분야에 공리적 수학적 형식화를 제공합니다. 빈도에 관한 추정을 이끌어내거나 복잡한 시스템의 기본 역학 및 규칙성을 기술하는 데에도 사용됩니다.
확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입다. 예를 들어, 확률 변수 $X$가 동전 던지기( “실험”) 결과를 나타내는 데 사용되면 $X$의 확률 분포는 $X$ = 앞면의 경우 0.5, $X$ = 뒷면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.
확률분포는 관찰되는 임의의 현상의 모든 가능한 결과 집합인 기본 표본공간(sample space)의 관점에서 지정됩니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비 숫자 값 목록일 수도 있습니다. 예를 들어, 동전 뒤집기의 샘플 공간은 {앞면(Head), 뒷면(Tail)}입니다. 확률 분포는 일반적으로 두 가지로 나뉩니다. 이산 확률분포 (동전 던지기 나 주사위와 같이 가능한 결과 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위 (예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률 밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규 분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에 정의 된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.
표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단 변수이라고 불리우는 반면 표본공간이 2차원 이상의 벡터 공간 인 분포를 다 변수라고합니다. 단일 변수(변량) 분포는 다양한 대체 값을 취하는 단일 확률변수의 확률을 제공합니다. 다 변수 분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단 변량 확률분포에는 이항분포, 초기 하분포 및 정규분포가 포함됩니다. 다 변수 정규 분포는 일반적으로 발생하는 다 변수 분포입니다.
수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.
확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다. 확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.
확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.
함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.
확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다.
확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.
동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.