DATALINK

통계

용어표기표기 설명유사 용어영문 용어개념
통계량

표본평균: $\bar{Y}$

표본분산: $S^2_Y$

표본비율: $p$

여기서 $Y$는 확률변수

영 이탤릭 대문자에 모자(hat) $\bar Y$

영 이탤릭 대문자 $S^2$

영 이탤릭 소문자 $p$

추정량(estimator)

통계적 특성 (statistical property)

특성량(Characteristic): 모집단의 통계량

지표(indicator)

statistic

표본에서 파생되어 모집단의 특성을 추정하거나 가설을 검정하는 데 사용되는 확률변수

표본평균, 표본분산, 표본표준편차, 표본중앙값, 표본최빈값 등

표본의 통계량은 확률변수

통계값

표본평균값: $\bar{y}$

표본분산값: $s^2_Y$

표본비율값: $p$

여기서 $Y$는 확률변수

영 이탤릭 소문자에 모자 $\bar y$

영 이탤릭 소문자 $s^2$

영 이탤릭 소문자 $p$

통계치

추정값

statistic

표본에서 파생되어 모집단의 특성을 추정하거나 가설을 검정하는 데 사용되는 확률변수의 실현값

표본평균값, 표본분산값, 표본표준편차값, 표본중앙값, 표본최빈값 등

표본의 통계값은 확률변수의 실현값이며 표본통계값 표집의 확률분포는 모집단 확률분포에서 파생

추정량

모평균 추정량: $\hat {\mu}_Y$

모분산 추정량: $\hat {\sigma}^2_Y$

모비율 추정량 (모비율): $\hat{p}$

여기서 $Y$는 확률변수

그리스 이탤릭 소문자에 모자 $\hat {\mu}$

그리스 이탤릭 소문자에 모자 $\hat {\sigma}$

영 이탤릭 소문자에 모자 $\hat{p}$

추정자

추정기

estimator

모집단의 특성을 추정하기 위해 사용되는 통계량의 추정방법

추정량은 주어진 표본데이터로부터 추정값을 계산하는 식으로 표현

추정량은 보통 모수(parameter)의 추정이나 예측을 위해 사용

추정량의 성질에는 편향성(bias), 일치성(consistency), 효율성(efficiency) 등이 있으며, 이러한 성질은 추정량의 성능을 평가

추정값

모평균 추정값: $\hat {\mu}_Y=\bar y$

모분산 추정값: $\hat {\sigma}^2_Y=s^2_Y$

모비율 추정량 (모비율): $\hat{p}$

여기서 $Y$는 확률변수

그리스 이탤릭 소문자에 모자 $\hat {\mu}$

그리스 이탤릭 소문자에 모자 $\hat {\sigma}$

영 소문자에 바(bar) $\bar y$

영 이탤릭 소문자 $s^2$

영 이탤릭 소문자에 모자 $\hat{p}$

추정치estimate추정량의 함수에 표본데이터를 입력해서 구한 추정량의 실현값
점추정

$\hat{\mathbf\theta}$

여기서 $\mathbf\theta$는 모수벡터

모수 기호에 모자 $\hat{\mathbf{\theta}}$모수추정point estimation

모집단의 특정 파라미터(예: 평균, 분산, 비율 등)에 대한 추정을 단일 값으로 제시하는 과정이며 함수로 표현

점추정을 위한 추정량 중에서 편향(bias), 분산(variance), 효율성(efficiency) 등의 특성을 고려하여 선택

구간추정$\left[\hat{\theta_1},\hat{\theta_2}\right]$
$\bar{X}\pm z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$

여기서, $z_{\frac{\alpha}{2}}$는 표준정규분포의 양측검정 임계값

$\dfrac{\sigma}{\sqrt{n}}$는 표본평균 표집의 표준편차: 표준오차

$[\text{신뢰구간의 하한값}, \text{신뢰구간의 상한값}]$

$\text{점추정값} \pm \text{신뢰구간의 반}$

신뢰구간interval estimation

모집단 모수(예: 평균, 비율, 회귀계수 등)에 대한 추정값이 포함될 것으로 예상되는 구간을 제시하는 것

모수가 존재할 가능성이 높은 구간을 제시함으로써 추정의 불확실성을 반영

점추정값과 함께 모수가 포함될 것으로 예상되는 구간을 같이 제시

주어지는 신뢰수준은 일반적으로 백분율로 표시되며, 흔히 90%, 95%, 99% 등이 사용

95% 신뢰수준의 구간추정은 해당 신구간이 95%의 확률로 실제 모수를 포함할 것으로 예상

표본추출$S = \{ s_1, s_2, \ldots, s_n \}
$

여기서, $S$는 단순랜덤 표본추출: 표집(sampling)의 결과집합

$s_i$는 각각의 표본(sample)

집합

표집

표본생성

sampling

모집단으로부터 일부 표본을 선택하는 과정

단순랜덤표본추출, 계통추출, 층화추출

모집단N영 대문자 N

전체집단(entire population)

전체모집단(entire population)

대상집단(target population)

population

조사하고자 하는 전체 집단 또는 대상

연구의 대상이 되는 모든 개체를 포함하므로, 연구의 범위나 목적에 따라 정의

“대한민국 성인 남성”이나 “고등학교 학생”과 같이 구체적인 집단을 모집단으로 정의

표본$s=\{ x_1, x_2, \ldots, x_n \}
$

여기서 $x_i$는 표본내 개체의 속성을 나타내는 변수값

$n$은 표본크기

영 소문자 $s$

시료

샘플

sample

모집단(population)에서 선택된 일부 개체 또는 사건의 집합

모집단을 대표할 수 있도록 선택

자유도$df(\, \,)$
(  )안은 변동
영문 이탤릭 소문자 $df$자유차원degree of freedom

모델에서 모수(parameter)를 추정할 때 사용되는 독립적인 정보의 수

데이터 포인트의 수에서 모델 내의 추정된 파라미터 수를 뺀 수

산술평균

$\bar x=\dfrac{\sum\limits_{i=1}^{n} x_i}{N}$

여기서, $x$는 변수

$N$은 데이터수

영 소문자에 바(bar)

데이터의 대표값

평균값(average)

평균치(average)

the arithmetic mean of a series of values $x_1$, $x_2$, $\cdots$, $x_n$

데이터의 모든 값들을 더한 후 데이터의 개수로 나누어 계산

데이터 집합의 중심을 나타내는 대표값

데이터의 중심적 경향을 나타내는 대표값 중 하나

데이터의 분포의 정도를 가장 작게하는 기준으로 동시에 결정되는 요소

표본평균$\bar x=\dfrac{\sum\limits_{i=1}^{n} x_i}{n-1}
$

여기서 $x$는 변수

$x_i$는 $i$번째 변수값

영 소문자에 바(bar)

표본평균값(sample average)

평균값(average)

sample mean

주어진 데이터 집합의 평균값

데이터 집합의 모든 값들을 더한 후 데이터의 개수로 나누어 계산

데이터의 중심적 경향으로 나타나는 중심의 위치를 나타냄

표본분산$s_X^2=\dfrac{\sum\limits_{i=1}^{n}(x_i – \bar{x})^2}{n-1}
$

여기서 $X$는 확률변수

$x_i$는 $i$번째 확률변수값

$\bar {x}$는 표본평균

$n$은 표본크기

$n-1$은 표본의 자유도

영 이탤릭 소문자 $s^2$샘플분산sample variance

주어진 데이터 집합의 분산

데이터가 얼마나 퍼져 있는지를 나타내는 분포값 중 하나

각 데이터 값과 표본평균 간의 편차를 제곱한 값들의 합을 자유도로 나눈 값

표본분산은 양수

표본표준편차

$s=\sqrt{s^2}$

여기서 $s^2$은 표본분산

영 이탤릭 소문자 $s$샘플표준편차sample standard deviation

주어진 데이터 집합의 표준편차

데이터가 표본평균 주변에 얼마나 집중되어 있는지를 나타내는 대표값 중 하나

표본분산과 달리 데이터의 원래 단위와 동일한 단위를 가지므로, 더 직관적으로 해석가능

표본상관계수$r$영 이탤릭 소문자 $r$샘플상관계수sample correlation coefficient

표본 데이터 집합에서 두 변수 간의 선형관계의 강도와 방향을 나타내는 통계량

-1부터 1까지의 범위에서 값을 가지며, 0은 두 변수 간의 선형 관계가 없음을 의미

표본회귀계수$b_i$영 이탤릭 소문자 $b$샘플회귀계수sample regression coefficient

독립변수와 종속변수 간의 관계를 설명하는 모델의 계수를 나타내는 통계량

주어진 표본 데이터로 계산

단순선형회귀모델에서 표본회귀계수는 독립변수 𝑥와 종속변수 𝑦 간의 선형 관계를 나타내는 직선의 기울기를 의미

다중선형회귀모델에서는 각 독립변수의 계수는 해당 변수가 종속변수에 미치는 영향을 의미

일반적으로 최소제곱법(Least Squares Method)을 사용하여 회귀계수를 추정

모평균$\mu$그리스 이탤릭 소문자 $\mu$모집단평균population mean $\mu$

모집단의 평균

모집단의 중심 경향성에 의한 중심위치를 나타내는 통계량

모평균은 표본평균을 통해 추정

모분산$\sigma^2$그리스 이탤릭 소문자 $\sigma^2$모집단분산population variance

모집단의 분산

모집단 전체의 데이터 값들이 모평균 주변에 얼마나 퍼져 있는지를 측정하는 지표

데이터 값과 모평균 간의 편차의 제곱을 평균한 것으로 계산

모집단 전체 데이터의 분포를 설명하는 통계량

모분산은 양수

모분산은 표본분산을 통해 추정

모표준편차$\sigma$그리스 이탤릭 소문자 $\sigma$모집단표준편차population standard deviation

모집단의 표준편차

데이터 값들이 모평균 주변에 얼마나 퍼져 있는지를 측정하는 지표

모분산의 제곱근이 모표준편차

모집단 전체 데이터의 분포를 설명하는 통계량

모상관계수$\rho$그리스 이탤릭 소문자 $\rho$모집단상관계수population correlation

모집단의 두 변수 간의 관계의 강도와 방향을 측정하는 통계량

모상관계수는 보통 선형상관을 표현하는 피어슨 상관계수를 의미

선형상관이 아닌 상관계수를 표현하는 여러 상관계수가 있음

피어슨상관계수는 -1부터 1까지의 값을 가지며 1은 완벽한 음의 선형관계, 0은 선형관계가 없음, 1은 완벽한 양의 선형관계를 의미

모회귀계수$\beta_i$그리스 이탤릭 소문자 $\beta_i$모집단회귀계수population regression coefficient

모집단 회귀모델 추정된 계수

회귀분석에서 사용되는 통계량으로 종속변수와 각 독립변수 간의 관계를 나타냄

독립 변수의 단위 변화가 종속 변수에 어떤 영향을 미치는지를 나타내며, 이를 통해 예측과 추론을 수행

최소제곱법(Least Squares Method)이나 최대우도추정(Maximum Likelihood Estimation) 등의 방법을 사용하여 추정

표본최소값

$\text{표본최소값} = \min(x_1, x_2, \ldots, x_n)$

$x_{(1)}$

$min$함수로 표기

변수 아래첨자에 (1)로 표기

샘플최소값sample minimum

표본 데이터 집합에서 발생 가능한 가장 작은 값이며 데이터의 하한

데이터의 범위를 파악하고 이상치(outlier)를 탐지하는 데 사용

표본최대값

$\text{표본최대값} = \max(x_1, x_2, \ldots, x_n)$

$x_{(n)}$

여기서 $n$은 표본크기

$max$함수로 표기

변수 아래첨자에 (n)로 표기

샘플최대값sample maximum from a total sample size $n$

표본 데이터 집합에서 발생 가능한 가장 큰 값이며, 데이터의 상한

데이터의 범위를 파악하고 이상치(Outlier)를 탐지하는 데 사용

회귀계수 점추정$\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2, \ldots, \hat{\beta}_k$좌변은 확률변수 우변은 추정량

회귀계수 추정값

회귀계수 추정치

point estimation of regression coefficients회귀분석에서 독립변수와 종속변수 간의 관계를 설명하는 모델의 회귀계수를 추정
공분산행렬$\Sigma = \begin{bmatrix}
\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_n) \\
\text{Cov}(X_2, X_1) & \text{Var}(X_2) & \cdots & \text{Cov}(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \cdots & \text{Var}(X_n)
\end{bmatrix}
$

여기서 $\text{Cov}(X_i, X_j)$는 공분산: $\text{Cov}(X_i, X_j) = E[(X_i – E[X_i])(X_j – E[X_j])]$

그리스 이탤릭 대문자 볼드체 $\Sigma$

분산-공분산행렬(variance-covariance matrix)

분산행렬(dispersion matrix)

상관행렬 (correlation matrix): 표준화된 공분산행렬

covariance matrix

여러 확률변수들의 공분산들을 요소로 갖는 행렬

대칭행렬이며 주대각선 요소들은 분산이어서 비음수

공분산 행렬은 다변량 데이터의 구조를 이해하고 주성분분석(PCA)과 같은 데이터 차원 축소 기법, 최적화문제, 시계열분석 등에서 중요한 역할

벡터

$\mathbf{v}$

$\vec{v}$

영 이탤릭 소문자 볼드체 $v$
영 이탤릭 소문자에 화살표 $\vec{v}$

열벡터 (Column Vector)

행벡터 (Row Vector)

방향벡터 (direction vector)

위치벡터 (position vector)

이동벡터 (displacement vector)

힘벡터 (force vector)

속도벡터 (velocity vector)

가속도벡터 (acceleration vector)

단위벡터 (unit vector)

기울기벡터 (gradient vector)

정규벡터 (normal vector)

vector

크기와 방향을 모두 가지는 수학적 객체로, 물리학에서는 어떤 물리적인 양을 나타내는 데 사용

수학적으로 벡터는 n차원 공간에서 한 점에서 다른 점으로의 이동

속도, 가속도, 힘 등을 나타내어 물리적 세계를 모델링

3D 모델링에서 벡터는 객체의 위치, 방향, 표면의 법선 등을 정의

데이터의 특성을 벡터로 표현하여, 패턴 인식, 클러스터링, 분류 작업을 수행

행렬$\mathbf{A}$영 대문자 볼드체배열 (array)
테이블 (table)
그리드 (grid)
텐서 (tensor)
대각행렬 (diagonal matrix)
단위행렬 (identity matrix)
전치행렬 (transpose matrix)
matrix

숫자, 심볼, 수식들을 직사각형 격자(grid) 모양으로 배열한 수학적 개체

행렬에서 행(row)은 행렬에서 가로 방향의 배열이고 열(column)은 세로 방향의 배열