용어 | 표기 예 | 표기 설명 | 유사 용어 | 영문 용어 | 개념 |
---|---|---|---|---|---|
변수 | $x$, $y$ | 영 이탤릭 소문자 | 특성(feature), 속성(attribute), 항목(item), 지표(indicator), 측정값(measurement), 필드(field), 인자(factor) | variable | 변화하는 값을 표현하거나 정의하는 데 사용 代數式에서 어떤 값이 들어갈 수 있는 자리 |
확률변수 | $X$, $Y$ | 영 이탤릭 대문자 | 확률적변수(stochastic variable), 랜덤변수 (random variable), 통계변수(statistical variable) | random variable, probability variable | 관측을 통해 얻으며 확률이 할당되는 미리 정해지지 않은 결과: 결과가 이산적이면 이산확률변수(Discrete Random Variable), 연속적이면 연속확률변수 (Continuous Random Variable) |
상수 | $a$, $b$, $\cdots$ | 영 이탤릭 소문자 | 고정값, 불변량, 스칼라 | constant | 자연수, 정수, 실수, 복소수 |
객체 | MyCase myCase | 영 pascal case: 클래스 명 영 camel case: 인스턴스 명 | 인스턴스(instance), 엔터티(entity) | object | 보통 추상적이거나 범용적인 대상, 컴퓨터과학에서는 데이터와 그 데이터를 처리하는 함수를 포함하는 캡슐화된 개념 |
개체 | myCase | 영 camel case: 인스턴스 명 | 객체(object), 엔터티(entity), 인스턴스(instance) | individual | 개별적으로 식별되거나 고유한 특성을 가진 하나의 요소, 객체를 특정할 때 사용 개체의 범주형 속성은 개체가 속하는 범주 개체의 연속형 속성은 실수(real number)로 표현되는 개체의 속성 개체가 생성(추출)되면 집단(group)을 이룸 개체의 연속형 속성은 실수(real number)로 표현 개체의 범주형 속성은 개체가 속하는 집단명(범주명)으로 표현 개체는 연속형 속성 별 연속확률분포를 가짐 개체는 범주형 속성 별 이산확률분포를 가짐 |
요소 | myelement | 영 소문자 | 원소 | element | 독립변수 |
속성 | myattribute | 영 소문자 | 특성 | attribute | 개체의 특성, the feature of object 변량으로 표현 |
집단 | myGroup | 영 camel case | 집합 | group | 순서가 없는 범주 집단은 부분집단을 가짐 집단은 확률을 가질 수 있음 |
수준 | myLevel | 영 camel case | 카테고리 | level | 순서가 있는 범주 |
범주 | myCategory | 영 camel case | 카테고리 | category | 순서가 없는 카테고리나 수준 |
모집단 | $P$, $N$ | 영 대문자 | 생성기 | population | 모든 가능한 관측치나 결과의 집합, 연구에서 관심을 갖는 대상 모집단은 모수(parameter)로 설명 |
표본 | $S = \{x_1, x_2, \dots, x_{50}\}$ | 영 대문자와 집합 | 샘플 | sample | 표본(sample)은 모집단(population)이 실현된 집단(group) 모집단을 표현하는 모집단의 일부 개체의 집합, 표본은 실질적인 분석 대상 표본을 통해 모집단의 특성을 추정 표본은 통계량(statistic)으로 설명 |
표집 | $S=\{\{x_{11}, x_{12}\}, \{x_{21}, x_{22}\}, \cdots , \{x_{91}, x_{92}\}\}$ 표본크기가 2인 표본을 9개 추출한 표집 | 영 대문자와 부분집합의 집합 | 샘플링, 추출(extraction) | sampling | 모집단에서 일부 데이터를 선택하는 과정 표집을 통해 얻은 데이터 집합은 표본(sample) |
데이터프레임 | df = pd.DataFrame(data) df <- data.frame(c1 = c(1, 2), c2 = c(“A”, “B”)) | DataFrame: 파이썬 data.frame: R | 데이터구조 | data frame | 데이터 프레임의 각 열은 변수명과 변수값 개체 또는 집단을 행으로 속성을 열로 표현 데이터프레임은 개체의 속성을 나타내는 1행과 r개체의 속성값의 나머지행 |
빈도수 | $f$, $n$ | 영 이탤릭 소문자 | 도수, 빈도, Count | frequency | 변수의 일종 범주 또는 그룹별 개체의의 출현 빈도 분포를 파악하는 기본적인 수단 |
독립변수 | $x$ | 영 이탤릭 소문자 | 예측독립변수(predictor variable), 입력변수(input variable), 설명변수(explanatory variable), 조작변수(manipulated variable), 피처(feature), 원인변수 | independent variable | 다른 변수(종속변수)의 변화에 영향을 주는 변수 |
종속변수 | $y$ | 영 이탤릭 소문자 | 결과변수(outcome variable), 반응변수(response variable), 출력변수(output variable), 타겟변수(target variable), 예측대상변수(predicted variable), 결과변수 | dependent variable | 독립변수에 의해 그 값이 결정되거나 영향을 받는 변수 |
인자 | $\arg$ | 영 소문자 $\arg$ | 인수 | argument | 함수에 전달되어 함수를 특정하는 함수의 속성 |
매개변수 | $b_i$: 표본회귀계수 $\beta_i$: 모회귀계수 | 영 이탤릭 소문자 그리스 이탤릭 소문자 | 파라미터 | parameter | 함수의 속성 |
함수 | $f$ | 영 이탤릭 소문자 | Mapping (매핑), Transformation (변환), Operator (연산자) | function | 입력값 $x$를 받아 출력값$f(x)$를 계산하는 대수식 |
회귀함수 | $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon$ | $Y$는 종속변수 $X_i$는 독립변수 $\epsilon$은 회귀모델이 설명하지 못하는 무작위변동 | 평균으로의 회귀 | regression function | 집단의 회귀점, 회귀선, 회귀면 집단 생성모델의 회귀계수($\beta$) 1차 회귀계수는 독립변수가 독립적이고 배타적일 때는 가중치($w$)가 됨 |