Learning DATALINK

데이터

용어표기 예표기 설명유사 용어영문 용어개념
변수$x$, $y$영 이탤릭 소문자특성(feature), 속성(attribute), 항목(item), 지표(indicator), 측정값(measurement), 필드(field), 인자(factor)variable

변화하는 값을 표현하거나 정의하는 데 사용

代數式에서 어떤 값이 들어갈 수 있는 자리

확률변수$X$, $Y$영 이탤릭 대문자확률적변수(stochastic variable), 랜덤변수 (random variable), 통계변수(statistical variable)random variable, probability variable관측을 통해 얻으며 확률이 할당되는 미리 정해지지 않은 결과: 결과가 이산적이면 이산확률변수(Discrete Random Variable), 연속적이면 연속확률변수 (Continuous Random Variable)
상수$a$, $b$, $\cdots$영 이탤릭 소문자고정값, 불변량, 스칼라constant자연수, 정수, 실수, 복소수
객체MyCase
myCase
영 pascal case: 클래스 명
영 camel case: 인스턴스 명
인스턴스(instance), 엔터티(entity)object보통 추상적이거나 범용적인 대상, 컴퓨터과학에서는 데이터와 그 데이터를 처리하는 함수를 포함하는 캡슐화된 개념
개체myCase영 camel case: 인스턴스 명객체(object), 엔터티(entity), 인스턴스(instance)individual개별적으로 식별되거나 고유한 특성을 가진 하나의 요소, 객체를 특정할 때 사용
개체의 범주형 속성은 개체가 속하는 범주
개체의 연속형 속성은 실수(real number)로 표현되는 개체의 속성
개체가 생성(추출)되면 집단(group)을 이룸
개체의 연속형 속성은 실수(real number)로 표현
개체의 범주형 속성은 개체가 속하는 집단명(범주명)으로 표현
개체는 연속형 속성 별 연속확률분포를 가짐
개체는 범주형 속성 별 이산확률분포를 가짐
요소myelement영 소문자원소element독립변수
속성myattribute영 소문자특성attribute개체의 특성, the feature of object
변량으로 표현
집단myGroup영 camel case집합group순서가 없는 범주
집단은 부분집단을 가짐
집단은 확률을 가질 수 있음
수준myLevel영 camel case 카테고리level순서가 있는 범주
범주myCategory영 camel case카테고리category순서가 없는 카테고리나 수준
모집단$P$, $N$영 대문자생성기population

모든 가능한 관측치나 결과의 집합, 연구에서 관심을 갖는 대상

모집단은 모수(parameter)로 설명

표본$S = \{x_1, x_2, \dots, x_{50}\}$영 대문자와 집합샘플sample

표본(sample)은 모집단(population)이 실현된 집단(group)

모집단을 표현하는 모집단의 일부 개체의 집합, 표본은 실질적인 분석 대상

표본을 통해 모집단의 특성을 추정

표본은 통계량(statistic)으로 설명

표집

$S=\{\{x_{11}, x_{12}\}, \{x_{21}, x_{22}\}, \cdots , \{x_{91}, x_{92}\}\}$

표본크기가 2인 표본을 9개 추출한 표집

영 대문자와 부분집합의 집합샘플링, 추출(extraction)sampling

모집단에서 일부 데이터를 선택하는 과정

표집을 통해 얻은 데이터 집합은 표본(sample)

데이터프레임

df = pd.DataFrame(data)

df <- data.frame(c1 = c(1, 2), c2 = c(“A”, “B”))

DataFrame: 파이썬

data.frame: R

데이터구조data frame

데이터 프레임의 각 열은 변수명과 변수값

개체 또는 집단을 행으로 속성을 열로 표현

데이터프레임은 개체의 속성을 나타내는 1행과 r개체의 속성값의 나머지행

빈도수$f$, $n$영 이탤릭 소문자도수, 빈도, Countfrequency

변수의 일종

범주 또는 그룹별 개체의의 출현 빈도

분포를 파악하는 기본적인 수단

독립변수$x$영 이탤릭 소문자예측독립변수(predictor variable), 입력변수(input variable), 설명변수(explanatory variable), 조작변수(manipulated variable), 피처(feature), 원인변수independent variable다른 변수(종속변수)의 변화에 영향을 주는 변수
종속변수$y$영 이탤릭 소문자결과변수(outcome variable), 반응변수(response variable), 출력변수(output variable), 타겟변수(target variable), 예측대상변수(predicted variable), 결과변수dependent variable독립변수에 의해 그 값이 결정되거나 영향을 받는 변수
인자$\arg$영 소문자 $\arg$인수argument함수에 전달되어 함수를 특정하는 함수의 속성
매개변수$b_i$: 표본회귀계수
$\beta_i$: 모회귀계수

영 이탤릭 소문자

그리스 이탤릭 소문자

파라미터parameter함수의 속성
함수$f$영 이탤릭 소문자Mapping (매핑), Transformation (변환), Operator (연산자)function입력값 $x$를 받아 출력값$f(x)$를 계산하는 대수식
회귀함수$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon$$Y$는 종속변수
$X_i$는 독립변수
$\epsilon$은 회귀모델이 설명하지 못하는 무작위변동
평균으로의 회귀regression function집단의 회귀점, 회귀선, 회귀면
집단 생성모델의 회귀계수($\beta$) 1차 회귀계수는 독립변수가 독립적이고 배타적일 때는 가중치($w$)가 됨