[DATA SCIENCE]

데이터사이언스 > 모델링 > 연구설계 > 가설

가설수립

[Q&A]

새로운 확률변수는 무엇

초등학생의 보드게임 사전과 사후의 수학적 창의력 점수 차이입니다.

귀무가설은 기준을 생성하는가

절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.

차이평균의 귀무가설과 원점의 관계는

귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.

대응표본과 독립표본에서 새로운 확률변수를 확률변수값의 차이라고 할 때 어느 표본의 분산이 더 큰가

일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다.

표준편차는 단위가 될 수 있는가

표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면 정확하지 않지만, 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.

대응표본과 독립표본은 무엇이 다른가

독립표본은 독립된 두개 이상의 범주를 가집니다. 대응표본은 개체로 연결되어 있으며 같은 시간이나 공간의 이동으로 같은 개체의 속성변동을 반영합니다.

Hypothesis formulation

Author

박근철, 양윤원

DocuHut Co. Ltd., Seoul, Republic of Korea

Citation

Park GC, Yang YW. Data Type. Data Science 2024;1:1.

Publication History

Received: 31 March 2023, Revised: 30 April 2023, Accepted: 04 May 2023, Published: 19 May 2023

Publication Information

DOI : 24711

데이터사이언스, Vol, Issue,

Abstract

가설은 연구의 출발점으로, 연구자가 세운 잠재적 진실을 탐구하는 과정에서 검증하고자 하는 아이디어를 의미합니다. 가설의 주요 목적은 관측대상을 변수로 정의하고, 이를 바탕으로 실험을 설계하며, 관측을 통해 가설을 검증하는 것입니다. 연구에서는 독립변수(원인, 인자)가 종속변수(결과, 반응)에 미치는 영향을 탐구하며, 이 관계를 명확히 표현하기 위해 귀무가설과 대립가설을 설정합니다. 귀무가설은 독립변수와 종속변수 사이에 유의미한 관계가 없다고 가정하는 반면, 대립가설은 유의미한 관계가 있다고 가정합니다.

변수의 유형에 따라 가설은 단순가설과 복합가설로 분류될 수 있으며, 연구 방법에 따라 통계적 가설과 논리적 가설로 나눌 수 있습니다. 가설 수립 시 고려해야 할 요소로는 변수 간의 관계 명확성, 검정의 윤리성 및 가능성, 그리고 언어의 간결성 등이 있습니다. 연구가설은 문제 정의, 해결 방안의 제시, 결과 예측의 세 부분으로 구성되며, 충분한 문헌 검토와 선행 조사를 통해 단계적으로 수립됩니다. 연구가설은 연구주제와의 밀접성, 검정 가능성, 재현성, 변수의 정확성, 간결성, 그리고 윤리적 기준의 준수 여부를 체크리스트를 통해 검토함으로써 연구의 신뢰성과 타당성을 높일 수 있습니다.

Key Word

가설, 관측대상, 독립변수, 종속변수, 귀무가설, 대립가설, 단순가설, 복합가설, 통계적 가설, 논리적 가설, 연구가설

가설

가설(hypothesis)은 아이디어라고 할 수 있습니다. 연구자가 세운 가설은 더 나아가 잠재적 진실입니다. 가설의 효용가치가 클수록 검정의 욕구가 커집니다. 가설에서는 관측 대상을 변수로 정합니다. 연역법은 가설에 따른 실험을 관측하여 가설을 검정합니다. 검정된 가설은 이론이 됩니다. 귀납법은 연구주제를 다각적으로 관측하여 가설을 만들고 가설은 점차 이론이 됩니다.

가설에서 사용하는 변수(variables)의 유형

가설에서 사용하는 변수에는 독립변수와 독립변수에 종속되는 종속변수라는 두가지 유형이 있습니다.

독립변수(independent variable)

독립변수는 실험을 수행하는 동안 종속변수(dependent variable)를 조절합니다. 독립의 다른 말로는 원인, 설명, 요인, 인자(factor), 처리(treatment), 중재(intervention) 등이 있습니다.

종속변수(dependent variable)

종속변수는 독립변수의 영향을 받는 변수입니다. 종속의 다른 말로는 결과, 반응, 효과 등이 있습니다. 일반적으로 가설은 독립변수가 종속변수에 영향을 미치는 것을 “만일 ~면 ~이다”로 표현하는 구조를 가집니다.

귀무가설과 대립가설에 나타난 독립변수와 종속변수의 관계

독립변수가 종속변수에 유의미한 영향을 미치지 못한다는 가설과 유의미한 영향을 미친다는 두 가지 가설의 유형이 있습니다.

독립변수가 종속변수에 유의미한 영향을 미치지 못하는 경우

가설 상의 독립변수가 종속변수에 영향을 미치지 못하는 경우에는 그 가설을 주로 귀무가설로 표현합니다. 귀무가설($H_0$, null hypothesis)은 변수 간에 무관함을 귀납적으로 설명하기 때문에 귀무가설이라고 하며 다른 말로는 영가설이라고 합니다. 연구자들은 관심있는 종속변수에 영향을 미치는 독립변수(원인변수, 설명변수, 요인)에 대한 연구를 수행하여 기존의 질서인 귀무가설을 기각하고 귀무가설과 대립하는 연구가설을 채택하려고 합니다. 귀무가설은 증명할 수는 없으나 주어진 기준(유의미한 기준, 유의수준)으로 기각과 채택의 검정이 가능합니다. 하지만, 신뢰도 100%로 검정할 수는 없습니다. 즉, 귀무가설을 증명할 수는 없습니다. 귀무가설이 기각되지 않고 채택되어 변수 사이에 관계가 없다는 것을 밝히는 것만으로도 충분한 연구가치가 있는 경우가 많습니다. 즉, 귀무가설을 기각하지 못하여 대립가설로 넘어가지 못하더라도 귀무가설 기각의 연구결과만으로도 그 후의 연구에 중요한 자료가 될 수 있습니다.

독립변수가 종속변수에 유의미한 영향을 미치는 경우

대립가설($H_1$)은 귀무가설이 기각되면 채택될 수 있는 가설입니다. 예를 들어, “원인변수에 따른 결과변수의 변화는 없다”라는 귀무가설이 기각되면 대립가설은 원인변수가 커지면 결과변수값이 커진다는 대립가설과 작아진다는 대립가설이 있을 수 있습니다. 연구자들은 기존의 질서인 귀무가설을 기각하려는 연구를 주로 수행하기 때문에 대립가설은 연구가설과 같은 의미로 많이 사용됩니다. 실험을 설계할 때, 신뢰할 수 있는 연구결과를 얻기 위해 귀무가설과 대립가설을 함께 고려합니다. 그리고 종속변수는 확률변수라는 전제로 가설을 검정하기 때문에 검정(가설의 채택 또는 기각)의 기준이 되는 신뢰도는 90%, 95%, 99% 등으로 제시되며, 100%를 제시할 수는 없습니다. 즉, 종속변수(결과변수, 반응변수)가 확률변수이기 때문에 귀무가설과 대립가설의 완벽한 증명은 가능하지 않습니다. 귀무가설이 기각되더라도 대립가설은 귀무가설에서 주어지는 기준(유의수준)으로 채택됩니다. 따라서 대립가설을 채택하기 전에 귀무가설의 기각을 먼저 수행하여야 합니다.

연구방법에 따른 가설의 유형

양적, 질적 연구방법에 따라 통계적 가설과 논리적 가설로 나누어 집니다.

통계적 가설

양적연구는 통계적 가설을 세우고 그 가설을 검정하는 방식으로 수행됩니다. 통계적 가설(statistical hypothesis)은 수집한 데이터로 검정할 수 있는 가설입니다.

논리적 가설

질적연구는 보통 논리적 가설을 세우고 그 가설을 검정하는 방식으로 수행됩니다. 논리적 가설(logical hypothesis)은 변수 간의 관계를 설명하기 위해 논리를 사용합니다. 하지만 관계를 설명하기 위한 데이터는 수집할 수 없는 경우입니다.

변수의 개수에 따른 가설의 유형

변수가 2개인 경우에는 단순가설이라 하고 변수가 3개 이상인 경우에는 복합가설이라고 합니다.

단순가설

가설 상의 변수가 2개인 경우는 단순가설(simple hypothesis)입니다. 하나는 독립변수이고 다른 하나는 종속변수입니다.

복합가설

가설 상의 변수가 3개 이상 있는 경우를 복합가설 (complex hypothesis)이라고 합니다.

가설수립 시 고려할 점

변수 정의의 명확성
변수간 관계의 명확성 : 원인과 결과 등
검정방법의 윤리성
검정의 가능성
간결한 언어 사용

연구가설

연구가설(research hypothesis)이란 질문에 대해 예측한 답을 서술한 것이라고 볼 수 있습니다. 가설은 연구가치가 있는 질문을 작성하는 것으로 시작합니다. 가설수립의 초기 단계에서는 정확성을 추구하기 보다는 질문과 그 답의 가치를 검토하는 것이 중요합니다. 그리고 자연 또는 사회에 대한 관찰이 아닌 검증된 이론으로부터 도출해 내거나 이전 연구결과를 기반으로 연구가설을 세울 수 있습니다.

연구가설 형식

연구가설은 문제 정리, 해결방안 설명 그리고 판정기준을 포함한 결과예측으로 구성됩니다.

문제 정리 > 해결방안 설명(판정기준 포함) > 결과예측

연구가설을 원인과 결과로 표현할 수도 있습니다. 부가적으로 원인과 결과를 설명하는 이론에 대한 설명이 있을 수 있습니다.

원인 > 효과

가설을 세우기 전, 충분한 시간을 들여 문헌검토를 해야 합니다. 더 나아가 인터뷰 등 여러가지 선행 조사도 필요할 수 있습니다..

연구가설의 단계적 수립

가능한 많은 데이터를 수집하고 가질 수 있는 문제를 정리
몇 가지 예비가설을 세운 후 예비실험을 통해 각 가설을 확인
가설을 정한 후 설명 목록을 작성

연구가설 체크리스트

연구주제와의 밀접성 : 연구주제와의 관계를 명확히 설명할 수 있는가
검정가능성 : 검정할 수있는 방법이 있는가
재현성 : 검정결과를 재현할 수 있는가
포함된 변수의 정확성 : 독립변수와 종속변수가 모두 포함되어 있는가
간결성 : 더 줄일 수 있는가
윤리적 기준에 따라 포함된 변수를 조정하고 관측할 수 있는가
윤리적 기준을 위반하지 않고 검증할 수 있는가

Terminology

가설 hypothesis

가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.

가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다. “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다.

출처

Hypothesis – Wikipedia

Reference

본인의 Google 계정으로 구글시트를 복사

=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.

=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.

=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.

=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.

=T.DIST.2T(N3,O3) : t분포 상에서 확률변수의 양측 확률밀도. N3 확률변수에 대해 O3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.

=T.INV(1-(S3/T3),O3) : 확률밀도에 해당하는 확률변수를 구함. O3 값을 자유도로 가지는 t분포 상에서 1-(S3/T3) 값을 누적확률밀도로 가지는 확률변수 값을 표시함.

=IF(R3>U3,”YES”,”NO”) : 조건문, R3의 값이 U3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.