[DATA SCIENCE]
데이터사이언스 > 모델링 > 연구계획 > 가설
초등학생의 보드게임 사전과 사후의 수학적 창의력 점수 차이입니다.
절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.
귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.
일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다.
표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면 정확하지 않지만, 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.
독립표본은 독립된 두개 이상의 범주를 가집니다. 대응표본은 개체로 연결되어 있으며 같은 시간이나 공간의 이동으로 같은 개체의 속성변동을 반영합니다.
가설은 연구의 출발점으로, 연구자가 세운 잠재적 진실을 탐구하는 과정에서 검증하고자 하는 아이디어를 의미합니다. 가설의 주요 목적은 관측대상을 변수로 정의하고, 이를 바탕으로 실험을 설계하며, 관측을 통해 가설을 검증하는 것입니다. 연구에서는 독립변수(원인, 인자)가 종속변수(결과, 반응)에 미치는 영향을 탐구하며, 이 관계를 명확히 표현하기 위해 귀무가설과 대립가설을 설정합니다. 귀무가설은 독립변수와 종속변수 사이에 유의미한 관계가 없다고 가정하는 반면, 대립가설은 유의미한 관계가 있다고 가정합니다.
변수의 유형에 따라 가설은 단순가설과 복합가설로 분류될 수 있으며, 연구 방법에 따라 통계적 가설과 논리적 가설로 나눌 수 있습니다. 가설 수립 시 고려해야 할 요소로는 변수 간의 관계 명확성, 검정의 윤리성 및 가능성, 그리고 언어의 간결성 등이 있습니다. 연구가설은 문제 정의, 해결 방안의 제시, 결과 예측의 세 부분으로 구성되며, 충분한 문헌 검토와 선행 조사를 통해 단계적으로 수립됩니다. 연구가설은 연구주제와의 밀접성, 검정 가능성, 재현성, 변수의 정확성, 간결성, 그리고 윤리적 기준의 준수 여부를 체크리스트를 통해 검토함으로써 연구의 신뢰성과 타당성을 높일 수 있습니다.
가설, 관측대상, 독립변수, 종속변수, 귀무가설, 대립가설, 단순가설, 복합가설, 통계적 가설, 논리적 가설, 연구가설
가설에서 사용하는 변수에는 독립변수와 독립변수에 종속되는 종속변수라는 두가지 유형이 있습니다.
독립변수는 실험을 수행하는 동안 종속변수(dependent variable)를 조절합니다. 독립의 다른 말로는 원인, 설명, 요인, 인자(factor), 처리(treatment), 중재(intervention) 등이 있습니다.
종속변수는 독립변수의 영향을 받는 변수입니다. 종속의 다른 말로는 결과, 반응, 효과 등이 있습니다. 일반적으로 가설은 독립변수가 종속변수에 영향을 미치는 것을 “만일 ~면 ~이다”로 표현하는 구조를 가집니다.
독립변수가 종속변수에 유의미한 영향을 미치지 못한다는 가설과 유의미한 영향을 미친다는 두 가지 가설의 유형이 있습니다.
가설 상의 독립변수가 종속변수에 영향을 미치지 못하는 경우에는 그 가설을 주로 귀무가설로 표현합니다. 귀무가설($H_0$, null hypothesis)은 변수 간에 무관함을 귀납적으로 설명하기 때문에 귀무가설이라고 하며 다른 말로는 영가설이라고 합니다. 연구자들은 관심있는 종속변수에 영향을 미치는 독립변수(원인변수, 설명변수, 요인)에 대한 연구를 수행하여 기존의 질서인 귀무가설을 기각하고 귀무가설과 대립하는 연구가설을 채택하려고 합니다. 귀무가설은 증명할 수는 없으나 주어진 기준(유의미한 기준, 유의수준)으로 기각과 채택의 검정이 가능합니다. 하지만, 신뢰도 100%로 검정할 수는 없습니다. 즉, 귀무가설을 증명할 수는 없습니다. 귀무가설이 기각되지 않고 채택되어 변수 사이에 관계가 없다는 것을 밝히는 것만으로도 충분한 연구가치가 있는 경우가 많습니다. 즉, 귀무가설을 기각하지 못하여 대립가설로 넘어가지 못하더라도 귀무가설 기각의 연구결과만으로도 그 후의 연구에 중요한 자료가 될 수 있습니다.
대립가설($H_1$)은 귀무가설이 기각되면 채택될 수 있는 가설입니다. 예를 들어, “원인변수에 따른 결과변수의 변화는 없다”라는 귀무가설이 기각되면 대립가설은 원인변수가 커지면 결과변수값이 커진다는 대립가설과 작아진다는 대립가설이 있을 수 있습니다. 연구자들은 기존의 질서인 귀무가설을 기각하려는 연구를 주로 수행하기 때문에 대립가설은 연구가설과 같은 의미로 많이 사용됩니다. 실험을 설계할 때, 신뢰할 수 있는 연구결과를 얻기 위해 귀무가설과 대립가설을 함께 고려합니다. 그리고 종속변수는 확률변수라는 전제로 가설을 검정하기 때문에 검정(가설의 채택 또는 기각)의 기준이 되는 신뢰도는 90%, 95%, 99% 등으로 제시되며, 100%를 제시할 수는 없습니다. 즉, 종속변수(결과변수, 반응변수)가 확률변수이기 때문에 귀무가설과 대립가설의 완벽한 증명은 가능하지 않습니다. 귀무가설이 기각되더라도 대립가설은 귀무가설에서 주어지는 기준(유의수준)으로 채택됩니다. 따라서 대립가설을 채택하기 전에 귀무가설의 기각을 먼저 수행하여야 합니다.
양적, 질적 연구방법에 따라 통계적 가설과 논리적 가설로 나누어 집니다.
양적연구는 통계적 가설을 세우고 그 가설을 검정하는 방식으로 수행됩니다. 통계적 가설(statistical hypothesis)은 수집한 데이터로 검정할 수 있는 가설입니다.
질적연구는 보통 논리적 가설을 세우고 그 가설을 검정하는 방식으로 수행됩니다. 논리적 가설(logical hypothesis)은 변수 간의 관계를 설명하기 위해 논리를 사용합니다. 하지만 관계를 설명하기 위한 데이터는 수집할 수 없는 경우입니다.
변수가 2개인 경우에는 단순가설이라 하고 변수가 3개 이상인 경우에는 복합가설이라고 합니다.
가설 상의 변수가 2개인 경우는 단순가설(simple hypothesis)입니다. 하나는 독립변수이고 다른 하나는 종속변수입니다.
가설 상의 변수가 3개 이상 있는 경우를 복합가설 (complex hypothesis)이라고 합니다.
연구가설(research hypothesis)이란 질문에 대해 예측한 답을 서술한 것이라고 볼 수 있습니다. 가설은 연구가치가 있는 질문을 작성하는 것으로 시작합니다. 가설수립의 초기 단계에서는 정확성을 추구하기 보다는 질문과 그 답의 가치를 검토하는 것이 중요합니다. 그리고 자연 또는 사회에 대한 관찰이 아닌 검증된 이론으로부터 도출해 내거나 이전 연구결과를 기반으로 연구가설을 세울 수 있습니다.
연구가설은 문제 정리, 해결방안 설명 그리고 판정기준을 포함한 결과예측으로 구성됩니다.
문제 정리 > 해결방안 설명(판정기준 포함) > 결과예측
연구가설을 원인과 결과로 표현할 수도 있습니다. 부가적으로 원인과 결과를 설명하는 이론에 대한 설명이 있을 수 있습니다.
원인 > 효과
가설을 세우기 전, 충분한 시간을 들여 문헌검토를 해야 합니다. 더 나아가 인터뷰 등 여러가지 선행 조사도 필요할 수 있습니다..
가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.
가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다. “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다.
출처
본인의 Google 계정으로 구글시트를 복사
=COUNT(C3:C22) : 데이터 개수. C3에서 C22에 있는 숫자로 표시된 데이터의 개수.
=AVERAGE(C3:C22) : 평균. C3에서 C22에 있는 데이터의 평균.
=VAR.S(C3:C22) : 표본분산. C3에서 C22에 있는 데이터의 표본분산. 편차제곱합을 데이터 개수 -1로 나눔.
=STDEV.S(C3:C22) : 표본표준편차. C3에서 C22에 있는 데이터의 표본표준편차. 표본분산의 제곱근.
=T.DIST.2T(N3,O3) : t분포 상에서 확률변수의 양측 확률밀도. N3 확률변수에 대해 O3를 자유도로 하는 t분포 상에서의 양측 확률밀도를 계산해서 구함.
=T.INV(1-(S3/T3),O3) : 확률밀도에 해당하는 확률변수를 구함. O3 값을 자유도로 가지는 t분포 상에서 1-(S3/T3) 값을 누적확률밀도로 가지는 확률변수 값을 표시함.
=IF(R3>U3,”YES”,”NO”) : 조건문, R3의 값이 U3보다 크면 YES를 표시하고, 그렇지 않으면 NO를 표시함.