안녕하세요 DA 라이언입니다.
오늘은 가설 검증과 t-검정에 대해서 정리해보고자 합니다.
우선 t- 검정에 대해서 정의를 살펴보면,
t-검정은 정규분포를 따르는 하나 또는 두 모집단의 평균에 대한 가설 검정이다.
이렇게 나와 있습니다.
즉 t-검정을 하는 이유는
내가 얻은 샘플들(예 100명의 키 데이터)의 평균이 모집단(전교생 600명)의 평균과 동일한가 ?
를 알아보기 위해서 가설을 세우는데 기존적으로 가설을 세울때는 평균이 동일하다라고 가정을 해야 합니다.
그래서 H0 (귀무가설, 기본이되는 가설)=> 샘플100명의 평균 = 전교생의 평균 이다 라고 정해집니다.
귀무 가설을 세울 때 주의 해야하는것은 귀무가설은 내가 마음대로 설정하는 것은 아닙니다.
기본적으로 표본의 평균과 모집단의 평균이 같다 가 귀무가설이 된다. 하지만 때에 따라서는 귀무가설이 꼭 평균이 같다고
설정되지 않을때도 있습니다. 그래서 사람들이 많이 헷갈리는데 헷갈리지 않게 아래와 같이 팁을 드리고자 합니다.
귀무가설을 세울때 가장 생각해봐야 할것은 그 가설이 변화를 주지 않는 쪽으로 설정되어야 한다는 것입니다.
쉽게 설명해보면
- 고양이의 평균 수명은 20년이라고 알려져 있다 그러한지 알아보기 위해서는 귀무가설이
귀무가설 H0: 표본의 고양이 평균수명 = 20년 이다.
대립가설 H1: 표본의 고양이 평균수명 ≠ 20년 이다.
이렇게 설정될수 있습니다. 즉 귀무가설은 평균 수명이 20년으로 설정해야 다시 평균을 찾는일 따위는 하지 않게 됩니다.
여기서 표본이 독립표본이고, 정규분포를 따를경우
전체 모집단을 대표하는 표본이라고 말할수 있습니다.
그래서 그 모집단을 대표하는 샘플 표본들이 20년정도 평균이 나온다면 우리는 과학적인 통계 근거에 의해
"고양이의 평균 수명은 20년정도 라고 이야기 할수 있습니다."
- 다른 예제를 살펴보면, 피자업체에서 피자 배달 시간을 램덤하게 추출 데이터 100개를 분석하고,
경쟁업체의 광고 30분보다 적게 나온다 광고를 하고자 합니다. 그럴경우
귀무가설 H0 : 우리회사 피자배달시간은 30분보다 적다.
대립가설 H1 : 우리회사는 피자 배달시간은 30분보다 같거나 크다
라고 설정할수 있고, 검정을 통해서
"우리 회사의 피자 배달시간은 D사보다 더 빠릅니다 " 라고 이야기해도 과학적인 이론에 기초하여 이야기했다고 할수 있습니다.
- 마지막으로 전교생이 600명인 학교에서 남학생 키와 여학생 키를 100명씩 측정해 평균이 각각 170cm 와 160cm가 나왔다고 가정해봅시다.
이 평균의 차이가 진짜 600명의 키를 다 전수 조사해도 10cm정도 차이가 날것인지,
아니면 우연히 키가 남학생은 크고 여학생은 작은쪽만 조사해서 10cm정도 차이가 나는 것인지
평균의 차이가 이렇게 유의(의미가 있는것인지 )확인하기 하고 싶을때 가설 검증합니다. 그래서 가설 검증은 아래와 같이 할수 있습니다.
귀무가설 H0 : 남학생 평균 키와 여학생 평균 키 차이가 없다
대립가설 H1 : 남학생 평균 키와 여학생 평균 키 차이가 있다
라고 설정할수 있고, 검정을 통해서
"100명만 조사했지만 전교생의 남학생의 평균 키는 여학생의 평균키와는 차이가 없다 "라고 증명하고 싶은 것이고,
이것을 좀더 유식하게 말해본다면
"100명만 조사했지만 전교생의 남학생의 평균 키는 여학생의 평균키보다 차이가 유의하지 않다(There is not statistical significance between two groups)
라고 이야기 할수 있습니다.
그럼 마지막으로 t-검정의 실제적 예시를 아래와 같이 설명해보겠습니다.
아래는 남자 여자의 수능 점수의 차이에 대해서 확인해본 결과입니다.수능만점은 400점으로 가정합니다.
성별 |
표본의 수 |
평균점수 |
분산 |
비고 |
여자 |
50 |
305.25 |
9.81 |
|
남자 |
50 |
290.07 |
8.18 |
이런 경우 등분산 가정이 맞다고 하고 t검정을 실시하면
method |
t Value |
Pr>t(p-value) |
pooled |
1.88 |
0.0321 |
이렇게 나왔다고 가정해봅시다. pooled 방법은 등분산 가정일경우 할수 있는 t-검정의 한 종류이며,
t-value가 1.88 , p-value는 나왔다고 해봅시다.
여기서 귀무가설은 H0 : 여자 평균점수은 남자 평균점수 차이가 없다
대립가설은 H1 : 여자 평균점수은 남자 평균점수 차이가 있다.
이것을 그림으로 그리면, 아래와 같이 나오고 , 이것은 t-검정을 한결과 p-value가 0.0321이 나왔으므로,
보통 0.05기준으로 작게 나오면 일어날 확률이 너무 작아서
신뢰구간 95% 내에서 우리는 귀무가설 H0가 성립됨을 증명되지 못한 것이고
이걸 좀 어렵게 말하싶으시면 귀무가설을 기각한다 라고 이야기 하면 됩니다.
따라서 우리는 이러한 검증을 거쳐서
여자 평균점수는 남자 평균점수와 유의미한 차이가 있다고 할수 있다고 할수 있습니다.
즉 전체를 검증하지 않아도 무작위로 뽑은 50명만 검증해도 전교생의 수능 성적을 비교할수 있고,
그 무작위로 뽑은 값에서 남녀가 차이가 나는데 이것은 다시 실험을 해도 비슷하게 나올 확률이 95%이므로
서로 남녀 점수가 차이나는 건 의미가 있는 결과다 라고 이야기 할수 있는 것입니다.
오늘은 가설 검증과 t -검증에 대해서 이야기 해보았습니다.
어려운 이야기를 좀 쉽게 설명하기 위해서 노력해봤는데 그래도 어렵네요.
잘 보시고 이해하시면 감사드리겠습니다.
'라이언의 빅데이터 강좌' 카테고리의 다른 글
004 데이터분석 시작전 검정 방법 선택 전략 (두번째) (0) | 2017.04.16 |
---|---|
004 데이터분석 시작전 검정 방법 선택 전략 (첫번째) (0) | 2017.04.16 |
002 선형회귀 및 Polynomial regression 고찰 with Python (1) | 2017.02.05 |
001 교차 검증 (cross validation)의 예제 R 코드 (5) | 2017.01.22 |
빅데이터 강좌의 커리큘럼 (3) | 2017.01.22 |