안녕하세요 DA 라이언입니다.
지난번에는 데이터를 분석할때 검정방법 중 데이터가 29개 이하일 경우 정규성을 파악하는데 필요한 검증방법에 대해서 알아봤습니다.
오늘은 지난시간에 이어서 다른 검정방법들을 확인해보도록 하겠습니다.
우선 첫번째글을 보시지 않은 분들은 첫번째 글을 클릭해서 보시고 두번째 글로 보시기 바랍니다.
003 데이터분석 시작전 검정 방법 선택 전략 (첫번째)
->http://daryan.tistory.com/79
지난시간에 본 검정전략의 흐름도 입니다.
데이터를 확인할때 30개 미만일 경우에는 Sapiro-wilks test 로 정규성을 확인한다고 하였습니다.
그러나 단순히 그래프의 산포도를 보면서 정규성을 확인 하는 방법또한 있고 그것는 Q-Q plot입니다.
지난번 코드에서 Q-Q plot을 그려보겠습니다.
>dataA<-sample(1:100, 29, replace=TRUE)
>qqnorm(dataA) #QQplot을 그리는 명령어
>qqline(dataA) #QQplot의 기준선을 그리는 명령어
>dataNorm <- rnorm(29,0,1)
>qqnorm(dataNorm) #QQplot을 그리는 명령어
>qline(dataNorm) #QQplot의 기준선을 그리는 명령어
첫번째 그림과 두번째 그림을 보면 기준선에 대비해서 두번째 그림이 더 가까운것을 확인할수 있고, 이것을 기준으로 정상성을 가늠할수는 있으나
정확한 판단은 Shapiro-Wilk normality test 를 하는 것이 좋다고 할수 있습니다.
다만 그래프로 판단할수 있는 것은 첫번째 그림처럼 정상성을 벗어나는 데이터 포인트들이 몇개고 그것을 제거 하였을때 정상성이 더 좋아지겠다는
판단을 할수 있으므로 그래프 그리는 것을 의미 없다고 생각하시면 안됩니다.
그렇다면 정상성을 판별한 이후 우리는 데이터의 짝을 이루는지를 확인해볼 필요가 있습니다.
여기서 데이터의 짝이란, Before 와 After의 변화를 확인하는 데이터를 의미합니다.
단순히 남과여 평균 키 데이터는 데이터 짝을 이룬다고 표현하지 않습니다.
즉 동일한 집단에 대해서 어떤 처리를 하기전과 후에 반복하여 관측한 값이 차이있는지를 확인하는 경우에 사용합니다.
예를 들면 지지율의 변화, 도는 약의 복용 전과 후의 결과, 광고 전과 후의 결과 등등 동일한 집단에서 쌍으로 발생하는 데이터를 의미합니다.
일단 데이터가 보통은 짝을 이루지 않고 , 독립표본 즉 예를 들면, 남학생 키 분포, 여학생 키분포와 같이 나누어져 있습니다.
그래서 위의 도식과 같이 등분산 가정이 되는지 안되는지를 체크해 보아야 합니다.
등분산 가정은 F- 검정을 통해서 확인할수 있습니다.
F-검정이란 집단간의 분산차이가 있는가 없는가를 확인하는 것이고, 차이가 없는 것이 보통 귀무가설로 설정됩니다.
즉 예를 들면,
아래는 남자 여자의 수능 점수의 차이에 대해서 확인해본 결과입니다.수능만점은 400점으로 가정합니다.
성별 |
표본의 수 |
평균점수 |
분산 |
비고 |
여자 |
40 |
305.25 |
S1 |
|
남자 |
40 |
290.07 |
S2 |
여기서 F-검정의 귀무가설을 확인하여야 하는데
귀무가설 H0는 S1=S2이다 라고 설정합니다.
대립가설 H1는 S1≠ S2이다 라고 설정합니다.
이렇게 나왔을 경우 F-값을 구하게 되면 F= Max (남학생 점수분산,여학생 점수 분산)/Min(남학생 점수분산,여학생 점수 분산) 이 되며,
이럴경우 자유도는 (39,39)가 된다. 자유도는 각 표본의 수에서 1을 빼주면 나온다. F 값이 가령 1.45가 나왔다고 하면,
이것을 f-분포표에서 확인해볼 경우 p-value가 0.2545가 나오게 된다.
방법 |
Num DF(자유도1) |
Den DF(자유도2) |
F value |
Pr > F |
F-value |
39 |
39 |
1.45 |
0.2545 |
따라서 이것으 결론은 F-검정의 유의확률은 0.2545 이라고 할수 있습니다. 이것을 그래프로 그려보면 아래와 같다.
이것은 p-value가 0.2545로 0.05보다 크므로 다른 표본을 쓰더라도 분산이 같을 확률이 0.05보다는 높다고 할수 있습니다.
따라서 H0는 성립한다고 표현하고 우리는 이 두집단은 등분산이라고 가정하고 계속 분석을 할수 있게 됩니다.
지금껏 데이터 분석하기전에 검정 방법에 대해서 정리해봤습니다. 아래의 표를 기억하고 적용하면 좀더 쉬운 분석이 가능할 것이라 생각합니다.
참조 문헌
Enterprise guide 분석편 (자유아카데미, SAS 에반젤리스트 저) 참조
'라이언의 빅데이터 강좌' 카테고리의 다른 글
004 데이터분석 시작전 검정 방법 선택 전략 (첫번째) (0) | 2017.04.16 |
---|---|
003 t-검정과 가설 검증 (2) | 2017.04.16 |
002 선형회귀 및 Polynomial regression 고찰 with Python (1) | 2017.02.05 |
001 교차 검증 (cross validation)의 예제 R 코드 (5) | 2017.01.22 |
빅데이터 강좌의 커리큘럼 (3) | 2017.01.22 |