Growth Hoon

정규성 검정 - Shapiro Wilk Test 본문

Statistics_통계

정규성 검정 - Shapiro Wilk Test

sayhoon 2023. 8. 4. 17:27

우선 정규성 검정이 왜 필요한지 궁금했다.

먼저 정규성 검정에서의 귀무가설(영가설 H0)는 " 해당 표본(Sample)의 모집단이 정규분포를 띄는가 ? "이다.

 

Q1. 그럼 모집단의 정규분포 유무를 확인하는 이유는 무엇일까?

정규분포는 평균을 중심으로 대칭을 이루는 분포이다.  (평균이 0이고, 표준편차가 1인 정규분포는 표준정규분포)

정규분포 유무를 확인하는 이유 중 가장 큰 이유는 정규분포가 추측하기 편리하기 때문이지 않을까 싶다.

만약 A라는 표본이 정규성을 만족한다면, 

새로운 연속형 데이터  a가 왔을 때 해당 데이터가 나타날 확률(상위 몇 % 등)을 알 수 있기 때문이지 않을까?
( 좀 더 알아봐야겠다.. )

 

 

위와 같은 이유(개인적인 생각)로 표본 데이터의 정규성 확인이 필요하고, 이를 평가하는 검정 중 하나가 Shapiro - Wilk Test이다. 해당 검정 이외에도 많은 검정들이 존재한다.

 

우선 구글링을 통해서 정보를 찾아보니

(1) 표본이 너무 적은 경우에는 정규성을 기각하는 경우가 적어진다 {모집단이 정규분포를 띄지 않음에도 귀무가설을 채택한다 - 2종 오류}

 

(2) 그렇다고 표본의 크기가 커지면 정규분포처럼 보이는 데이터도 높은 확률로 정규성(귀무가설)을 기각하는 경우가 있다.  { 모집단이 정규분포를 띄고 있음에도 불구하고 대립가설을 채택한다 - 1종오류}

 

(3) 사용하는 검정 (Shapiro-Wilk, Kolmogorov-Smirnov 등등)에 따라 결과가 달라질 수 있다고 한다. 

 

따라서 해당 검증과 그래프를 함께 보는 것을 추천한다고 한다.

 

[요즘에는 보통 정규성 검증을 중심극한정리에 의해서 표본수가 30이 넘어가면 정규성을 만족한다는 가정하고 넘어간다고 한다. 여기서 생긴 궁금증이 중심극한정리는 표본들의 평균이 정규분포를 띄는 것으로 알고 있는데, 왜 표본이 정규분포를 띈다는 가정을 하는지 궁금하다]

 

 


Shapiro - Wilk Test에도 기본형이랑 확장형이 존재하는 듯 하다. 

 

Basic Concept(기본형)은 표본이 3 ~ 50인 경우 사용하고 아래와 같이 접근 한다고 한다.

1. 우선 표본들을 오름차순으로 정렬한다. 
  $$ {x_1} \leq ... \leq {x_n} $$

2. SS(Sum of Square)-제곱합 구하기

  $$ {\Sigma^{n}_{i=1}} ({x_i }- {\bar{x}})^2 $$ 

3. 표본수(n)가 짝수인 경우와 홀수인 경우 m 계산

  $$ {m_{even}} = \frac{n}{2} \quad \quad  {m_{odd}} = \frac{n-1}{2} $$ 

4. m을 이용해서 계수 b 구하기 ( a 가중치는 Shapiro Wilk Table을 참고한다.)

  $$ b = {\Sigma^{m}_{i=1}}  {a_i} ( {x_{n+1-i}}- {x_i} ) $$ 

5. Shapiro Wilk 통계치를 계산한다 . (test statistic)

  $$ W= \frac{b^2}{SS} $$

6. 계산되어진 W값은 Shapiro Wilk Table을 통해서 P-value를 확인한다.

 

W값을 통해 p-value를 얻고 검증을 진행한다. 


우선 정규성 검증을 왜 해야하는지와 Shapiro -Wilk test의 기본형을 알아보았다.

확장형은 더 어려우며 아직 기본형의 Concept도 명확하게 이해하지 못했다.

 

1. 제곱합으로 나눠주는 이유는 뭘까?

2. 표본수를 짝수와 홀수로 나눠서 m을 구하는 이유는 뭘까?

3. 계수 b를 구할때 사용되는 가중치 a는 왜 곱해주며, 어떻게 계산된 table일까?

4. 계수 b의 제곱이 의미하는 건 뭘까?

 

아무래도 Shapiro-Wilk Test가 어떻게 계산되는지 이해를 못하는 이유는 통계적 지식이 없기 때문이지 않나 싶다..

처음에는 t-test와 같은 가설검정을 하기 전 정규성 검정을 먼저 하는 것을 보고 대표되는 Shapiro Wilk Test를 먼저 살펴보았는데, 통계적 지식이 부족함을 느끼게 되었다. 

 

이 글을 보는 분들 중 혼자서 통계학을 공부하는데 도움이 되는 자료나 사이트를 알려주신다면 감사하겠습니다 :) 

또한, 해당 글에 문제가 있다면 알려주세요 ! 


Reference site

1. 정규성 검정을 하는 이유 1

2. 정규성 검정을 하는 이유 2

3. Shapiro-Wilk Test 기본형 

4. Shapiro-Wilk Test 확장형

5. 정규분포_위키백과