일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- WIL
- 혼자 공부하는 SQL
- 컴퓨터 과학이 여는 세계
- SQL
- 덴드로그램
- Stored Procedure
- stored function
- computer science
- Til
- 문제풀이
- CS
- 미래혁신대전
- Django
- Recommender system
- 백준
- Programmers
- 프로그래머스
- PCA
- 선형대수
- 퓨처셀프
- MVT
- 다시 왔다!
- 엘런 튜링
- 2023
- JP Study
- 1463
- 멀티스레딩
- 한 권으로 읽는 컴퓨터 구조와 프로그래밍
- FastAPI
- mysql
- Today
- Total
Growth Hoon
정규성 검정 - Shapiro Wilk Test 본문
우선 정규성 검정이 왜 필요한지 궁금했다.
먼저 정규성 검정에서의 귀무가설(영가설 H0)는 " 해당 표본(Sample)의 모집단이 정규분포를 띄는가 ? "이다.
Q1. 그럼 모집단의 정규분포 유무를 확인하는 이유는 무엇일까?
정규분포는 평균을 중심으로 대칭을 이루는 분포이다. (평균이 0이고, 표준편차가 1인 정규분포는 표준정규분포)

정규분포 유무를 확인하는 이유 중 가장 큰 이유는 정규분포가 추측하기 편리하기 때문이지 않을까 싶다.
만약 A라는 표본이 정규성을 만족한다면,
새로운 연속형 데이터 a가 왔을 때 해당 데이터가 나타날 확률(상위 몇 % 등)을 알 수 있기 때문이지 않을까?
( 좀 더 알아봐야겠다.. )
위와 같은 이유(개인적인 생각)로 표본 데이터의 정규성 확인이 필요하고, 이를 평가하는 검정 중 하나가 Shapiro - Wilk Test이다. 해당 검정 이외에도 많은 검정들이 존재한다.
우선 구글링을 통해서 정보를 찾아보니
(1) 표본이 너무 적은 경우에는 정규성을 기각하는 경우가 적어진다 {모집단이 정규분포를 띄지 않음에도 귀무가설을 채택한다 - 2종 오류}
(2) 그렇다고 표본의 크기가 커지면 정규분포처럼 보이는 데이터도 높은 확률로 정규성(귀무가설)을 기각하는 경우가 있다. { 모집단이 정규분포를 띄고 있음에도 불구하고 대립가설을 채택한다 - 1종오류}
(3) 사용하는 검정 (Shapiro-Wilk, Kolmogorov-Smirnov 등등)에 따라 결과가 달라질 수 있다고 한다.
따라서 해당 검증과 그래프를 함께 보는 것을 추천한다고 한다.
[요즘에는 보통 정규성 검증을 중심극한정리에 의해서 표본수가 30이 넘어가면 정규성을 만족한다는 가정하고 넘어간다고 한다. 여기서 생긴 궁금증이 중심극한정리는 표본들의 평균이 정규분포를 띄는 것으로 알고 있는데, 왜 표본이 정규분포를 띈다는 가정을 하는지 궁금하다]
Shapiro - Wilk Test에도 기본형이랑 확장형이 존재하는 듯 하다.
Basic Concept(기본형)은 표본이 3 ~ 50인 경우 사용하고 아래와 같이 접근 한다고 한다.
1. 우선 표본들을 오름차순으로 정렬한다.
$$ {x_1} \leq ... \leq {x_n} $$
2. SS(Sum of Square)-제곱합 구하기
$$ {\Sigma^{n}_{i=1}} ({x_i }- {\bar{x}})^2 $$
3. 표본수(n)가 짝수인 경우와 홀수인 경우 m 계산
$$ {m_{even}} = \frac{n}{2} \quad \quad {m_{odd}} = \frac{n-1}{2} $$
4. m을 이용해서 계수 b 구하기 ( a 가중치는 Shapiro Wilk Table을 참고한다.)
$$ b = {\Sigma^{m}_{i=1}} {a_i} ( {x_{n+1-i}}- {x_i} ) $$
5. Shapiro Wilk 통계치를 계산한다 . (test statistic)
$$ W= \frac{b^2}{SS} $$
6. 계산되어진 W값은 Shapiro Wilk Table을 통해서 P-value를 확인한다.
W값을 통해 p-value를 얻고 검증을 진행한다.
우선 정규성 검증을 왜 해야하는지와 Shapiro -Wilk test의 기본형을 알아보았다.
확장형은 더 어려우며 아직 기본형의 Concept도 명확하게 이해하지 못했다.
1. 제곱합으로 나눠주는 이유는 뭘까?
2. 표본수를 짝수와 홀수로 나눠서 m을 구하는 이유는 뭘까?
3. 계수 b를 구할때 사용되는 가중치 a는 왜 곱해주며, 어떻게 계산된 table일까?
4. 계수 b의 제곱이 의미하는 건 뭘까?
아무래도 Shapiro-Wilk Test가 어떻게 계산되는지 이해를 못하는 이유는 통계적 지식이 없기 때문이지 않나 싶다..
처음에는 t-test와 같은 가설검정을 하기 전 정규성 검정을 먼저 하는 것을 보고 대표되는 Shapiro Wilk Test를 먼저 살펴보았는데, 통계적 지식이 부족함을 느끼게 되었다.
이 글을 보는 분들 중 혼자서 통계학을 공부하는데 도움이 되는 자료나 사이트를 알려주신다면 감사하겠습니다 :)
또한, 해당 글에 문제가 있다면 알려주세요 !
Reference site
5. 정규분포_위키백과