일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- JP Study
- 멀티스레딩
- MVT
- PCA
- Recommender system
- mysql
- 미래혁신대전
- 2023
- 컴퓨터 과학이 여는 세계
- 엘런 튜링
- 1463
- computer science
- 혼자 공부하는 SQL
- 백준
- Stored Procedure
- SQL
- 프로그래머스
- 퓨처셀프
- FastAPI
- 한 권으로 읽는 컴퓨터 구조와 프로그래밍
- WIL
- 문제풀이
- Til
- 선형대수
- Django
- 다시 왔다!
- Programmers
- 덴드로그램
- CS
- stored function
- Today
- Total
Growth Hoon
20230809_TIL_통계 공분산/상관계수/자유도 개념 본문
공분산이란?
- 共分散 한가지 공/ 나눌 분/ 흩을 산 이라는 한자어이다.
- 공동체를 의미하는 단어에서도 한가지 공 이라는 한자를 사용한다.
그래서 분산들을 하나로 모은 것 이라고 이해를 하였다.
- 공분산의 수식은 다음과 같은데
$$ {p_{xy}} = {\frac{1}{n-1}} {\Sigma ^{n}_{i=1}}({x_i - {\bar x}}) ({y_i - {\bar y}}) $$
한 변수에 대한 분산을 수식으로 표현하면 아래와 같다.
$$ {s}^2 = {\frac{1}{n-1}} {\Sigma ^{n}_{i=1}}({x_i - {\bar x}})^2 $$
- 위 두 식을 비교하면 분산 구하는 식에 변수 하나를 추가한 것이 공분산을 만들게 된 가설 중 하나라고 한다.
상관계수는 왜 구할까? (피어슨 상관계수)
- 우선 상관계수는 공분산을 통해서 계산하게 된다.
- 상관계수의 수식은 공분산에서 sigma 부분에서 각 변수의 표준편차를 나눠 준 것이다.
- 이렇게 해준 이유는 단위를 없애기 위함이다.
두 변수 (키 와 몸무게)의 공분산을 구하게 된다면 단위는 cm * kg 이 된다. 이러한 단위를 없애고자
표준편차로 나눠 준 것이라고 한다.
자유도는 뭘까?
위 두 식에서 표본의 수인 n으로 나눠준 것이 아니라 n-1 로 나눠 주었다.
n-1로 나눠준 이유는 자유도라는 개념 때문이라고 한다.
자유도의 개념을 깊게 살펴보지 않았지만, 여러 블로그와 수업을 통해서 간략하게 이해한 바는
마지막 선택에서 자유가 사라지기 때문이다.
예시로 일주일 동안 먹을 수 있는 음식이 7가지가 있다고 하자
요일 | 월 | 화 | 수 | 목 | 금 | 토 | 일 |
음식 | 쌀 | 보리 | 물 | 과자 | 생선 | 돼지고기 | 소고기 |
이렇게 구성이 되어있다고 한다면, 월요일에는 7가지의 음식 중 하나를 고를 수 있는 자유가 있다.
토요일에는 2가지의 음식을 고를 수 있는 자유가 있지만, 일요일에는 오직 1가지의 음식밖에 못 먹게 된다.
그래서 우리가 모집단에서 표본을 추출하고 분산을 계산하게 될 때, 평균 값이라는 정보를 가지고 있기 때문에
평균이 계산되기 위해서 1개의 표본 값은 무조건 정해져 있는 것이다. (위 일주일 식단표 처럼)
이것이 간단한 자유도의 개념이다.
좋았던 점
- 공분산의 이름을 알아보아서 의미하는바가 뭔지 알아서 좋았다.
- 공분산의 수식이 왜 그렇게 구성 되었는지도 알아서 좋았다.
- 상관계수는 공분산에서 시작되었지만 단위를 없애서 각각의 변수끼리를 수치적으로 나타내는 것을 알게 되었다.
아쉬운 점
- 자유도의 개념은 간략하게 알아보았지만, 더 자세하게 알면 도움이 될 것 같다.
- 그래서 이러한 상관계수와 데이터의 상관성을 살펴보고 머신러닝 혹은 딥러닝에 적용은 어떻게 하는지 궁금하다
reference site
2. 통계에서 자유도란?
3. 위키백과 - 공분산
'TIL_Today I Learned' 카테고리의 다른 글
20230813_TIL_파이콘 2일차 (0) | 2023.08.13 |
---|---|
20230812_TIL_파이콘/스터디 (0) | 2023.08.12 |
20230811_TIL_논리 연산/미니강의 자료준비 (1) | 2023.08.11 |
20230810_TIL_프로그래머스/알고리즘 (0) | 2023.08.10 |
20230808_TIL_동적 계획법(Dynamic Programming) (0) | 2023.08.08 |