Growth Hoon

20230809_TIL_통계 공분산/상관계수/자유도 개념 본문

TIL_Today I Learned

20230809_TIL_통계 공분산/상관계수/자유도 개념

sayhoon 2023. 8. 9. 21:46

공분산이란?

- 共分散 한가지 공/ 나눌 분/ 흩을 산 이라는 한자어이다.

- 공동체를 의미하는 단어에서도 한가지 공 이라는 한자를 사용한다.

  그래서 분산들을 하나로 모은 것 이라고 이해를 하였다.

- 공분산의 수식은 다음과 같은데

$$ {p_{xy}} = {\frac{1}{n-1}} {\Sigma ^{n}_{i=1}}({x_i - {\bar x}}) ({y_i - {\bar y}}) $$

 

  한 변수에 대한 분산을 수식으로 표현하면 아래와 같다.

$$ {s}^2 = {\frac{1}{n-1}} {\Sigma ^{n}_{i=1}}({x_i - {\bar x}})^2 $$

- 위 두 식을 비교하면 분산 구하는 식에 변수 하나를 추가한 것이 공분산을 만들게 된 가설 중 하나라고 한다.

 

상관계수는 왜 구할까? (피어슨 상관계수)

- 우선 상관계수는 공분산을 통해서 계산하게 된다.

- 상관계수의 수식은 공분산에서 sigma 부분에서 각 변수의 표준편차를 나눠 준 것이다.

- 이렇게 해준 이유는 단위를 없애기 위함이다.

  두 변수 (키 와 몸무게)의 공분산을 구하게 된다면 단위는 cm * kg 이 된다. 이러한 단위를 없애고자

  표준편차로 나눠 준 것이라고 한다.

 

 

자유도는 뭘까?

위 두 식에서 표본의 수인 n으로 나눠준 것이 아니라 n-1 로 나눠 주었다. 

n-1로 나눠준 이유는 자유도라는 개념 때문이라고 한다. 

 

자유도의 개념을 깊게 살펴보지 않았지만, 여러 블로그와 수업을 통해서 간략하게 이해한 바는

마지막 선택에서 자유가 사라지기 때문이다.

예시로 일주일 동안 먹을 수 있는 음식이 7가지가 있다고 하자

요일 수  금  토 
음식 보리  물  과자 생선 돼지고기  소고기

이렇게 구성이 되어있다고 한다면, 월요일에는 7가지의 음식 중 하나를 고를 수 있는 자유가 있다.

토요일에는 2가지의 음식을 고를 수 있는 자유가 있지만, 일요일에는 오직 1가지의 음식밖에 못 먹게 된다.

 

그래서 우리가 모집단에서 표본을 추출하고 분산을 계산하게 될 때, 평균 값이라는 정보를 가지고 있기 때문에

평균이 계산되기 위해서 1개의 표본 값은 무조건 정해져 있는 것이다. (위 일주일 식단표 처럼)

 

이것이 간단한 자유도의 개념이다.


좋았던 점

- 공분산의 이름을 알아보아서 의미하는바가 뭔지 알아서 좋았다.

- 공분산의 수식이 왜 그렇게 구성 되었는지도 알아서 좋았다.

- 상관계수는 공분산에서 시작되었지만 단위를 없애서 각각의 변수끼리를 수치적으로 나타내는 것을 알게 되었다.

 

아쉬운 점

- 자유도의 개념은 간략하게 알아보았지만, 더 자세하게 알면 도움이 될 것 같다.

- 그래서 이러한 상관계수와 데이터의 상관성을 살펴보고 머신러닝 혹은 딥러닝에 적용은 어떻게 하는지 궁금하다

 

 

reference site

1. 위키백과- 피어슨 상관계수

2. 통계에서 자유도란?

3. 위키백과 - 공분산

4. 공분산의 정의와 의미 - 티스토리 블로그