✔ Python/1. Data Science

불편분산은 왜 n-1로 나누지?

  • -

불편 분산 ?

불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다.

분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다.

다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다.

모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다.

 

불편 분산 계산식

\[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \]

분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다.

 

왜 분산이 과소평가 된다고 하는 걸까요?

과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이해가 더 쉽습니다).

한 호수에 물고기가 7마리가 있다고합시다. 7마리의 몸길의는 다음과 같습니다
 - 7마리 물고기의 몸길이는 각각 {1,2,3,4,5,6,7}
 - 여기서의 (모)평균은 4가 됩니다.

호수에서 샘플링을 통해서 3마리를 낚았습니다. 그 해당 표본은 다음과 같습니다
- 3마리 표본의 몸길이는 각각 {1,2,3}
- 여기서의 (표본)평균은 2가 됩니다.

여기서 분산을 '데이터와 평균간의 거리'임으로 모평균간의 거리를 계산해야합니다.
하지만 모평균을 모르기때문에 표본평균과의 거리를 계산할수 밖에없습니다. 그렇게 되면 아래와 같이 분산이 과소평가됩니다.

분산이 과소평가되는 이유(출처: Algorithm Information Computing)

이 문제를 피하기 위해 불편분산이 표본분산보다 조금 더 값이 되도록 보정하는 것입니다.

요약

1. 표본은 전체의 일부이다
2. 모분산이 과소평가됨에 따라 N-1로 나눠준다


Reference

  1. (도서) 파이썬으로 배우는 통계학 교과서
  2. 산포이론 : https://infograph.tistory.com/260
  3. 티스토리에서 수식 입력하는 방법 : https://somjang.tistory.com/entry/%ED%8B%B0%EC%8A%A4%ED%86%A0%EB%A6%AC%EC%97%90%EC%84%9C-%EC%88%98%EC%8B%9D-%EC%9E%85%EB%A0%A5%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95
  4. MathJax로 유용한 명령어 : https://www.onemathematicalcat.org/MathJaxDocumentation/MathJaxKorean/TeXSyntax_ko.html
  5. MathJax로 수식삽입규칙: https://sasamath.com/blog/tip-collection/how-to-write-equations-in-mathjax/

 

728x90
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.