불편분산은 왜 n-1로 나누지?

불편 분산 ?

불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다.

분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다.

다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다.

모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다.

\[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \]

분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다.

과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이해가 더 쉽습니다).

한 호수에 물고기가 7마리가 있다고합시다. 7마리의 몸길의는 다음과 같습니다
- 7마리 물고기의 몸길이는 각각 {1,2,3,4,5,6,7}
- 여기서의 (모)평균은 4가 됩니다.

호수에서 샘플링을 통해서 3마리를 낚았습니다. 그 해당 표본은 다음과 같습니다
- 3마리 표본의 몸길이는 각각 {1,2,3}
- 여기서의 (표본)평균은 2가 됩니다.

여기서 분산을 '데이터와 평균간의 거리'임으로 모평균간의 거리를 계산해야합니다.
하지만 모평균을 모르기때문에 표본평균과의 거리를 계산할수 밖에없습니다. 그렇게 되면 아래와 같이 분산이 과소평가됩니다.

이 문제를 피하기 위해 불편분산이 표본분산보다 조금 더 값이 되도록 보정하는 것입니다.

요약

1. 표본은 전체의 일부이다
2. 모분산이 과소평가됨에 따라 N-1로 나눠준다

Reference

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`