불편 분산 ?
불편분산은 표본분산이 모분산(모집단의 분산)에 비해 분산을 과소평가하면서 이를 보정하기 위해 나온 개념입니다.
분산을 계산하기위해서는 사전에 평균값을 알고 있어야합니다. 하지만, 표준평균값은 표본에서 구한 값입니다.
다시말해, 모집단의 평균값과는 당연히 그 차이가 발생하게 됩니다.
모평균과 차이가 있는 표본평균을 사용하여 표본분산을 예측하다보니 모분산 추정에 비약이 발생하게 됩니다.
불편 분산 계산식
\[ \sigma^2 =\frac{1}{N-1} \sum_{i=1}^N (x_i - \mu)^2 \]
분모가 n-1이 되어 조금 작아지기때문에 표본분산보다 더 살짝 큰 값을 가지게됩니다.
왜 분산이 과소평가 된다고 하는 걸까요?
과소평가되는 부분은 예시를 통해서 설명하도록 하겠습니다(그래야 이해가 더 쉽습니다).
한 호수에 물고기가 7마리가 있다고합시다. 7마리의 몸길의는 다음과 같습니다
- 7마리 물고기의 몸길이는 각각 {1,2,3,4,5,6,7}
- 여기서의 (모)평균은 4가 됩니다.
호수에서 샘플링을 통해서 3마리를 낚았습니다. 그 해당 표본은 다음과 같습니다
- 3마리 표본의 몸길이는 각각 {1,2,3}
- 여기서의 (표본)평균은 2가 됩니다.
여기서 분산을 '데이터와 평균간의 거리'임으로 모평균간의 거리를 계산해야합니다.
하지만 모평균을 모르기때문에 표본평균과의 거리를 계산할수 밖에없습니다. 그렇게 되면 아래와 같이 분산이 과소평가됩니다.
이 문제를 피하기 위해 불편분산이 표본분산보다 조금 더 값이 되도록 보정하는 것입니다.
요약
1. 표본은 전체의 일부이다
2. 모분산이 과소평가됨에 따라 N-1로 나눠준다
Reference
- (도서) 파이썬으로 배우는 통계학 교과서
- 산포이론 : https://infograph.tistory.com/260
- 티스토리에서 수식 입력하는 방법 : https://somjang.tistory.com/entry/%ED%8B%B0%EC%8A%A4%ED%86%A0%EB%A6%AC%EC%97%90%EC%84%9C-%EC%88%98%EC%8B%9D-%EC%9E%85%EB%A0%A5%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95
- MathJax로 유용한 명령어 : https://www.onemathematicalcat.org/MathJaxDocumentation/MathJaxKorean/TeXSyntax_ko.html
- MathJax로 수식삽입규칙: https://sasamath.com/blog/tip-collection/how-to-write-equations-in-mathjax/
'Python > 2️⃣ 데이터 처리' 카테고리의 다른 글
간단한 통계 개념 정리 (0) | 2023.02.14 |
---|---|
1변량 & 다변량 데이터 및 시각화 방안(with python) (0) | 2023.02.13 |
[머신러닝] 타이타닉 생존자 예측하기 (0) | 2023.02.06 |
[머신러닝] 사이킷런으로 시작하는 머신러닝 (0) | 2023.02.06 |
[알고리즘] 각도기 (0) | 2023.01.12 |