샘플사이즈가 커질수록 표본평균이 흩어지는 정도가 작아져서 모평균에 가깝게 모인다. 더불어 샘플사이즈가 커질수록 표본평균의 표준편차가 작아지는 것을 확인 할 수 있음. 죽, 샘풀사이즈를 크게하면 흩어짐이 적은 신뢰할 수 있는 표본평균을 구할수 있다,
표준오차(Standard Error)
\[ 표준오차 = \frac{\sigma}{\sqrt{N}} \]
불편분산을 사용하면 편향이 사라진다. 아예 사라지는건 아니지만, 모분산으로 간주해도 좋을 만큼으로 변경된다.
더불어 샘플사이즈가 크면 불편분산은 모분산에 가까워진다.
불편성과 일치성의 개념
불편성
- 추정량의 기대값이 진짜 모수가 되는 특성
- 이는 평균을 냈을때도 과대 또는 과소가 되지않는 다는 뜻이며, 이는 곧 편향이 없는 추정량이라는 의미임
일치성
- 샘플사이즈가 커지면 추정량이 진짜 모수에 가까워지는 특성
- 이는 샘플사이즈가 무한할때 추정량과 모수가 일치하는 의미
큰수의 법칙
표본의 크기가 커지면 표본평균이 모평균에 가까워지는 방법을 표현한 법칙
- 큰수의 약한 법칙
- 큰수의 강한 법칙
중심극한정리
모집단분포가 무엇이든간에 샘플사이즈가 커지면 확률변수의 합은 정규분포에 가까워진다는 법칙
- 표본의 합계치가 정규분포를 따른다는 것
확률밀도
정규분포의 확률밀도함수
\[ N(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{(\frac{-(x-\mu)^2}{2\sigma^2})} \]
문제를 풀어봅시다.
- 평균4, 분산이 0.64(표준편차 0.8)인 정규분포에 대해 확률변수 3일때의 확률밀도 구하기
- N(3 | 4,0.64) = ?
x = 3
mu = 4
sigma = 0.8
1 / (sp.sqrt(2 * sp.pi * sigma**2)) * \
sp.exp(- ((x - mu)**2) / (2 * sigma**2)) #결과값 : 0.28
import scipy as sp
from scipy import stats
stats.norm.pdf(loc = 4, scale = 0.8, x = 3) #결과값 : 0.28
pdf = percent point function
만약 결과값이 0.5가 나왔다면 그 값은 평균값을 기준으로 좌우대칭이라는 의미이다.
(cdf = cumulative distribution function)
stats.norm.cdf(loc = 4, scale = 0.8, x = 4)
이는 데이터를 하나하나 세어보지않고 적분을 통해서 간단하게 계산 할 수 있는게 모집단분포를 정규분포라고 가정하는 장점입니다.
t값
\[t값 = \frac{표본평균 - 모평균}{표준오차} \]
728x90
반응형
'Python > 2️⃣ 데이터 처리' 카테고리의 다른 글
[머신러닝] 랜덤포레스트 예시 - Pima Indians Diabetes Database (0) | 2023.03.04 |
---|---|
[머신러닝] 결정트리 실습 - Pima Indians Diabetes Database (0) | 2023.03.03 |
1변량 & 다변량 데이터 및 시각화 방안(with python) (0) | 2023.02.13 |
불편분산은 왜 n-1로 나누지? (0) | 2023.02.12 |
[머신러닝] 타이타닉 생존자 예측하기 (0) | 2023.02.06 |