✔ Python/1. Data Science

간단한 통계 개념 정리

  • -

샘플사이즈가 커질수록 표본평균이 흩어지는 정도가 작아져서 모평균에 가깝게 모인다. 더불어 샘플사이즈가 커질수록 표본평균의 표준편차가 작아지는 것을 확인 할 수 있음. 죽, 샘풀사이즈를 크게하면 흩어짐이 적은 신뢰할 수 있는 표본평균을 구할수 있다,

표준오차(Standard Error) 

\[ 표준오차 = \frac{\sigma}{\sqrt{N}} \]

 

불편분산을 사용하면 편향이 사라진다. 아예 사라지는건 아니지만, 모분산으로 간주해도 좋을 만큼으로 변경된다.

 

더불어 샘플사이즈가 크면 불편분산은 모분산에 가까워진다.

 

불편성과 일치성의 개념

불편성

  • 추정량의 기대값이 진짜 모수가 되는 특성
  • 이는 평균을 냈을때도 과대 또는 과소가 되지않는 다는 뜻이며, 이는 곧 편향이 없는 추정량이라는 의미임

일치성

  • 샘플사이즈가 커지면 추정량이 진짜 모수에 가까워지는 특성
  • 이는 샘플사이즈가 무한할때 추정량과 모수가 일치하는 의미

큰수의 법칙

표본의 크기가 커지면 표본평균이 모평균에 가까워지는 방법을 표현한 법칙

  • 큰수의 약한 법칙
  • 큰수의 강한 법칙

중심극한정리

모집단분포가 무엇이든간에 샘플사이즈가 커지면 확률변수의 합은 정규분포에 가까워진다는 법칙

- 표본의 합계치가 정규분포를 따른다는 것

 

확률밀도

정규분포의 확률밀도함수

\[ N(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{(\frac{-(x-\mu)^2}{2\sigma^2})} \]

문제를 풀어봅시다.

  • 평균4, 분산이 0.64(표준편차 0.8)인 정규분포에 대해 확률변수 3일때의 확률밀도 구하기
  • N(3 | 4,0.64) = ?
x = 3
mu = 4
sigma = 0.8

1 / (sp.sqrt(2 * sp.pi * sigma**2)) * \
    sp.exp(- ((x - mu)**2) / (2 * sigma**2))   #결과값  : 0.28
import scipy as sp
from scipy import stats

stats.norm.pdf(loc = 4, scale = 0.8, x = 3)  #결과값  : 0.28

pdf = percent point function

 

만약 결과값이 0.5가 나왔다면 그 값은 평균값을 기준으로 좌우대칭이라는 의미이다.
(cdf = cumulative distribution function)

stats.norm.cdf(loc = 4, scale = 0.8, x = 4)

 

이는 데이터를 하나하나 세어보지않고 적분을 통해서 간단하게 계산 할 수 있는게 모집단분포를 정규분포라고 가정하는 장점입니다.

 

t값

\[t값 = \frac{표본평균 - 모평균}{표준오차} \]

728x90
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.