:: ADVANCE ::

[확률 및 통계학] 표본분산 n과 n-1 본문

Study/확률과 통계

[확률 및 통계학] 표본분산 n과 n-1

KSJ14 2014. 9. 29. 22:18
반응형

 

 

Population과 Sample은 다르다. Population은 전체 집합이고 Sample은 내가 다룰 수 있는 부분집합의 느낌?

 

만약 Population을 모두다~ 조사해서 평균과 분산을 구하면 n으로 나누는 것이 맞는 거고 

Sample을 추출하여 조사하면 n-1로 나누어야 한다.

 




또다른 Key point는 지금 SD+에 있는

평균은 Sample의 평균이지

Population의 평균이 아니라는 사실이다.

그렇다면 왜 n-1로 나누는 것일까??

예를들어 설명해 보자.

알고싶은 사실이

"내 친구 12명중 아스날의 파브레가스의 플레이를 TV를 통해 본 적이 있는

 

사람의 평균과 표준 편차를 알고 싶다고 하자."

나는 귀찮지만 12명에게 직접 다 물어봐서 Population의 응답 결과를 다 안다고 가정하고

내가 아는 아주 친한 형 훈드리아누는 딱 한번 4명의 Sample을 통해

참값을 유추해 오차가 10 보다 작으면 아이스크림을 사주는 내기를 했다고 하자.

그래서 12명 중  4명을 Sampling 했다.

나의 결과

Population = 12

응답결과 = 0 0 0 0 0 0  1 1 1 1 1 1

평균 = 0.5 SD = 0.5 (평균과 표준 편차 모두 참값임)

훈's 결과

Sample = 4

응답결과 = 0 0 0 1

평균 = 0.25 SD = 0.433

표준편차 값이 참값에 비해 너무 작다.

그 이유가 바로 True mean 인 0.5를 사용하지 않고

Sample의 mean인 0.25를 사용하였기 때문이다.


그런데 여기서 SD+ 를 사용할 경우 SD+ = 0.5로

아이스크림을 얻어 먹을 수 있는 것이다.

그러니까 n-1로 나누는 이유는

' Population의 참 평균 값을 모르기 때문에 Sampling에서 생기는

오차를 조금이나마 키워 주기 위해서 n-1로 나누는 것이다 ' 
라는 결론이다.

 

[참고] http://blog.naver.com/preciousbody/20058704671

 

 

수식적으로 증명한 것도 보고 따라 풀기도 해보았으나 

왜 그런 식이 전개가 되는 지 이해가 되지 않아서

다른 사람의 해석을 참고로 글을 올렸다.

나중에 필요하다면 증명식을 다시 찾아봐야겠다.

반응형
Comments