:: ADVANCE ::
[확률 및 통계학] 표본분산 n과 n-1 본문
Population과 Sample은 다르다. Population은 전체 집합이고 Sample은 내가 다룰 수 있는 부분집합의 느낌?
만약 Population을 모두다~ 조사해서 평균과 분산을 구하면 n으로 나누는 것이 맞는 거고
Sample을 추출하여 조사하면 n-1로 나누어야 한다.
또다른 Key point는 지금 SD+에 있는
평균은 Sample의 평균이지
Population의 평균이 아니라는 사실이다.
그렇다면 왜 n-1로 나누는 것일까??
예를들어 설명해 보자.
알고싶은 사실이
"내 친구 12명중 아스날의 파브레가스의 플레이를 TV를 통해 본 적이 있는
사람의 평균과 표준 편차를 알고 싶다고 하자."
나는 귀찮지만 12명에게 직접 다 물어봐서 Population의 응답 결과를 다 안다고 가정하고
내가 아는 아주 친한 형 훈드리아누는 딱 한번 4명의 Sample을 통해
참값을 유추해 오차가 10 보다 작으면 아이스크림을 사주는 내기를 했다고 하자.
그래서 12명 중 4명을 Sampling 했다.
나의 결과
Population = 12
응답결과 = 0 0 0 0 0 0 1 1 1 1 1 1
평균 = 0.5 SD = 0.5 (평균과 표준 편차 모두 참값임)
훈's 결과
Sample = 4
응답결과 = 0 0 0 1
평균 = 0.25 SD = 0.433
표준편차 값이 참값에 비해 너무 작다.
그 이유가 바로 True mean 인 0.5를 사용하지 않고
Sample의 mean인 0.25를 사용하였기 때문이다.
그런데 여기서 SD+ 를 사용할 경우 SD+ = 0.5로
아이스크림을 얻어 먹을 수 있는 것이다.
그러니까 n-1로 나누는 이유는
' Population의 참 평균 값을 모르기 때문에 Sampling에서 생기는
오차를 조금이나마 키워 주기 위해서 n-1로 나누는 것이다 ' 라는 결론이다.
[참고] http://blog.naver.com/preciousbody/20058704671
수식적으로 증명한 것도 보고 따라 풀기도 해보았으나
왜 그런 식이 전개가 되는 지 이해가 되지 않아서
다른 사람의 해석을 참고로 글을 올렸다.
나중에 필요하다면 증명식을 다시 찾아봐야겠다.
'Study > 확률과 통계' 카테고리의 다른 글
확률과 통계// 평균과 분산에 대해 정리 // 자료의 탐색 (0) | 2014.09.30 |
---|---|
[확률 및 통계학] 사분위수 (0) | 2014.09.29 |
[확률 및 통계학] Ch 5. 통계학 변동의 척도 (0) | 2014.09.29 |
[확률 및 통계학] Ch 5. 통계학 (0) | 2014.09.29 |
[확률 및 통계학] Ch 2. 균등 분포 (0) | 2014.09.28 |