:: ADVANCE ::

확률과 통계// 평균과 분산에 대해 정리 // 자료의 탐색 본문

Study/확률과 통계

확률과 통계// 평균과 분산에 대해 정리 // 자료의 탐색

KSJ14 2014. 9. 30. 01:50
반응형

확률과 통계.... 왜 공부하는 걸까

 

 

모든 자료는 통계분석이 필요하다.

 

본격적인 통계분석에 들어가기 앞서 어떤 분포를 띄고 있는지, 치우침이나 특이점은 없는지 파악하는 것이 중요하다.

탐색적 자료분석(exploratory data analysis)이란

자료의 특징과 내재하는 구조적 관계를 알아내기 위해 시행하는 모든 방법으로

여기서 얻은 정보를 바탕으로 통계모형을 구축한다.

자료의 분포가 실제로 정규분포에 근사하는지, 그리고 희귀분석을 시행하기 앞서 두 변수가 실제로 선형의 관계를 보이고 있는지 파악하는 것은 매우 중요한 과정이다.

 

대표값

대표값(representative value)이란 자료를 대표할 수 있는 하나의 값을 의미하며 평균(mean)과 중앙값 등이 있다.

평균(mean)이 가장 널리 사용되는 지표로

모든 관측값들을 합하고 이를 관측수로 나누어 구하며 모든 관측값들의 무게중심과도 같다.

 

관측값들을 크기 순으로 배열 하였을 때 한가운데에 존재하는 수중앙값(중위수, median)이 된다.

관측수가 짝수인 경우에는 한가운데 있는 두 수의 평균으로 중앙값을 정한다.

 

자료의 개수가 많지 않은 경에 평균은 크기가 특별히 크거나 작은 한 값에 크게 영향을 받게 되는 단점이 있지만,

중앙값은 이러한 특이점(outlier)의 영향이 제한적으로 탐색적 자료분석에서 더 선호된다.

 

예제를 계산해본 결과

평균은 큰 수(특이점)를 더했다가 나눠야 하기 때문에 영향을 많이 받고

중앙값은 특이점 자체를 계산하는 게 아니라 단순히 자료의 순서를 주고 중앙에 위치한 값을 나타내기 때문에

특이점에 큰 영향을 받지 않는다.

그저 특이점이 큰값이라면 얼마나 큰값이냐가 아니라 큰값이 하나 더 존재한다 라는 느낌.

 

 

 

 

산포도 (degree of scattering)란 자료의 흩어진 정도를 의미하며,

분산, 표준편차, 범위, 사분위수 범위 등이 해당된다.

 

분산(variance)은 개별 관측치와 평균의 차이의 제곱의 평균으로,

다시 제곱근을 구하여 원래 측정값의 차수를 맞춘 것이 표준편차(standard deviation)이다.

(자료를 분석할 때 주로 평균과 표준편차를 언급하지만, 통계적으로는 분산이 수학적으로 더 다루기 편한 경우가 많다.)

 

범위(range)란 자료의 가장 큰 값과 가장 작은 값 간의 차이이다.

만일 특별히 크거나 작은 특이점(outlier)이 포함된 경우에는 자료의 흩어진 정도를 보여주는 척도로는 적절하지 않다.

 

사분위수(quartiles)는 자료를 4등분 한 값이다.

예를 들어 400개의 값을 크기순으로 배열하여 작은 값부터 100번 째 값이 1사분위수,

200번 째 값이 2사분위수 ( 2사분위수는 중앙값과 같다.),

300번 째 값이 3사분위수이다.

사분위수 범위 (interquartile range)란 3사분위수와 1사분위수의 차이로 분포의 퍼진 정도를 표현한다.

즉, 전체 자료의 중앙에 위치한 50%의 값들이 지니는 범위이다.

사분위수는 멀리 떨어져 있는 특이점에 의한 영향을 받지 않고, 표본수에 따라서도 크게 달라지지 않는다는 장점이 있다.

 

 

탐색적 자료분석에는 [ 최소값 1사분위수 중앙값 3사분위수 최대값 ] 를 다섯수치요약(five number summary)라고 하여 자료의 특성을 파악하는데 흔히 사용한다.

 

 

 

 

왜도와 첨도

 

자료의 치우친 정도를 왜도, 뾰족한 정도를 첨도라고 하며 분포의 특징을 보여준다.

정규분포를 기준으로 오른쪽으로 치우친 분포는 음의 왜도를 갖고,

왼쪽으로 치우친 분포는 양의 왜도를 가지며,

납작한 분포는 음의 첨도를 가지며,

뾰족한 분포는 양의 첨도를 가진다.

일반적으로 왜도와 첨도가 사이가 되면 어느 정도

대칭성을 만족하고 뾰족함의 정도도 크게 벗어나지 않는 것으로 간주한다.

 

 

 

정규성 검정

 

많은 통계적인 방법들이 자료가 정규분포임을 가정하고 작동하기 때문에 자료가 정규성을 만족하는지 확인하는 것은 매우 중요하다. 이를 위해서는 탐색적 자료분석을 통해 자료의 분포 형태를 파악하고, 평균과 중앙값이 차이가 많이 나지는 않는지, 왜도와 첨도값이 -2~2 사이에 위치하는지 등을 확인하는 것이 우선 중요하다.

 

일반적으로 표본수가 30을 넘는 경우 중심극한정리에 의해 정규성을 갖는다고 가정할 수 있다.

하지만 표본수가 10~30인 경우에는 Kolmogorov-Smirnov test, Sapiro-Wilks를 통해 정규성을 검증한다.

표본수가 10 미만인 경우에는 어떤 검정법으로도 정규성을 인정받을 수 없으므로 비모수적인 통계 방법들을 사용해야 한다.

 

 

정규성 검정의 가설 설정

 

SPSS 프로그램에서는 정규성 검정을 위해 Kolmogorov-Smirnov test와 Sapiro-Wilks test를 동시에 지원한다.

정규성 검정에서는 정규성을 만족하는 것이 귀무가설로 설정된다. 그러므로 검정에 의해 p value가 0.05보다 작다면 귀무가설을 기각하여 정규성이 만족되지 않는 것이고, p value가 0.05보다 클 때 귀무가설이 채택되어 정규분포를 띈다고 간주한다.

 

하지만 여기서 귀무가설을 기각하지 못하는 것이 귀무가설이 꼭 잃음을 의미하는 것은 아니다.

"정규분포를 따르지 않는다고 말할 충분한 가치가 없다" 는 결론이 옳은 결론이다. 그러므로 적어도 자료의 개수가 10개 이상일 때에만 이 검정은 효력을 발휘한다.

 

 

[참고]  http://dermabae.tistory.com/category/%EC%9D%98%ED%95%99%ED%86%B5%EA%B3%84%20%EA%B3%B5%EB%B6%80%ED%95%98%EA%B8%B0/%EA%B0%9C%EB%85%90%20%EC%A0%95%EB%A6%AC%ED%95%98%EA%B8%B0 

 

페이지 중 '자료의 탐색 및 정규성 검정'

 

반응형
Comments