정규분포는 변수가 연속적으로 나타나는 연속변수의 분포 중에서 가장 기본적인 분포입니다. 원래 처음 정규분포는 독일의 수학자인 K.F. Gause를 뜻하는 것을 내포하기도 하며 동의어로 가우스분포라고도 불립니다. 간단하게 정리하면 정규분포의 곡선은 하나가 아니라 모집단의 값에 따라 여러 개가 될 수 있는 특징이 있습니다.
표준정규분포
정규분포는 측정값에서 모평균 값의 m(뮤)를 빼주면 평균값이 0이 됩니다. 이때 측정값을 (x-m)로 치환하여 주면 모든 정규분포의 평균값을 0으로 일치시킬 수 있습니다. 하지만 이렇게 계산할 경우 표준편차 값에 따라 많은 형태의 정규분포가 존재하게 될 수 있는 모순이 생기게 됩니다. 다만, 위에 x-m로 치환한 값을 a로 나눠주게 되면 정규분포의 표준편차가 1이 되기 때문에 모든 정규분포를 평균값 0, 표준편차 1인 하나의 정규분포를 만들 수 있습니다. 이 정규분포의 공식은 z=(X-m)/a로 나타냅니다. 공식을 자세하게 설명을 하면, X는 평균이 m이 되고, 표준편차는 a인 분포를 하는 변수로 볼 수 있습니다. 따라서 정규분포 전체를 의미하는 Z는 X가 치환된 값으로서 표준정규분포를 따르는 표준정규분포 변수로 볼 수 있습니다. 즉, 결과를 재정리하면 X값을 Z값으로 치환하여 모든 정규분포는 표준정규분포로 환산할 수 있게 되고, 정규분포 안에서 임의의 두 지점 간의 면적을 계산하기 위해 일일이 적분해야 되는 번거로움이 적어지게 됩니다.
표준정규분포 예시
표준정규분포를 사용하여 예제를 한번 계산해보도록 하겠습니다. 한국인 30세 혈압을 측정한 결과의 m=120 표준편차 a=10인데 정규분포를 따른다고 가정을 해볼게요. 이때, 이 집단에서 혈압이 140 이상인 사람의 분율(proportion)은 과연 얼마일까요? 위 공식에 대입을 해보면 z=(140-120)/10=2가 됩니다. 측정값 140은 표준정규분포하의 z값이 2가 되기 때문에 면적의 계산은 1-0.9772=0.0228이 되게 됩니다. 즉, 해석해 보면 혈압이 140 이상인 사람의 분율은 2.28%가 됩니다.
표본평균의 분포
구하고자 하는 모집단에서 같은 크기의 가능한 표본을 추출하고자 할 때, 각 표본으로부터 계산한 통계량으로 이루어지는 분포를 표본분포라고 합니다. 모집단에서 하나의 확률표본을 추출해 평균값과 분산을 계산하였을 때 이 값이 모집단의 값과 같을지? 라고 생각한다면 no입니다. 거의 대부분 다를 것이고 표본에서 얻어진 값을 모집단의 대응되는 값으로 사용할 수가 없게 됩니다. 표본평균에서 표본분포와 모집단 분포 사이에는 하나의 법칙이 존재하게 되는데, 표본의 평균값이 모집단의 평균값과 항상 같지는 않으나 표본평균 분포의 평균값은 모집단의 평균값과 같습니다.
중심극한정리
표본평균의 분포는 모집단이 정규분포를 하지 않더라도 표본분포를 얻는데 사용된 표본수가 클수록 정규분포에 가까워지는데 이를 중심극한정리라고 합니다.
'통계상식' 카테고리의 다른 글
이상치와 신뢰구간 (0) | 2023.07.30 |
---|---|
자유도의 개념과 신뢰구간 (0) | 2023.04.09 |
비확률표본 추출방법 알아보기 (0) | 2023.04.01 |
통계를 배워야 하는 이유 (0) | 2023.03.28 |