분석을 하다 보면 갑자기 동떨어진 값이 나타날 수 있는데, 이를 이상치라고 하고, 점추정 및 통계적 추론을 통하여 신뢰구간을 구하는 방법이 있습니다. 이번시간에는 이상치와 신뢰구간을 구하는 방법과 안전한 통계처리 것까지 함께 알아보도록 하겠습니다.
이상치
측정값의 분포도를 작성해보면 대부분 측정값들과 확연히 다른 몇 개의 측정값들이 있습니다. 이렇게 떨어진 값들을 이상치라고 하며, 이 값들은 산술평균과 분산에 영향을 줍니다. 이상치가 나타나는 이유는 측정상 및 기록상 오류인 경우가 있지만 이유를 알 수 없이 이상치가 나타나는 경우도 있습니다. 분석 시 이러한 이상치를 제외하는 것이 통계의 오류를 줄일 수 있는 방법입니다.
신뢰구간
신뢰구간을 알기 전 먼저 통계적 추론이라는 어려운 단어를 접해야됩니다. 모집단 및 표본에서 얻어진 데이터를 기초로 모집에 대한 결론을 가장 잘 이끌어낼 수 있는 방법에는 2가지 방법이 있는데요. 점추정과 구간추정입니다. 점추정은 모집단의 모수를 단일 값으로 추정하는 방법이며, 구간추정은 모수를 한 값으로 추정하기보다는 모수가 속할 가능성이 높은 구간을 설정하고 이 구간 내 모수가 들어있다고 가정하는 추정방법입니다.
표본수가 클때
임의의 한 표본을 추출하여 산술평균을 계산하였을 때 나온 그 산술평균이 분포 범위 안에 있을 확률은 95%이며, 임의의 산술평균에 이 구간을 작성하면 구간 내에 모집단 산술평균 m가 있을 확률도 95%가 됩니다. 즉, 간단하게 정리하면 표본산술평균들의 95%가 이 구간에 포함이 되기 때문에 이 구간 내 산술평균들에 대해 이 구간을 작성하면 이 구간은 모평균 m를 포함하지만 이 구간 외에 산술평균들에 대해 구간을 작성하면 이 구간은 모평균 m을 포함하지 않게 된다. 이때, 모집단 평균값 m에 대한 95%의 신뢰구간이라 하며 95%를 신뢰도라고 합니다.
표본수가 작을 때
표본수가 작으면 표본수가 클 때에 비해 2가지가 달라지게 됩니다. 첫 번째 표본의 표준편차 s는 모집단 표준편차 a에 근사하지 않으며, 두 번째로는 모집단이 정규분포를 하지 않으면 표본분포도 정규분포를 하지 않습니다. 따라서 신뢰구간 계산 시 정규분포를 이용할 순 없지만 대신 t분포를 사용합니다. 표준정규분포를 따르는 변수 z대신에 t를 사용하고, t값은 아래처럼 표식 됩니다. t=x-m/s 표본수가 작을 때의 특징은 3가지가 있는데, t=0을 중심으로 좌우가 대칭이고, s제곱을 계산할 때 사용되는 자유도 n-1에 따라 각기 다른 분포를 갖게 되므로 t분포는 여러 분포의 군이 됩니다. 마지막 세 번째는 자유도가 커질수록 정규분포에 가까워지게 됩니다.
'통계상식' 카테고리의 다른 글
정규분포와 표준정규분포 (0) | 2023.07.30 |
---|---|
자유도의 개념과 신뢰구간 (0) | 2023.04.09 |
비확률표본 추출방법 알아보기 (0) | 2023.04.01 |
통계를 배워야 하는 이유 (0) | 2023.03.28 |