본문 바로가기

연재자료실

읽고 따라하면서 끝내는 통계학(6~8) : 추론 통계학의 이해

한국빅데이터교육협회에서는 일반인들도 쉽게 통계학을 이해하고

어려운 수학 수식 등을 사용하지 않고도 엑셀 등 기본 프로그램에서 통계학을 활용할 수 있도록 자료를 제공합니다.

본 자료는 출판예정자료이거나 저작권 등록이 된 자료를 요약 기술한 것이므로 상업적으로 활용할 수는 없습니다.

 

06_추론 통계학이란 무엇인가요?

 

추론 통계학이란,

전체 데이터를 알 수 없기 때문에 평균, 편차, 합 등을 바로 계산할 수 없을 때

짐작(추론)해서 값을 구하는 통계 방법을 말해요.

반대로 말하면 모든 데이터를 알고 있어서 바로 계산할 수 있을 때 사용하는 방법은 기술통계학이 되겠네요.

 

예를 들어볼께요.

우리 나라 국민들이 올림픽 여자 배구 결승전을 얼마나 시청했는지 알고 싶은데,

전 국민들에게 일일이 물어볼수는 없겠죠?

 

그래서 닐슨이라는 TV 시청률 조사 기관에서는

지역, 연령, 성별 등으로 구분된 500가구 정도에만 시청률 조사용 수신기를 달아둔답니다.

그리고 이 500가구의 시청률을 바탕으로 전체 국민들의 시청률이 어느 정도인지를 추론해보는 거죠.

 

이 때, 원래 조사해야 할 전체 국민을 모집단이라고 하고, 실제 조사한 500가구를 표본이라고 해요.

즉, 추론 통계학이란 표본만을 조사해서 모집단이 실제 어떻게 구성되어 있는지를 알아보는 통계학이랍니다.

표본으로 미루어 짐작하기 때문에 추론(推論)이라고 하는 거죠.

 

다음 사례를 분석해 볼까요?

 

※ 다음 설문 조사에서 모집단과 표본을 고르시오.

 

금년 4월 국회의원 총 선거에서 부산 사하구의 A 정당 당선자를 예측하기 위해 유권자 전체 중

에서 사하구 유권자를 추출한 뒤, 사하구 유권자 중에서 300명에게 지지 후보를 물었다.

 

자, 위 질문은 사하구 국회의원을 뽑기 위해 사하구 유권자 전체의 생각을 알고 싶어 하는 거죠?

즉, 모집단은 사하구 유권자입니다. 그런데 다 물어볼 수 없으니 300명만 뽑았습니다.

300명이 표본이 되는 것이죠.

이제 모집단과 표본의 개념은 확실히 아셨죠?

 

 

07_그럼 표본이 진짜 맞는지도 계산할 수 있나요?

 

네. 추론 통계학에서 가장 중요한 것은 과연 표본이 모집단을 확실히 대표하는 지를 확인하는 것입니다.

그래서 가장 먼저 해야 할 일은 이 표본이 몇 %의 확률로 모집단을 대표하는지 가설을 세우는 일입니다.

 

예를 들어볼까요?

명절에 가족들이 모여 내기 고스톱을 치고 있습니다.

그런데, 삼촌이 연속으로 10번 쓰리고를 하면서 돈을 다 따는 거에요.

솔직히 고스톱에서 10번 연속 쓰리고가 나올 확률은 몇 %일까요?

돈을 잃은 가족들이 의심하면서 뭔가 가설을 세우기 시작합니다.

 

자 우리도 가설을 세워봅시다.

만약 진짜 10번 연속 쓰리고가 나올 확률이 1%가 넘으면

있을 수 있는 일이라고 생각하고 넘어가 주자는 가설을 세워보는 거에요.

1%도 안되는 확률이라면 있을 수 없는 일이며, 삼촌이 사기꾼이라고 생각하면 되겠죠?

 

이 때, 1%는 돈을 잃은 ‘나’의 입장에서 세운 기준입니다.

근데 실제로 확률 계산을 해보니 연속 10번 쓰리고가 나올 확률이 0.05%밖에 안되는 거에요.

그렇다면 5% 이상이면 인정해주자는 내 가설이 틀렸죠?

내 가설이 틀렸으니 삼촌은 사기꾼인 거에요.

 

이렇게 추론 통계학에서는 실제 표본이나 사건에 대해 일어날 확률이 얼마(%)인지 가설을 세워서 그

확률 이상이면 맞다고 하고 그 확률 이하이면 틀렸다고 결론을 내린답니다.

 

이 때, 처음 ‘맞다’고 세운 가설을 귀무가설, 귀무가설이 틀려서 문제가 있을 때를 대립가설이라고 합니다.

그리고 이렇게 가설을 세워서 통계를 내는 것을 ‘검정(가설 검정)’이라고 합니다.

 

이렇게 검정을 통해 통계를 낼 때는 몇 % 이상이면 맞다, 몇 % 이상이면 틀렸다는 기준을 세워야겠죠?

그 기준은 보통 0.1~10% 수준인데, 가설을 세우는 사람에 따라 달라진답니다.

예를 들어, 어떤 제약회사에서 불량품이 10% 이상이면 불량이라고 가설을 세운다고 해봅시다.

약은 하나만 잘못되어도 누군가가 먹고 죽을 수 있잖아요?

따라서 제약회사는 10%가 아니라 0.1% 이상이면 약이 문제 있다고 해야겠죠?

 

반면, 포카리스웨트 300ML를 파는 회사에서 295ML 이하 용량이면 불량이라고 할 때, 불량률을 10%로 잡았습니다.

제약 회사랑 다르게 음료 용량은 미세하게 차이날 수 있으니, 10%로 잡아도 상관없을 것입니다.

이렇게 기준점이 되는 수치를 잡아야 하는데, 통계학에서는 이것을 유의수준(%)이라고 합니다.

 

 

08_그렇다면 가설이 아닌 추론 통계학도 있나요?

 

네. 가설을 검증하는 것이 아니라

표본이 전체에서 어느 위치에 있는지를 확인하는 추론 통계학을

구간 추정, 즉 추정이라고 합니다.

 

추정은 표본 일부를 추출하여, 표본이 어느 정도 신뢰성이 있는지,

혹은 데이터 전부를 대표하려면 최소한 표본이 몇 개 필요한 지 등 표본 자체에 대해서 추론하는 통계학이랍니다.

 

자, 그러면 간략하게 통계학의 각 영역을 둘러보았으니 본격적으로 통계학에 대한 이야기를 시작해볼까요?

 

한국빅데이터교육협회, 대학기초학습능력진단, NCS, 직업기초능력진단, 대학역량진단, 빅데이터 분석, 엑셀 과정

통계분석과정, 기업채용대행, 기업평가, OMR 제작 분석, 데이터 통계, 기초학습평가, NCS 진단, 직업기초능력평가, 추론통계학