왜 통계치 p값의 오용을 주의해야 하는가?
* 이 글은 소프트웨어 개발자이자 컨설턴트인 Rufus Raghunath가 링크드인에 올린 글, Why you should care about the misuse of p-values in statistics를 번역한 글이며, 초급 소프트웨어 개발자 생존전략에 이어 그의 글에 대한 두번째 번역입니다.
통계는 어렵다고 악명이 높다. 대부분의 사람들이 통계 학습은 제쳐 두고 다른 모든 대안을 선택할 것이라는 가정에서 어려움은 형성되었다. 그럼에도 불구하고 사람들은 뚜렷한 이유없이 통계를 믿는다. 특히 광고 분야에서 인기가 매우 높은 것은 사람들을 효과적으로 설득할 수 있기 때문이다. 정부는 정책을 결정 할 때 통계에 기초한다. 그런데, 참여하는 사람들 중에서 얼마나 통계적 배경을 알고 있을까? 과학 분야에서도 영향을 받기는 마찬가지다.
며칠 전에 'p 값의 오용을 경고하는 통계 학자들'이란 기사가 네이처지에 실렸다. 이 기사는 통계 p 값이 어떻게 해석되는지에 대한 광범위한 이슈를 강조하고 있다. 이것은 과학 분야와 기술 분야 공동체 양쪽에서 중요한 이슈로 나에게 다가왔다. 여기서 그 문제를 자세히 들여다 보겠다. 그러면 p 값은 무엇이고, 여러분은 왜 신경을 써야 하는가?
p 값이란 무엇인가?
p 값을 이해하려면 기술자들이 하는 접근법으로 문제를 풀어 보는 것이 아마 최선일 것이다. 여기서 한 시나리오를 제시한다.
당신은 마케팅 연구를 진행하고 있고, 연구 내용은 브라우저 광고에서 특정 색상을 노출하면 잠재 고객이 더 자주 클릭하는지 알아 보는 일이다. 데이터를 수집한 결과 빨간색 광고가 분당 평균 0.22번, 녹색 광고는 평균 2.31번 클릭한다는 사실을 확인했다.
얼핏 보기에 녹색이 광고하기에는 더 효과적인 색깔이라고 명백히 단정할지 모르지만 조심해야 한다! 만일 무작위로 인해 현실과는 동떨어지게 나온 결과라면? (발생시키는 방법은 알려지지 않은 채 나온 우연적인 결과를 무작위라고 칭함) 그리고 만약 참가자 수가 극히 적고, 광고를 클릭하는 그들의 행동이 유별나다면 이 방법은 완전히 무용지물이 된다. 전체 마케팅 캠페인을 전개할 때 엉터리 자료에 근거해서 진행하는 실수를 범할 수도 있다. 게다가 수집된 데이터는 현실의 표본일 뿐이지 현실 그 자체는 아니다. 그렇다면 결과가 현실을 반영한 좋은 모델인지, 그래서 신뢰할 수 있는 지를 어떻게 확인할 것인가?
유의성 검증significance testing을 하면 된다. 간단히 말해 유의성 검증은 통계적인 마술 행위로서, 데이터 포인트(우리 예에서는 연구 참가자 수)와 각 그룹(빨간색이나 녹색 광고)별 평균 결과를 반영한다. 그 다음 서로 다르지 않은 그룹에서 결과 값을 구한 것인지 알아 보고자, 유사성 정도를 수치로 표시한다. 우리의 경우, 빨간색 또는 녹색 광고를 클릭한 고객들의 행동에 차이가 없다면, 0.22와 2.31 값을 각각 구한 두 그룹이 얼마나 유사성이 있는지를 값으로 나타낸다. 예를 들어, 유의성 값이 0.01 이라면 무작위로 구했을 확률은 1%에 그친다는 것을 표시한다. 이 말은 강력한 지표로 작용하여, 단지 평균값을 넘어서 두 그룹은 중대하게 다르다는 것까지 알려준다. 이것이 바로 p 값이다.
왜 통계적 유의성을 신경 써야 하는가?
이제 우리는 p 값이 무엇인지 알았다. 그러나 문제는 통계적 유의성이 아직 우리 결과에 의미 있는 차이점이 있다고 확실하게 말할 정도로 충분하지는 않다. 우선, p 값은 어느 수치까지 의미가 있는가? 관례상 우리는 p0.05를 유의한 점검으로 사용하는 경향이 있다. 즉, 무작위로 얻을 수 있는 확률이 5%미만이면 데이터는 통계적으로 유의할 수 있다. 하지만 이것은 역사적으로 사용되어 심미적인 느낌만 주는 임의의 수치에 지나지 않는다. 유전학자들은 후보 유전자 연구를 하면서, 유의성 값을 더욱 더 줄여야 한다는 것을 뒤늦게 발견하고는 많은 대가를 치루어야만 했다. 여러해동안 축적해 놓은 유전학 자료들이 신뢰할 수 없는 것으로 드러난 재앙 수준의 사건이었다.
우리가 p 값을 절대 안전지표로 간주하기 시작할 때부터 문제는 잉태된다. 비록 데이터로 입력된 것이기는 하지만, 현실에서 수치는 그저 최선의 추측 값일 뿐이다. 부주의하게 취급되는 데이터를 기반으로 정책을 수립하는 일을 가정해 본다면 수백만명의 사람들에게 영향을 미칠 수도 있다. 지금도 그런 일은 다반사로 일어나고 있다.
향후 기대감
미국 통계청(American Statistics Association)은 최근 p 값을 적용하는 역사적인 가이드 라인을 발표했다. 이것은 오래 동안 필요성이 제기 된 고무적인 조치로서, 통계 자료는 더욱 신뢰 성을 확보할 수 있을 것이다. 규제와 표준화는 통계 소비자가 데이터의 맥락을 더 쉽게 이해할 수 있도록 도와 준다. 데이터를 신뢰할 수 없는 경우라면 신뢰도를 예측이라도 할 수 있어야 한다.
기억해야 할 일이 있는데, 통계수치를 통제해야 할 언론과 과학 분야 학술지들도 편향되어 있다는 점이다. 과학 저널은 주목할만한 발견을 보고하는데만 관심이 있다. 그 결과 중요한 발견쪽으로 편향되어 출판하는 일이 벌어진다. 이는 특정 연구에서 녹색 대 적색 광고에 대해 거짓이 없는 통계 차이를 발견한 경우, 대체로 차이 나는 데이터에 대해서는 들을 수 있으나, 차이를 발견하지 못한 다른 10명의 의견은 무시되고 만다. 그이유는 다른 연구 결과들은 출판에 노출될 기회가 훨씬 낮기 때문이다. 따라서, 건전한 통계적 관행이 제자리를 잡더라도, 긍정이든 부정이든 결과가 나오면 차이가 드러난 쪽으로 쏠림 현상이 일어날 수 있다. 그 결과로 개별 데이터 세트로 구성된 그림이 전체적으로 완전하지 않을 수도 있 다.
이 글 첫머리의 네이처지에 나온 기사를 인용하자.
"P 값이 0.05 이하면, 발견 사항이 통계적으로 유의하므로 연구 논문이 보증됨을 의미한다."
그 말은 통계적 유의성이 연구 논문의 관문이어야 한다는 가정을 간결하게 표현한 것이며, 또한 그 연구 주제에 대해 우리가 이해력을 증진시켜야 함을 자체로 내포하고 있다. 그런데 현실적으로는 유의성이 있는 것과 없는 발견들이 나란히 제시되고, 우리가 맥락 속에서 데이터를 볼 수 있을 때라야, 우리는 통계에서 진정으로 의미 있는 결론을 도출할 수 있다.
다른 모든 일과 마찬가지로, 비판적이고 질문하는 마음으로 통계에 접근하는 것이 최선이다.