2021. 4. 18. 23:27ㆍRay 수학
거짓말은 세 가지로 분류됩니다. 거짓말, 새빨간 거짓말, 그리고 통계
우리는 어떤 판단을 내릴 때 수학적으로 굉장히 합리적으로 결론에 도달한다고 생각하지만 통계의 오류에 빠질 때가 많습니다. 오늘은 우리가 착각하기 쉬운 확률의 오류에 대해알아보도록 하겠습니다.
1. 대표성 전략
먼저 우리는 표본의 크기에 관계 없이 모집단과 유사하길 기대하거나
표본을 추출하는 과정이 무작위성을 반영하기를 기대합니다.
예를 들어 전체 학생의 1/3이 여자라고 하면 세명의 학생 중에서
반드시 한 명은 여자라고 기대하는 것입니다.
야구에서 타율이 1/3이라하면 3번 중 반드시 한번은 안타를 칠 것으로 기대하는 것도 이와같습니다. 이는 로또를 할 때 1,2,3,4,5,6와 1,7,13,21,33,43가 나올 확률은 같지만 후자가 더나올 가능성이 높다고 생각하 것으로도 생각할 수 있습니다.
2. 정보의 이용가능성 전략
두번째로 우리는 개인적으로 이용할 수 있는 정보에 영향을 받습니다. 예를 들어 최근에 교통사고를 목격한 경험한 사람은 그렇지 않은 사람보다 교통사고가 일어날 확률을 그렇지 않은 사람보다 훨씬 높게 추측하는 경향이 있습니다. 정보를 떠올릴 수 있는 정도, 즉 개인적으로 그 정보를 얼마나 이용 가능한가 하는 것이 확률 추정에 영향을 주는 것입니다. 한 번 실험을 해보죠.
ㄱ으로 시작하는 글자와 마지막이 ㄱ으로 끝나는 글자들 중 누가 더 많을까요?
보통 ㄱ으로 시작되는 글자가 더 많다고 생각합니다. ㄱ으로 시작하는 기차, 가지, 가방 이런단어들은 바로 떠오르지만 ㄱ으로 끝나는 단어를 생각하기에는 시간이 걸리기 때문에실제로 누가 더 많은지 따져보지 않고 ㄱ으로 시작되는 글자가 더 많다고 추정합니다.
3. 조정과 고정의 전략
세번째로 우리는 초기값에 따라서 다른 결과를 나타내는 경향이 있습니다. 8*7*6*5*4*3*2*1이 몇일까요? 반대로 1*2*3*4*5*6*7*8이 몇일까요? 조금 이상한 점을 느끼셨나요? 곱하는 순서만 다를 뿐 결과 값은 모두 40320입니다. 하지만 일반적으로 사람들은 8*7*6*5*4*3*2*1의 결과를 평균 2250을 대답하고 1*2*3*4*5*6*7*8의 결과를 평균 512로 대답했습니다. 초기값을 어떻게 정했냐에 따라 값을 다르게 추측하는 경향이 있는거죠.
4. 중심 판단 전략
네번째로 우리는 50%를 기준으로 생각하는 경향이 있습니다. 비가 올 확률이 70%라고 한다면 비가 올 것 생각하고, 비가 올 확률이 30%라고 하면 비가 오지 않을 것이라 생각합니다. 50%을 기준으로 높으면 반드시 일어나는 것으로 50%이하면 반드시 일어나지 않는다고 생각하거죠.
날씨 예보에서 말하는 ‘비 올 확률 70%’는 과거에 이와 비슷한 기상 조건이었던 날이 100일 있었다면, 그 중 70일은 비가 왔었고 나머지 30일은 비가 오지 않았다는 것을 뜻합니다. 즉, 통계적 추정치이지 70%확률로 비가 반드시 오는 것은 아님을 기억하셔야합니다.
5.심슨의 역설
다섯번째로 우리는 부분들의 평균이 크면 전체의 평균이 크다고 착각합니다.
|
여학생 |
|
남학생 |
|
|
합격 |
불합격 |
합격 |
불합격 |
A학과 |
10 |
20 |
20 |
30 |
B학과 |
50 |
20 |
30 |
10 |
대학전체 |
60 |
40 |
50 |
40 |
예를 들어 A학과에 지원한 여학생과 남학생의 합격률을 비교해보면 남학생의 합격률이더 높습니다. B학과에 지원한 여학생과 남학생의 합격률을 비교해보아도 남학생의 합격률이 더 높습니다. 그런데 대학 전체로 보면 여학생의 합격률이 남학생보다 높습니다. 부분의 평균이 크다고 전체에 대한 평균이 더 큰 것은 아니죠. 전체 통계를 낼 때 이러한 역설적인 상황이 발생한다면 중요한 변수가 무시되었거나, 각 부분의 크기나 비율이 다른데 가중치를 주지 않았기 때문일 수 있습니다. 이러한 역설을 피하는 방법은 분석하는데이터를 전반적으로 이해하고 변수에 영향을 주는 모든 요인을 고려해봐야합니다. (학생들에게 확률을 가르칠 때도 가장 어려워 하는 부분이라 실제로 가르칠 때는 경우의 수를다 따져보게 하기도 합니다.)
6. 확률계산의 오류
마지막으로 연속적인 기회는 부가적이라고 생각하는 경향이 있습니다. 예를들면 주사위를 하나 굴려서 1이 나올 확률은 1/6이다. 그렇다면 주사위 2개를 굴렸을 때 1이 나올 확률은 몇일까요? 주사위를 2개 던지므로 1이 나올 확률은 1/6*2로 1/3일 것 같지만 실제로는 11/36이 나옵니다. 이렇게 연속적인 기회를 부가적으로 생각하는 것은 차이는 작아보이지만 계속 반복되는 시행에서는 큰 차이를 불러일으킬 수 있습니다.
시각적으로 도표를 왜곡해서 확률이나 통계를 조작하는 행위도 있지만 이는 의도적인 조작이라 여기서는 다루지 않았습니다. , 오늘 수업은 여기까지 (여러분들이 아시는 다른 오류들이 있다면 댓글에 남겨주세요^^)
'Ray 수학' 카테고리의 다른 글
바젤문제와 리만 제타 함수 (0) | 2021.05.05 |
---|---|
완전순열(교란, subfactorial)을 해결하는 방법 (0) | 2021.04.25 |
답이 3개인 미해결 확률 문제 (2) | 2021.04.11 |
내각의 합이 180°가 아닌 삼각형 (0) | 2021.04.08 |
당연히 맞... 네??? (0) | 2021.04.08 |