
- YouTube
www.youtube.com
독립이라는 단어는 일상적인 언어에서 "서로 관련이 없다"라는 의미로 사용되곤 합니다. 하지만 그 의미 때문에 확률과 통계에서 독립의 개념을 배울 때 한 사건이 다른 사건과 아무런 관련이 없음을 의미한다고 착각하기 쉽습니다. 하지만 수학에서 독립은 한 사건의 발생이 다른 사건의 발생 확률에 영향을 미치지 않는 것을 의미합니다. 다시 말해, 어떤 조건에서든지 확률이 일정하게 유지되는 성질이죠.
두 사건
라 할 수 있습니다.
이 개념을 처음 접하는 학생들은 문제에 바로 적용하기에는 어려움이 있어 학교에서는 조건부 확률의 성질을 이용해 필요충분조건인 식을 가르치죠.
그래서 독립이란 교집합을 곱셈으로 구할 수 있다 정도로만 생각하고 끝내기 쉽상입니다. 하지만 이러한 식은 독립이 갖고 있는 의미를 전혀 반영하지 못합니다. 독립은 하나의 변수가 다른 변수에 미치는 영향을 고려하지 않아도 되므로, 분석을 단순화할 수 있다는 큰 장점이 있습니다. 표본들이 독립이라는 가정 하에, 평균, 분산 등의 통계량을 추정하기 용이하여 모집단에 대한 일반화가 가능하죠.
독립개념을 확장하기
우선 독립의 필요충분 조건을 다시 보도록 하겠습니다. 이 식 자체로도 굉장히 깔끔하지만 저는 이 식의 변수를 조금 줄여보도록 하겠습니다.
확률의 정의를 사용하면 전체 사건
이제 두 사건
독립성 확인
예를 들어보죠.
이 두 집합은 독립일까요?
확률을 이용한 독립성 확인
가장 일반적인 방법으로 확률을 이용해 독립성을 확인해보겠습니다. 전체에 대해
비율을 이용한 독립성 확인
독립을 판단하는 방법은 확률 관계뿐만 아니라 비율을 보는 방법도 있습니다.
이러한 이유로 독립을 '비율 일정의 법칙'이라 부르기도 합니다. 왜 비율이 일정하다고 하는지는 빈도 교차표를 보면 더 눈에 띄게 드러납니다. 1번 표를 보면 남자에서는 사과와 포도의 비율이
반면에 2번 표를 보면 남자에서는 사과와 포도의 비율이
이러한 성질을 알고 있다면
전체 경우의 수로 확인
마지막으로 이전에 유도한 공식을 이용할 수도 있습니다.
일부를 이용해 전체를 유도하는 방법
앞서 보았듯 독립이란 조건을 이용하면 집합
코드 작성은 어려운 작업 중 하나입니다. 특히 복잡한 프로젝트에서는 수많은 줄의 코드가 얽혀 있으며, 그 중 하나라도 잘못되면 전체 시스템이 작동하지 않을 수 있죠. 이런 상황에서 모든 오류를 찾는 것은 정말 어려운 일입니다. 만약
따라서 A가 발견한 오류와 B가 발견한 오류를 곱하고, 그 결과를 둘 다 발견한 오류로 나누면 결과적으로 전체 코드에서의 오류 개수는
A와 B가 현재 발견한 오류의 개수는 총
이 과정을 일반화 해보죠. 먼저 전체 오류의 개수와 현재 발견한 오류의 개수를 구하는 식은 다음과 같이 정의했습니다.
앞으로 찾아야 할 오류의 개수는 합집합의 여집합이므로 계산하는 식에 위의 두 식을 대입할 수 있습니다.
두 프로그래머가 찾은 오류 중 중복되지 않은 오류의 개수를 각각
이렇게 정리된 식은 우리에게 많은 정보를 줍니다. 먼저 A와 B가 각각 자신들만 찾은 오류가 많고, 둘 다 찾아낸 오류의 개수가 작다면, 여전히 많은 오류가 남아 있을 것이라는 우리의 추측과 잘 맞아 떨어집니다. 그리고 이 식에는 두 프로그래머가 얼마나 오류를 잘 찾아내는지를 나타내는 정확도에 대한 내용이 없습니다. 그럼에도 불구하고 독립적이라는 성질만으로 전체를 꽤 정확하게 추측 할 수 있음을 보여줍니다.
포획-재포획법
자연의 세계에서는 종종 숨겨진 것들을 발견하고 이해하려는 노력이 필요합니다. 그리고 앞서 소개한 방법은 포획-재포획법이라 불리는 방법으로 독립이라는 성질을 이용해 전체 사례를 추정할 수 있게하죠.
한 예를 더 들어보겠습니다. 특정 질병의 발병률을 정확하게 파악하는 것은 그 질병의 예방과 치료에 있어 중요한 역할을 합니다. 하지만 실제로는 모든 환자를 대상으로 검사하기 어려운 경우가 많습니다. 이런 상황에서 두 개의 독립된 검사 방법을 사용하여 질병의 실제 발병률을 추정하는 방법을 살펴보겠습니다.
먼저, 검사 방법 A와 B를 도입해보겠습니다. 검사 방법 A는 특정 지역의 환자 중
이제 두 검사 방법의 독립성을 이용하여 전체 발병률을 추정해보겠습니다. 포획-재포획법을 사용하여 전체 발병률을 계산하면 다음과 같이 됩니다.
이 수식은 전체 환자 중 질병에 걸린 환자의 수가
이 방법은 두 개 이상의 독립된 시장 조사를 통해 특정 제품의 잠재 고객 수나 특정 지역의 소비자 행동을 분석하거나 독립된 데이터를 활용하여 누락된 정보나 알려지지 않은 정보를 예측할 수도 있습니다. 독립은 이처럼 다양한 분야에서 복잡한 문제를 해결하는 강력한 도구로 자리 잡았습니다. 여러분도 일상에서 독립된 정보를 통해 더 정확한 판단을 내리는데 도움이 되길 바랍니다.

You know what's cooler than magic? Math.
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!