여러분들이 무작위적으로 데이터를 뽑고 그 안에 있는 숫자를 관찰한다고 하자.
그랬을 때 그 숫자들의 맨 앞자리 숫자들이 있을 것이다.
그렇다면 그 앞자리 숫자들은 동등하게 나올까?
맨 앞자리 수는 1부터 9까지 총 9개이므로 모두 동등하게 11.1%의 확률로 나올 것 같다.
하지만 진짜 데이터들은 그렇게 나오지 않았다.
진짜 데이터들의 숫자들은 어떻게 분포되어 있을까?
부푼 마음을 붙잡고 공부를 해보고자 책을 사면
항상 앞 단원만 풀고 의지가 빈약해지는 경향이 있었을 것이다.
예를들면 수학의 정석을 사면 집합만 주구장창 풀었던 기억말이다.
미국의 천문학자 사이먼 뉴컴(1835~1909)은 1881년에
로그표가 담긴 책을 보면서 앞쪽 페이지가 뒤쪽 페이지보다
더 닳아 있다는 것을 발견했다.
물리학자 프랭크 벤포드(1883~1948)는 뉴컴의 이런 발견을 1938년에 공식화했다.
벤포드는 335개의 강의 표면적, 104개의 물리학 상수,
1800개의 분자 무게, 5000개의 수하객 등
20개 분야 자료들의 첫 자리 수 분포를 분석해 자신의 이름을 붙여
‘벤포드의 법칙’을 내놓았다.
벤포드의 법칙은 자료에서 숫자가 나오는 빈도는 일정하지 않고
1,2,3, 순으로 더 많이 나온다는 것을 수학적으로 보여주는 법칙이다.
왜 이렇게 되는지 쉽게 설명해보겠다.
만약 우리가 하루에 10000원을 번다고 해보자. 이 때 첫 자리는 1이다.
이 경우 우리가 하루에 20000원을 벌기 위해서는 즉 첫 자리를 2로 만들기 위해서는
일을 100% 더 많이 해야 한다.
그런데 만약 우리가 평소 하루에 9000원을 번다고 해보면 이 때 첫 자리는 9이고
이 때 우리가 하루에 10000원을 벌기 위해서는 즉 첫 자리를 1으로 만들기 위해서는 11%만 더 많이 일하면 된다.
이를 해석해보면 숫자가 1,2,3 일 때는 바뀌기 어렵고
7,8,9 일 때 더 바뀌기 쉬우므로 결과적으로
1,2,3 순으로 비율이 몰릴 수 밖에 없는 것이다.
극도로 임의적인 자료, 정규분포나 균일 분포를 따르는 데이터에는이것이 성립하지 않지만 이것이 '법칙'이라는 이름으로 불리는데는 그 만한 이유가 있다.
그 자료가 단위불변성(scale invariance)을 가진다면 수학적으로 벤포드의 법칙은 성립된다는게 밝혀졌기 때문이다.
그렇다면 이러한 벤포드의 법칙은 어디에 응용될 수 있을까?
먼저 데이터의 진위 판별에 유용하게 쓰일 수 있다.
실제 이를 보인 연구가 있었다.
MIT Technology Review에 의하면,
미국 메릴랜드 대학교의 제니퍼 골벡(Jennifer Golbeck) 교수(컴퓨터 과학)는
2015년 소셜네트워크의 데이터와 벤포드 법칙의 관계에 대한 연구 결과를 발표했다.
골벡 교수는 페이스북, 트위터 등의 계정들에서
팔로워의 숫자와 벤포드 법칙과 관계를 살펴봤다.
그 결과 놀랍게도 대부분의 숫자가 법칙과 잘 들어맞는 것을 발견한 것이다.
예를 들어 조사한 트위터 계정 2만1천개의 경우
대부분이 0.9 이상의 상관계수(최대 1)로 벤포드 법칙의 비율과 유사하게 나타났다.
단지 170개 계정만이 0.5 미만의 상관계수를 보였는데
이들 계정을 자세히 조사해 보니 대부분이 진짜 사람이 운영하지 않는
이른바 ‘트윗봇’이라는 허구의 계정이었던 것이다.
벤포드 법칙은 대량의 숫자가 발생하는 금융 데이터 등에서 유용하게 쓰일 수 있다.
국세청이나 공정거래위원회에서는 이 법칙을 응용해 회계부정 여부를 판단한다.
감사기관은 기업 회계장부의 첫 자리 수로 그래프를 그렸을 때
그래프가 벤포드 법칙에 위배되면 그 기업을 조사 하기 시작한다.
일반적으로 기업의 회계장부를 조작할 때
첫 자리 수를 거의 같은 빈도로 조작하기 때문이다.
실제로 그리스의 분식 회계 장부조작도 벤포드 법칙에 의해 밝혀졌다.
이렇게 우리 주변에는 상식과 반대되는 현상들이 존재한다.
그리고 이러한 현상에 대해 수학은 이를 설명하기 위해 노력한다.
아직 벤포드의 법칙을 엄밀하고 완벽하게 증명하진 못했지만
늘 그랬듯이 우리는 답을 찾을 것이다.
You know what's cooler than magic? Math.
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!