'아브라모비치-스테군'에 해당되는 글 1건

  1. 2010/05/29 아브라모 뭐? (2)
아브라모비츠-스테군(Abramowitz & Stegun)이란 게 있다. 밀튼 아브라모비츠(Milton Abramowitz)와 아이린 스테군(Irene Stegun) 두 사람이 미국 표준국(U.S. National Bureau of Standards, 현재는 National Institute of Standards and Technology, NIST로 개편)에서 Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables 편찬 작업을 맡아서 1964년 발행했는데, 제목 그대로 온갖(인간이 떠올려서 사용한 건 모두라고 보면 된다) 함수와 그래프 및 함수의 계산값을 도표로 정리한 핸드북 아닌 핸드북이다. Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables이라니, 그놈의 작명 센스 한번... 끌끌하고 혀를 찰 수도 있겠지만, 이런 책 제목은 그저 디스크립티브(descriptive)한 게 미덕임. 이런 책에다가 "인간 대수학 및 함수론 지식 한계" 따위의 제목을 붙였다간 그거야 말로 낭패.

그리고 이 출판물의 애칭(?)으로 그냥 두 사람의 이름을 빌려서 아브라모비츠-스테군이라고 한다. 아무튼 열흘쯤 전에 NIST가 이 핸드북을 온라인으로 풀었는데 경제학 이야기나 하느라고 모르고 있었다. (너불형님이 I thought you were a physicist라고 할 만하군. -_-a) 물론 이 책이 나오고 1964 불과 2-30년 사이에 대부분의 계산은 컴퓨터가 도맡아 하게 되면서, 이 책의 쓸모는 상당히 줄었지만, 당시에는 여기저기 흩어져 있던 다양한 함수들의 특성과 함수의 계산값을 일목요연하게 정리한 one book that rules them all-_-,,로서 꽤나 의미있는 일이었다. 어떻게 보면 1964년까지의 이론 물리학과 응용 수학의 역사가 담긴 책자다.


곱셈에서 덧셈으로

이 책에 실린 다양한 함수들 중에는 고등학교 때 배우는 log 함수(지수함수)도 포함돼 있다. 고등학교 때 다들 지긋지긋해 했던 건 아는데, 이 지수함수란 게 prime number theory부터 할 이야기가 많은 함수지만, 그런 복잡한 얘기들은 다 집어 치우고, 이 지수함수가 아주 유용하게 써먹히는 동네가 하나 있다. 바로 곱셈이다. 응?

자, 이야기를 더 진행하기에 앞서 퀴즈 하나. 2.64 + 1.32 = ? 너무 쉽다고? 그럼 2.65 x 1.32 = ? 계산하기 귀찮아. -_-,, 그렇다, 자릿수만 맞출줄 알면 거의 어지간한 건 다 암산으로 가능한 덧셈에 비해 곱셈은 너무 너무 성가시고 복잡하다. 곱셈은 구구단을 외워야만 가능하지만, 덧셈표 따위를 외우는 일은 없는 것도 마찬가지. 나눗셈으로 들어가면 한술 더 뜬다. 사칙연산이라고 해서 덧셈, 뺄셈, 곱셈, 나눗셈을 한묶음 취급하지만 사실 인간에겐 덧셈, 뺄셈이 곱셈, 나눗셈에 비해 훨씬 직관적이고 편리한 계산법이다.

그리고 지수함수의 신비 중 하나는 곱셈을 덧셈으로 바꿔주는 함수라는 거다. 자, 고등학교 수학시간으로 잠깐 돌아가보자.

Ca x Cb = Ca+b

기억들 하시나? 이 따위것, 기억할 리가! 묻는 내가 바보지. 뭐, 기억 안 난다고 해서 지금 이걸 증명해줄 건 아니고, 이게 참이라고 치고 이야길 계속 하자. 잘 보라, 좌변과 우변을 각각 살펴보면 좌변에 포함된 연산은 곱셈인데, 우변에 포함된 연산은 덧셈이다. 모든 숫자는 임의의 밑(base)와 지수(exponent)로 표현할 수 있는데, (예: 2 = 21 = 100.301 , 30 = 24.907 101.477) 이 원리를 응용하면 곱셈을 덧셈으로, 덧셈을 곱셈으로 전환하는 게 가능하다.

2 x 30 = 100.301+ 101.477= 100.301 + 1.407 = 101.778 = 60.

여기서 등장하는 게 지수함수다. log 2 = log 100.301 = 0.301. 이때 숫자 2의 밑(base) 10에 대한 지수가 0.301이라고 하거나, 숫자 2에 밑이 10인 log를 취하면 0.301이라고 할 수 있다. 따라서 어떤 두수의 곱은 각수의 밑 10에 대한 지수--깐깐한 양반들이 태클 걸까봐 한마디 하자면, 밑이 10일 필요는 없다만, 편의상 로그표는 밑이 10인 소위 상용로그를 이용하므로 여기서도 별 언급이 없으면 밑은 10인 걸로 하겠음--를 더한 후 (2의 지수 0.301, 3의 지수 1.477을 더한 후), 그 합한 값을 지수로 갖는 수(지수가 1.778인 수인 60)를 찾음으로써 얻을 수 있다.

이 원리를 이해하고 있다면, 로그표를 이용하여 곱셈을 아주 신속하게 할 수 있다. 여기서 로그표란 0에서 10 사이의 숫자들에 log를 취해 얻은 지수들을 표로 정리해놓은 거다. 즉, 사실 지수를 계산하는 건 곱셈에 비해 훨씬 까다로운 작업이기 때문에, 직접 로그값을 계산하고 앉아 있어야 한다면, 아무리 덧셈이 곱셈보다 쉽다고 하더라도 곱셈을 직접하는 것만 못하다. 그렇지만 0과 10 사이의 숫자들에 대해서는 log값을 계산해 놓은 방대한 표(라기보다는 책)가 있어서 사전 찾듯이 찾아볼 수 있다면 이야기가 다르지. 그래서 옛날에 끈기 있는 사람들은 밥먹고 앉아서는 0과 10 사이의 로그값을 계산, 이를 표로 만들었다. 그리고 그 이후의 사람들--이라고 해봐야 사실 19세기말 20세기초중반 정도가 고작--은 이 표를 이용해서 곱셈을 해야하는 숫자들의 지수를 찾고, 또 찾은 지수들을 더한 후에, 그 최종 합을 지수로 갖는 숫자를 다시 이 표에서 찾아보는 방식으로 복잡한 곱셈을 처리해왔다. (여기서 퀴즈 하나, 로그표는 왜 10 이상의 숫자는 취급을 안 할까?)


호기심 많은 벤포드

1938년의 어느날 당시 GE에서 일하던 프랭크 벤포드(Frank Benford)라는 물리학자가 곱셈을 하기 위해 언제나처럼 자신의 로그표를 뒤적이며 계산을 하던 도중, 다소 의아한 걸 발견한다. 책장들을 가만히 보니 책 앞부분의 페이지들이 뒷부분보다 떼도 많이 타고, 너덜거리는 쪽들도 많고, 여러모로 훼손도 많이 된 거다. 마치 지금까지 꾸준히 이 책의 앞부분만 더 열심히 펼쳐본 것처럼. 원래가 각종 교과서를 비롯해 세상의 재미없는 책들은 처음부터 시작해서 읽다가 포기하고, 나중에 다시 읽을 땐 또 처음부터 다시 시작하고...를 끊임없이 반복하게 마련인지라, 책 앞쪽이 더 빨리 닳게 마련. 그리고 수십, 수백 페이지 빼곡히 숫자만 표로 한가득 싫어놓은 책보다 더 재미없는 책이 어디 있을까? 당연히 그럴 수밖에...라고 생각을 했다면 그게 당신과 벤포드의 차이. ㅡㅠㅡ

로그표라는 건 그야말로 필요할 때 자신이 원하는 숫자만 들쳐보면 되는 사전 같은 것이다보니 굳이 맨 앞쪽부터 시작할 이유가 없다. 사전 뒤져볼 때 ㅎ으로 시작하는 단어 찾는답시고 ㄱ부터 차례로 페이지를 넘기지 않는 것과 마찬가지 이치. 그래서 벤포드는 이런 의문을 품는다. 혹시? 세상에 1,2,3으로 시작하는 숫자가 7,8,9로 시작하는 숫자들보다 더 많은 거 아냐? 그러니까 자기가 로그표를 찾아볼 때 1,2,3을 7,8,9보다 찾아볼 일이 더 잦기 때문에 책앞쪽이 훨씬 빨리 닳은 게 아니냐는 발상이다.

이런 씨앙, 말이 안 되잖아. 숫자라는 건 어차피 사람이 임의로 정한 건데, 1이 9보다 특별할 이유따위가 어딨냐고. 아래 그림과 같이 0부터 10까지의 숫자선이 있다고 하고, 눈 딱 감고 다트를 찍을 경우 1에서 2사이에 다트가 맞을 확률--어떤 숫자가 1.XX일 확률--이나, 9에서 10사이에 맞을 확률--9.XX가 나올 확률--이나 다 똑 같아야 하는 거 아님?

사용자 삽입 이미지


수의 신비

왠지 그래야만 할 것 같긴 한데, 어쨌든 뭔가 이상하다고 판단한 벤포드는 세상에 존재하는 다양한 통계들을 뒤지기 시작했다. 각종 분자량, 야구 기록, 인구, 주식 시장, 사람들의 소득, 기업체들의 매출, 강의 길이, 산의 높이, 건물들의 높이 등 숫자로 기록될만한 것들은 샅샅이 뒤져본 결과! 제일 첫자리가 1로 시작하는 숫자는 전체 숫자들 중 10분의 1이 아니라 거의 3분의 1을 차지하는 반면, 2로 시작하는 숫자는 약 6분의 1, 3은 8분의 1로 점점 줄어서 8로 시작하는 숫자는 전체 숫자들 중 불과 20분의 1, 9로 시작하는 숫자는 22분의 1 정도밖에 되지 않는다? 으엑? 무슨 이런 어처구니없는...

그러나~! 과연 정말 어처구니 없을까? 자, 숫자들을 다시 살펴보자. 음, 뭐가 좋을까? 그래, 인구가 좋겠다. 우리는 보통 인구 증감을 말할 때 몇 퍼센트가 증가했다라고 이야기한다. 왜 일까? 그 이유는 인구 증감에는 비율이 중요하게 작용하기 때문이다. 조금 극단적인 예를 들어보자. 두 사람이 결혼을 해서 아이를 네명씩 꼬박꼬박 낳고, 네번째 아이를 낳고는 죽는다고 가정해보자. 그러면 처음 두 사람은 네 사람을 세상에 남기고 간다. 그러면 이 네 사람은 여덟사람을 남기고 갈 거고, 여덟 사람은 16, 32, 64, 이렇게 증가할 거다. 꼭 2배씩이 아니어도 좋다. 보통 전세대와 그 다음세대 사이의 인구는 일정한 비율로 증가할 거라는 이야기를 하려던 것뿐이다.

아하! 응? 왜 아하인지 모르겠다고? 자, 그러면 1부터 시작해서 계속 2씩 곱해보자. 제일 첫자리수에 주목하시라. 1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32768, 65536, 131072, 262144, 524288, 1048566... 유난히 자주 등장하는 색깔이 빨간색으로 총 21개의 숫자 중 7번이나 된다. 그 다음에 2가 4번, 3이 2번, 4가 2번, 5가 2번, 6이 2번, 8이 2번, 그리고 7과 9는 0번... 물론 샘플이 겨우 21개니까 그럴 수도 있지...만 이건 우연이 아니다.


등차 vs 등비, 그리고 벤포드의 법칙

자, 조금 다른 예를 들어보자 1년에 사과를 10개 달리는 사과 나무 한그루 가진 사람과 그와 비슷한 나무를 1000그루를 갖고 매년 사과를 10000개씩 생산하는 사과 농장 주인을 생각해보자. 사과 나무 하나 가진 사람이 어느해 사과를 20개 생산하기란 거의 불가능에 가깝다. 반면에 사과를 10000개씩 생산하는 사람이 어느해 사과를 10010개 생산할 확률은 그리 나쁘지 않다. 1000그루의 나무 중에 10그루에서 사과가 11개씩 달리면 되기 때문이다. 똑같이 20-10=10이고 10010-10000=10이지만 이 10개는 똑같은 10개가 아니다. 20 나누기 10은 자그마치 2배 차이지만 10010 나누기 10000 = 1.001로 이는 고작 0.1% 차이에 불과하기 때문이다. 이게 바로 산술적 혹은 등차적 증가와 기하급수적 혹은 등비적 증가의 차이다. 그리고 등차적 증가에서는 숫자 자체가 고르게 퍼지지만, 등비적 증가는 곱셈에 의한 증가로, 등비인 곱셈을 덧셈으로 치환해주는 열쇠인 바로 지수가 고르게 퍼진다.

앞서서 세상에 존재하는 숫자들이 균일한 숫자선을 이루고 그 숫자선상에 고르게 퍼져 있을 거라고 생각한다고 했는데, 이는 일리 있는 말이다. 다만 숫자 자체가 균일한 숫자선을 이루는 게 아니라, 이런 숫자들의 지수들이 균일하게 분포하는 거다. 즉, 아래와 같은 숫자선을 떠올리면 된다.

사용자 삽입 이미지

처음 한칸 사이의 차이는 불과 9에 불과한데, 그다음 한칸 사이의 차이는 90, 그 다음 한칸은 900, 이런 식이다. 이 경우 1과 10 사이, 10과 100 사이, 100과 1000 사이의 숫자들을 역시 등비적 분포에 맞춰 표시하면 아래 그림과 같이 퍼진다. (100부터 103 사이만 확대해 봤다.)

사용자 삽입 이미지

어라, 1이랑 2, 10이랑 20, 100이랑 200사이가 9랑 10, 90이랑 100, 900이랑 1000 사이보다, 넓네. 자, 이 숫자선에다가 두눈 딱 감고 다트를 던져보자. 그러면 숫자의 제일 첫자리가 1(1.XX, 1X.XX, 1XX.XX 등)이 나올 확률은 전체의 약 1/3인 반면 9(9.XX, 9X.XX, 9XX.XXX 등)가 나올 확률은 고작 1/22이다! 이게 바로 벤포드의 발견의 핵심, 그리고 이를 벤포드의 이름을 따서 벤포드의 법칙(Benford's Law! 자그마치 법칙이다!)이라고 한다.


벤포드와 범죄 수사대

그래 고작 이런 거나 고민하고 있다니, 다들 정말 한가하십니다! 아, 과학의 매력은 물론 이런 한가한 고민 자체를 즐기는 거기도 하지만, 이런 한가한 고민이 의외의 순간에 인간의 삶을 살찌우기도 한다는 데에 있다. 1978년 벤포드 법칙이 의외의 순간에 빛을 발한다. 벤포드의 법칙을 알면, 범죄자를 잡아낼 수 있다. 응?

예를 들어 누군가 탈세를 하고 있다거나, 회사의 장부를 조작하고 있다는 의심이 든다면? 소득이나 매출 같은 숫자들도 인구나 (사과의) 생산성과 마찬가지로 기하급수적으로 증가하는 게 정상적인 양이기 때문에 벤포드 법칙을 따라야 한다! 그런데 이런 숫자의 오묘한 비밀을 모른 채 탈세를 위해 소득을 거짓 신고하는 경우, 등차적 숫자 개념에 익숙한 대부분의 사람들은 등차숫자선 상에서 무작위로 숫자를 골라내기 때문에 벤포드 법칙을 따르지 않게 된다. 그리고 탈세, 사기 등의 재판 과정에서 이 벤포드 법칙에 어긋난 경우는 탈세의 증거로 채택이 되기도 한다는 사실.

물론 아이러니(?)는 벤포드의 법칙이 보편화 되면 될수록, 장부 조작시에 이를 적용하여 조작하게 될 거기 때문에 조작의 단서가 사라질 거라는 사실...


에필로그

마치 벤포드의 법칙이 세상을 지배하는 것처럼 글을 쓰긴 했는데, 세상의 모든 통계치가 벤포드의 법칙을 따르는 건 아니다. 통계에서 많이 쓰이는 정규 분포(사람의 키 따위)는 분포도가 가장 많은 어떤 값을 중심으로 좌우 대칭으로 분포(평균보다 키가 큰 사람과 키가 작은 사람의 분포가 대칭적이기)하기 때문에 벤포드의 법칙과는 상관이 없다. 앞서 말했듯이 벤포드 법칙이 유효한 경우는 등비적 증감이 일어나는 경우들이다. 그러면 강의 길이나, 폭, 건물의 높이 등이 왜 벤포드 법칙을 따르는가에 대해서는 아직 뭔가 명쾌한 해석을 접한 일이 없다. 등차적 숫자 개념에 익숙한 우리가 정확히 이해하지 못하는 뭔가가 있는 것 같은데, 그게 뭔지는 나도 아직 모르겠음. 그걸 이해하게 되는 어느날이 있다면 또 포스팅하지, 뭐. ㅡㅠㅡ
이올린에 북마크하기(0) 이올린에 추천하기(0)