현존하는 최고의 전략 팃포탯 | Tit for Tat(TFT)

현존하는 최고의 전략 팃포탯 | Tit for Tat(TFT) | 게임이론Math2021. 2. 13. 21:29@Ray 수학

Table of Contents

	협력(자백X)	배신(자백O)
협력(자백X)	둘다 1년	B만 10년
배신(자백O)	A만 10년	둘다 5년

두 명의 사건 용의자가 체포되어 서로 다른 취조실에서 격리되어 심문을 받고 있습니다. 이들은 자백을 하느냐 그렇지 않느냐에 따라 다음의 선택이 가능합니다.

둘 중 하나가 배신하여 자백하면 자백한 사람은 풀어주지만 나머지 한명은 10년을 복역해야 합니다.
둘 모두 서로를 배신하여 자백하면 둘 모두 5년을 복역해야합니다.
둘 모두 협력하여 자백하지 않으면 둘 모두 1년만 복역합니다.

죄수들에게 가장 좋은 결과는 서로 협력하여 자백하지 않는 것입니다. 하지만 죄수들은 상대방의 결과는 고려하지 않고 자신의 이익만을 최대화한다는 가정 하에 움직이며 모두 자백하는 상황이 됩니다. 아담 스미스는 각 행위자들이 자신의 이익을 극대화하기 위해 행동하는 경우 시장이라는 보이지 않는 손에 의해 균형이 달성 된다고 했습니다. 하지만 죄수의 딜레마에 따르면 최악의 결과가 생기게됩니다. 이는 개인뿐만 아니라 국가관계에도 이용할 수 있습니다. 개별 국가들이 왜 환경을 파괴하는지, 분쟁 지역에 무기를 판매하는 이유 등 비합리적으로 보이는 문제들을 합리적으로 설명할 수 있습니다. 죄수의 딜레마에 따르면 상위 정부가 없는 국제체제에서 상대 국가의 전략이 항상 협력적으로 나올 것으로 기대할 수 없기 때문에, 개별국가들은 각자 자신의 이익을 추구하게 된다는 것이죠.

이렇게 우리가 사는 세상은 정보의 비대칭성에의해 반복적으로 죄수의 딜레마가 이어지는 상황이 자주 연출됩니다. 그렇다면 반복적으로 죄수의 딜레마가 이어질 때, 어떤 전략을 취하는 것이 가장 성공적일까요? 정치학자 로버트 액설로드(R.Axelrod)는 컴퓨터를 활용하여 모의 시뮬레이션 대회를 개최했습니다. 이 대회에서는 죄수의 딜레마 상황을 점수화 시켜 게임을 진행했습니다. 반복적으로 게임을 반복할 때 가장 최고점을 받을 수 있는 전략은 무엇이었을까요?

	협력(자백X)	배신(자백O)
협력(자백X)	(+2점, +2점)	(-1점, +3점)
배신(자백O)	(-1점, +3점)	(0점, 0점)

실제로 이 게임을 할 수 있는 사이트가 있습니다. 신뢰의 진화(The Evolution of Trust)을 통해 실제로 게임이론을 바탕으로 시뮬레이션을 할 수 있습니다. 그렇다면 이 게임에서 높은 점수를 받기 위해서는 어떤 전략을 취해야 할까요?

현재까지 이 게임에서 최고의 전략이라고 평가받는 것은 아나톨 라포포트(Anatol Rapoport)에 의해 최초로 제안된 TFT(Tit for tat, 팃포탯)전략입니다. 이 전략은 매우 간단합니다. 처음에는 협력하고, 그 이후에는 상대의 바로 직전에 취한 전략에 똑같이 반응합니다. 쉽게 말해 상대가 이전에 협력을 했다면, 협력하고, 만약 배반했다면, 배반합니다.

상대가 협력한다면 경기자는 항상 협력으로 응한다.
만약 상대가 배반했다면, 복수로 응한다.

1차 대회에서 팃포탯은 504.5점으로 우승을 차지합니다. 다른 팀들은 더 우위를 차지하기 위해서 팃포탯을 개량하거나 색다른 전략을 취했지만 모두 졌습니다.

2차 대회에서는 1차보다 더 많은 팀이 다양한 전략으로 참가했지만434.74로 팃포탯이 또다시 우승을 차지합니다.

어째서 팃포탯은 최고의 전략일까요? 팃포탯은 절대 선공을 하지 않습니다. 문제는 팃포탯이 선량하지만 배반에 대해서는 가차없습니다. 항상 먼저 뒤통수를 맞지만 꼭 잊지 않고 복수하죠. 결국 다른 프로그램들은 팃포탯이 요구하는대로 따라가는 수밖에 없게됩니다. 팃포탯에게 협력하거나 그렇지 않으면 같이 죽어야죠. 이렇게 팃포탯을 이기고 싶으면 팃포탯에게도 고득점을 허용해야만 하는 상황이 오게 됩니다. 팃포탯을 이기기 위해 다양한 개선책들이 있었지만신기하게 팃포탯에 수정을 가하면 가할 수록 승률이 떨어졌습니다.

다른 전략들은 어떤 것이 있었을까요? 다양한 전략이 있지만 간단한전략 3가지만 소개해보도록 하겠습니다.

첫번째는 All-C 전략입니다. 상대방이 어떻게 나오든 무조건 협력하는 전략입니다. 이 전략은 팃포탯과 만나면 완벽한 협력이 달성되었습니다. 하지만 이 방법은 팃포탯 이외에 다른 전략에게 노출되면 점수를 제공하는 셔틀이 되었습니다. 심지어 전략이 노출되면 아예 대고 착취를 하기때문에 호구가 되어버렸습니다.

두번째는 ALL-D 전략입니다. 상대방이 어떻게 나오든 무조건 배반하는 전략입니다. 이 전략은 죄수의 딜레마상황에서 자신에게 유리한 선택을 계속합니다. 그런데 뜻밖에도 효과적입니다. 세상에 믿을사람하나 없이 천상천하 유아독존으로 진행하는데 말이죠. 팃포탯과 만나면 시작부터 배신을 하기에 단 둘밖에 남게 되지 않을때 팃포탯보다 높은 점수를 얻게됩니다. 하지만 많은 전략이 같이 있는 곳에서는 서로 낮은 점수를 받는 상황이 연속되면서 고득점을 얻지는못해 최고의 전략이라 할 수는 없습니다.

세번째는 Gradual 전략입니다. 팃포탯의 개량형으로 기본전략은 같지만 상대방이 배신한 횟수를 기억했다가 그 횟수만큼 상대에게 연속으로 배반하는 전략입니다. 쉽게 말해 받은만큼 되돌려주는 전략입니다. 언뜻보면 합리적이라 생각이 됩니다. 이 전략은 팃포탯을 이긴 전적도 있지만 항상 이기는 것은 아니며, 때에 따라서는 낮은 점수를 받기에 최고의 전략이라고 하기에는 어려움이 있습니다.

몇몇 전략을 비교해보아도 팃포탯은 좋은 전략처럼 보입니다. 그렇다면 팃포탯은 완전무결할까요? 수학적으로 전체집단에서 소수가팃포탯 전략을 취하더라도 상호작용할 기회가 조금이라도 주어지면그 집단 전체가 팃포탯의 지배당하게 됩니다. 하지만 단기간의 그치거나 일회성의 게임일 경우에는 팃포탯이 적용될 수 없습니다.(단판승부에서는 효과가 없음) 또한 무작위적이거나 확률적인 의사결정에 대해서는 과도할 정도로 협력적입니다. 심지어 모두 배반하는 상황에서는 게임을 파국으로 몰고가기도 합니다. 그렇지만 이 전략이중요한 이유는 일대일 대응이라는 단순한 2개의 원칙을 지속하면 결과적으로 행동과 선택이 협력으로 수렴되는 내쉬균형을 가진다는데 있습니다.