KEEP!T History: 게임이론의 전략들

in #coinkorea6 years ago

KakaoTalk_20171228_170118824.png
인간과 인간이 상호적인 의사결정을 했을 때, 어떤 결정이 가장 합리적인 결정이 될 것인지를 다룬 게임이론은 오늘날 경제학뿐만 아니라 여러 방면에서 활발한 연구가 진행되고 있습니다. 특히 탈중앙화와 P2P를 기반으로 한 블록체인에서 게임이론은 컨센서스 프로토콜의 근간을 이루고 있습니다. 그렇다면 블록체인 컨센서스의 밑바탕이 되는 게임이론의 전략들에는 어떤 것들이 있을까요?


게임이론 속 최선의 전략을 위한 실험들

존 내시 이후에 지속적으로 발전한 게임이론은 죄수의 딜레마 등 다양한 컨센서스 환경을 가정하며, 이 속에서 많은 최선의 전략들을 탄생시켰습니다. 그 사회적 궁금증 때문인지 1980년대에 실제로 게임 대회가 개최되기도 했습니다. 가장 높은 점수를 획득할 수 있는 전략(프로그램)을 공모한 것인데요. 규칙은 다음과 같았습니다. 제출된 프로그램은 각각의 죄수가 되고, 죄수끼리 짝을 지어 죄수의 딜레마 게임을 하는 것입니다. 페어가 된 짝은 총 200번의 시행을 하였고, 200번의 시행이 하나의 게임 결과가 됩니다.

죄수의 딜레마 게임 대회 규칙

딜레마 룰은 위의 표와 같았습니다. 총 12팀이 있으면 각각의 팀은 11번의 죄수의 딜레마 게임을 치르게 되고, 각 게임은 200회의 시행이 들어가니 총 2200번이 됩니다. 각 게임에서 획득한 점수를 총합하여 가장 고득점을 한 팀이 우승자가 됩니다. 추가적인 게임도 있었는데요. 50% 확률로 협력과 배반을 아무렇게나 하는 프로그램과 본인 프로그램과도 게임을 진행합니다. 1차 대회 때는 총 14개 프로그램이 접수되었다고 합니다. 즉 각 팀마다 총 15개의 게임을 한 것입니다.

그리고 이렇게 해서 최종우승한 최고의 전략은 바로 팃포탯(Tit-for-Tat)이라는 이름의 전략이었습니다.

팃포탯 전략

팃포탯은 일명 ‘따라하기’전략이라고도 불립니다. 팃포탯은 우선 가장 처음에는 항상 호의를 베푸는 형태로 협력을 합니다. 그 뒤로는 상대방의 직전 결정을 항상 따라합니다. 상대에게 협력 의사가 있으면 언제나 협력을 합니다. 반면에 협력 의사가 없어 보이고 배반을 한다면 뒤도 안 돌아보는 보복을 합니다.

사실 대회 전부터 꽤 견고한 전략이라고 평가받고 강력한 우승후보로 생각되었기에, 공모전에 등장한 프로그램들은 ‘팃포탯 이기기’에 초점을 맞추었다고 합니다. 하지만 그럼에도 불구하고 이기지 못했다고 합니다. 이 의외의 결과는 많은 이들의 호기심과 전투 본능을 자극했고, 2차 대회에는 62개의 프로그램이 경쟁에 뛰어들었다고 합니다. 그러나 2차대회 역시 팃포탯이 우승하는 저력을 보여주며, 팃포탯은 난공불락의 요새가 되었습니다.

팃포탯 우승의 의미

팃포탯 우승의 의미는 생각보다 많은 것을 시사합니다. 구성원 간의 신뢰와 공동체의 이익은 아이러니하게도 확실한 보복과 뒤끝 없는 용서가 밑바탕이 되면 쉽게 달성할 수 있습니다. 확실한 보복은 얕은 수를 쓰는 이기적인 사람을 차단하는 효과가 있고, 그에 대한 뒤끝 없는 용서는 그 게임을 본인의 페이스대로 끌어오는 수단이 됩니다. 이에 덧붙여서 절대 먼저 배반하지 않는다는 메시지는 선량한 구성원과의 신뢰의 밑바탕이 됩니다. 얼어붙을 것만 같은 긴장감이 흐르는 냉철한 전략과 그 속의 포용력은 강력한 리더십을 보여줍니다.

블록체인 생태계에서는 어떨까요? 구성원들은 각자 본인의 보상(코인)을 극대화할 수 있는 전략을 고민할 것입니다. 그리고 적은 점수가 나오는 전략은 진화론적으로 점차 도태되고 사라지게 될 것입니다. 게임이론의 관점에서 블록체인 생태계를 위협하는 행위를 하는 구성원에 대한 1회성 보복은 필요한 조치일 수 있습니다. 그러나 이 보복에 감성적인 부분이 개입해서는 안됩니다. 배반자가 1회성 보복에 반응하여, 다시 생태계의 규칙에 따르기로 했다면 공동체는 언제든 다시 반갑게 맞이할 포용력이 있어야합니다. ‘뒤끝 없는 용서’는 팃포탯 전략의 핵심이기 때문입니다.

가장 위협적인 전략, 조건 없는 배반

팃포탯 외에 가장 생태계에 위협이 되는 전략은 의외로 무조건적인 배반입니다. 상대가 어떤 의사표현을 하든, 항상 배반만 하는 것입니다. 이 전략은 대회에서 두드러진 활약을 하진 못했지만, 예상 밖의 준수한 성적을 보였습니다. 생태계의 발전에 아무런 도움이 되지 않는 이 전략이 꽤나 준수한 성적을 보일 수 있는 것은 인상적인 부분입니다.

게다가 이 전략은 진화론적으로 상당히 안정되어 있다고도 평가받는데요. 질서가 무너진 상황에서 ‘나 외에는 아무도 믿을 수 없다’는 인식이 바탕 되기 때문에, 자연스럽게 생존에 유리할 수밖에 없다는 것입니다.

특히 이 전략은 팃포탯 전략과 1대1 싸움을 한다고 했을 때 우위에 있기 때문에 더욱 위협적입니다. 팃포탯 전략이 처음에는 항상 협력을 시도한다는 점에서, 무조건 배반은 항상 1회 시행 분의 상대적 이익을 취할 수 있습니다. 1대1 싸움에서는 팃포탯 전략이 무조건 배반을 이길 수 없다는 것입니다.

팃포탯 전략의 약점

팃포탯 전략이 항상 성공적인 것은 아닙니다. 몇 가지 약점을 가지고 있습니다. 첫번째 약점은 다수의 시행이 바탕이 되어야 한다는 것입니다. 만약 상대방과의 게임이 수차례 반복되어 진행되는 것이 아니라, 1회성 이벤트 게임이라면 어떨까요. 혹은 3회만 진행되는 아주 적은 시행 횟수만 가진다면 어떨까요. 시행 횟수가 적어지면 적어질수록, 초반 부의 무조건적인 협력 시도의 비용은 커지게 됩니다. 첫번째 시행에 배반당한다면, 만회할 기회도 적고 보복의 기회도 적기 때문입니다. 또한 나중에 보복을 당하더라도 한번의 이익이 클 수도 있습니다.

위와 같이 시행 횟수가 적을 경우, 오히려 무조건적인 배반 전략이 생태계를 지배하는 경향을 보입니다. 그렇게 보면 현대 사회에서 결여되어 있는 개인간의 소통이 결국 타인과의 불신을 만들어내는 것일지도 모르겠습니다. 혹은 이전보다 다시 안 볼 가능성이 높은 사람들을 꽤 자주 만나고, 접하기 때문일 수도 있겠습니다. 1회성 만남이나 관계에 있어서 호의를 베풀 유인은 그리 많지 않기 때문입니다. 상대가 기분이 나쁘거나 손해를 보더라도, 내 개인적인 이익을 달성할 수 있다면 이기적인 행동을 취하는 사람들을 우리는 많이 접해보았습니다. 어쩌면 그들은 똑똑한 것일 수도 있겠습니다.

팃포탯이 블록체인에 던지는 메시지

한가지 다행스러운 점은, 블록체인은 장기적 관점에서 시행 횟수가 많은 편에 속한다는 것입니다. 팃포탯 전략이 득세할 가능성이 높은 생태계라 할 수 있습니다. 그러나 이에 대해서는 조심해야 할 필요가 있습니다. 무조건적인 협력과 배척이 함께해서는 안된다는 것입니다.

인간의 감정적인 대응은 생태계 발전에 도움이 안될 수도 있습니다. 규칙을 어기는 행위에 대한 단호한 패널티와, 쉬운 용서가 밑바탕이 되었을 때 무조건적인 배반을 잡을 수 있는 팃포탯 전략이 완성될 수 있습니다.

블록체인 프로토콜에 심어지는 패널티는 기계적인 시행이 가능합니다. 프로토콜을 따라가는 것은 인간의 감정이 관여하지 않기 때문에 게임이론적인 접근이 설득력을 얻을 수 있습니다. 자연스럽게 실제와 맞아떨어질 가능성도 높을 것입니다. 그러나 게임이론도 최선의 전략을 찾는 과정에서 결국 인간의 합리성을 믿는다는 점에 있어서는 한계를 가질 수밖에 없습니다. 다음 편에서는 이러한 한계점을 보완해주는 비합리성의 영역인 행동경제학이 블록체인에서 어떻게 활용되는지 살펴보는 시간을 가져보도록 하겠습니다.

SH


본 포스팅은 다음 포스팅을 재구성하여 만들어졌습니다.
KEEP!T Column: 게임이론 속 죄수의 전략, 팃포탯 (Tit-for-Tat)

logo_end.gif

크리에이티브 커먼즈 라이선스
이 저작물은 크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스에 따라 이용할 수 있습니다.

Sort:  

좋은 글 감사합니다