МЕТАФОРА: ПОВТОРЯЕМАЯ ИГРА «ДИЛЕММА ЗАКЛЮЧЕННОГО*
При одномоментной версии игры предательство — доминирующая стратегия для обоих игроков. Это значит, что каждый из них получает выгоду от предательства вне зависимости от того, как поступит противник. Отсюда единственным равновесием Нэша является (F, F). Хотя «Дилемма заключенного* не является точным представлением ценовой игры, она содержит некоторые элементы, которые иллюстрируют ценовую конкуренцию и парадокс Бертрана. В частности, двум игрокам лучше бы было сотрудничать (назначая высокую цену), чем предавать (снижая цены), но каждый из игроков индивидуально получает выгоду от предательства. Таким образом, подтверждается вывод ценовой игры Бертрана, что повторяющаяся Т раз игра не сможет поддержать сговор: в последнем периоде оба игрока будут предавать, то же самое произойдет в предпоследнем периоде и т. д. Таким образом, пока игра не будет повторяема бесконечное число раз (в этом случае, если дисконтирующий множитель достаточно велик, сговор, т. е. (С, С), может легко поддерживаться с помощью угрозы возвращения к (F, F) в будущем, если один из игроков будет предавать в настоящий момент), равновесие (F, F) будет единственным некооперативным равновесием в каждом периоде.
Основная мысль [49] в том, что небольшая неопределенность в отношении предпочтений игроков (технически — в отношении вышеприведенной матрицы выигрышей) может оказать огромное влияние на поведение игроков, если игра повторяется довольно долго (но она не обязательно должна повторяться бесконечное число раз).
Чтобы понять это, предположим, что каждый игрок с вероятностью 1 — а «разумен» («sane»), т. е. его выигрыш задан в матрице выигрышей в табл. 6.2 (так что, например, выигрыш при (F, С) равен 4 для игрока 1). В то же время каждый игрок с вероятностью а «безумен» («crazy»). Его предпочтения не обусловлены предшествующей матрицей выигрышей, скорее его поведение строится следующим образом. В момент 1 он начинает стратегию сотрудничества и продолжает ее в течение времени t до тех пор, пока его соперник также продолжает сотрудничество до этого времени; в противном случае он предает. (Можно представить этот безумный тип как предпочитающий сотрудничество или питающий отвращение к предательству вместе с сильным желанием наказать отказавшегося от сотрудничества оппонента). Безумие не является ценностным суждением, скорее оно есть поведение (или предпочтение), основанное на отклонении от установленной нормы (ассоциируемой с предпочтениями, определенными матрицей выигрышей). Можно подумать, что а столь мала, если более распространено мнение о том, что безумие маловероятно.Теперь ненадолго возвратимся к нашей метафоре, согласно которой фирма может выбрать одну из двух цен (в случае сотрудничества назначается высокая цена, при предательстве — низкая). Здесь уже нужно подумать о разумном типе, сталкивающемся с низкими производственными затратами (и, следовательно, получающем выгоду от непредусмотренного снижения цен), и о безумном типе, сталкивающемся с высокими необходимыми затратами (скажем, выше низкой цены), которые никогда не компенсируются снижением высокой цены соперника.405
Предположим, что игра повторяется от I — 0 до < = Т, и примем для простоты, что дисконтирующий множитель 6 = 1. Каждый игрок знает свои предпочтения (разумные или безумные), но не знает предпочтений оппонента. Поскольку безумное поведение мы определили, теперь мы получим стратегию игрока г, предполагая ее разумной.
Допустим, что игрок 1 в момент 0 изменяет соглашению (стратегия /г).
Поскольку безумный игрок не всегда возьмет на себя инициативу изменить первым, игрок 1 должен быть разумным. Оба игрока становятся предателями с момента 1, и далее (до конца игры) устанавливается равновесие. По точному определению безумия, игрок 2, если он безумен, наказывает игрока 1 за предательство в момент 0. Если он разумен, он может также предавать, если игрок 1 предает — неважно почему. Соответственно игрок 1, который разумен, не может сделать ничего лучшего, кроме как предавать. И это действительно является единственным равновесием в момент 1 и далее,406 после предательства в момент 0. Это значит, что если игрок 1 разумен и предает в момент 0, его выигрыш составит в лучшем случае 4 (он получит 4 в момент I = 0 и 0 в момент I = 1,...,Т). Рассмотрим теперь стратегию сотрудничества для игрока 1 до момента Т, пока игрок 2 не уклонится от данной стратегии в момент ?, в случае чего игрок 1 также уклоняется от момента * + 1 до Т. Такая стратегия не должна быть (и не является) оптимальной для игрока 1, если он разумен, тем не менее, как мы сейчас покажем, она доминирует стратегию предательства в момент 0 и до достаточно большого Т, и, следовательно, предательство в момент 0 не может быть оптимальной стратегией, даже для разумного игрока. Если игрок 2 безумен, то игрок 1 получает 3(Т + 1) от этой стратегии. Если игрок 2 разумен, игрок 1 получает в худшем случае 1, так как он обманывает осуществляющего стратегию сотрудничества; затем оппонент предает по крайней мере один период, после чего он играет некооперативно. Отсюда выигрыш игрока 1 при такой стратегии в конце концов составита[3(Г+1)] + (1-а)(-1)>4
для достаточно большого Т. Однако при малом значении а возможно такое То, что для Т > То предательство в момент 0 не может быть оптимальным для игрока 1, даже если он разумен, и то же самое для игрока 2. Это означает, что при достаточно большом горизонте времени каждый игрок в самом начале проводит стратегию сотрудничества, даже когда (статично) слепое предательство в перспективе становится доминирующей стратегией для разумного игрока.
В общем виде сотрудничество для обоих игроков наблюдается до тех пор, пока t <Т — Т0.407
Из этих результатов прямо следует, каждый игрок, сотрудничая, подвергает себя риску стать жертвой предательства другого игрока и вследствие этого получить низкую прибыль в течение одного из периодов (получив такой урок, он уже не будет следовать сотрудничеству).
Тем не менее, предавая, он обнаруживает, что не относится к безумному типу, склонному к сотрудничеству, и, следовательно, он теряет будущие выигрыши от сотрудничества, если другой игрок идет на сотрудничество. Если горизонт довольно велик, потери от будущего сотрудничества будут превышать потери от предательства. По существу в самом начале взаимоотношений игроки хотят сохранить свою репутацию как бы на случай возможного сотрудничества; на самом деле они просто не хотят выявлять предательство раньше времени.Поскольку мы уже получили основной результат (что стратегия сотрудничества может иметь место только при достаточно больших промежутках времени даже при малой вероятности безумия), мы не даем полного описания равновесия этой игры. Разумный игрок сотрудничает некоторое время. Затем, ближе к концу горизонта, он начинает извлекать выгоду из своей репутации; потери от будущего сотрудничества и предательства становятся сопоставимы. Сговор тогда разрушается в конце взаимоотношений (если по крайней мере один из игроков отходит от стратегии сотрудничества).408 6.5.1.
ОБСУЖДЕНИЕ
Главной чертой модели раздела 6.5.1 является сильное влияние небольшой неопределенности целевой функции каждого игрока при равновесной стратегии поведения, если горизонт достаточно велик и если игроки не очень нетерпеливы. Как показано в [49], сотрудничество возможно при небольшой вероятности а быть безумным, хотя это и невозможно при а = 0.
Безусловно, возможность поддержания сговора или иного исхода зависит от подразумеваемого типа безумия. Если, например, мы предположим, что безумный игрок пожелает продолжать сотрудничество, несмотря ни на что (например, если он не «жаждет мести», после того как оппонент обманывает его), сговор не будет поддерживаться ни при какой а.409 Предательство не сулит никаких потерь в будущем с таким безумным игроком, и, следовательно, ничто не удержит разумного игрока от предательства.
С другой стороны, Крепе с соавторами показали, что сотрудничество (представленное в разделе 6.5.1) поддерживается до тех пор, пока безумие подразумевает расплату «зуб за зуб». (Такая стратегия «зуб за зуб» предполагает сотрудничество на некоторое время, а затем поведение, аналогичное действиям другого игрока).
Высокая чувствительность равновесного поведения к уверенности в целях оппонента при длительном горизонте и высоком дисконтирующем множителе ставит вопрос о масштабе множества равновесий, измеряемых малыми, но произвольными описаниями безумия. Фьюденберг и Мэскин [42] показывают, что своего рода народная теорема выполняется, т. е. «любой результат» может поддерживаться как равновесие довольно длительной и короткой дисконтированной игрой в условиях неполной информации до тех пор, пока нельзя утверждать с вероятностью а > 0, что каждый из игроков безумен по-своему (подробнее см. в разделе 6.7.3). В этом случае множество равновесий будет таким же, как и для бесконечно повторяемой игры (суперигры), но только между игроками разумного типа. Таким образом, мы снова сталкиваемся с препятствием «обилия». Если подход суперигр заставляет нас выбирать между большим разнообразием равновесных ситуаций одной модели, то метод репутации (который в силу конечности горизонта резко сокращает число равновесий данной модели) предлагает большое разнообразие моделей (с различной неопределенностью) и соответствующих им исходов.
Концепция Фьюденберга—Мэскина предлагает два подхода, которые увеличивают предсказательные способности модели репутации. Первый состоит в том, что на практике нередко возможна определенная степень безумия некоторых действий.410 Второй более близок к общей неоклассической теории, предполагающей полную рациональность (в смысле максимизирующего прибыль поведения) в целях большей прогностической способности. Согласно этому подходу, каждый игрок анализирует действия оппонента так же тщательно, как и свои собственные; однако он не знает некоторых параметров, таких как предельные затраты оппонента или оценка спроса (см. вышеприведенную метафору). Этот подход имеет преимущество, так как рассматривает информационную асимметрию, которая, вероятнее всего, «велика» (по сравнению с вероятностью безумия, которая, как подразумевается, «мала»). (Равновесие динамических игр в условиях неполной информации имеет тенденцию к снижению чувствительности к точной спецификации «неопределенности», когда ее величина довольно велика). В главе 9 мы примем второй подход в общем виде.
Тем не менее нужно отметить, что подход, представленный в разделе 6.5.1, мотивирован многими экспериментами, которые свидетельствуют о том, что сговор, вероятно, может поддерживаться в длительных, но конечных играх. Например, Аксельрод [13] предложил «Дилемму заключенного* (такую, как рассмотрена в разделе 6.4) теоретикам игр в области экономики, психологии, социологии, политической науке и математике. Игра предполагалась повторяемой Т = 200 раз. Далее Аксельрод проверил те стратегии, которые были отобраны теоретиками, сопоставляя их между собой по круговому циклу. При этом высший рейтинг получила стратегия «зуб за зуб*, опередившая «рациональную* стратегию предательства в каждом периоде.
Эти эксперименты показывают следующее: при таких обстоятельствах второй подход, вероятнее всего, не сможет объяснить сговор — в отличие от ситуации в рыночной сфере здесь нет асимметричной информации о затратах, спросе и т. д. Если предположить, что предпочтения участников увеличиваются в зависимости от конечного результата, то реальной асимметрии в информации о платежах не существует. Таким образом, не исключено, что неблагоприятный исход — неудача (^) в каждом периоде — можно получить, следуя аксиоме рациональности. И действительно, имеет смысл предположить, что по крайней мере небольшая часть участников (безумные игроки) не придают значения прошлым действиям, приведшим к нарушениям в каждом периоде, либо оказались несостоятельны вообще, либо поверили в то, что отдельные игроки с некоторой вероятностью вообще не производили соответствующих подсчетов. Важнейший вывод подхода Крепса и его соавторов в том, что если игра повторяется довольно длительное время, то даже разумный игрок при выполнении всех необходимых вычислений может предпочесть поведение безумного игрока, и это принесет ему лучшие результаты, чем предательство. 6.5.2.
ЭВОЛЮЦИОННЫЙ ПОДХОД
Подход с точки зрения репутации, описанный в разделе 6.5.1, опирается на небольшую вероятность безумия. Но принципиальных различий между этим подходом и подходом с точки зрения рациональности, согласно которому основной целью является максимизация выигрыша, не существует. При эволюционном же подходе гипотеза о максимизирующем поведении не нужна. Тем не менее здесь принимается во внимание, во-первых, то, что экономические агенты не могут в длительном периоде руководствоваться полностью субоптимальными правилами (в противном случае они выйдут из игры),411 и, во-вторых, что наличие всех видов иррациональности зачастую приводит к совершенной утрате предсказательной способности. Этот подход, продолживший традиции Дарвина, был развит в работах [7, 46] и особенно [59] в области экономики и [53, 54] в области биологии; он рассматривает специфические стратегии или (лучше сказать) правила, которые становятся «главными* в том смысле, что они нередко противоречат другим правилам.412 Например, Аксельрод [14] отмечает, что в повторяемой игре «Дилемма заключенного* стратегия «зуб за зуб» является главным правилом, оно приводится в действие в том случае, если оппонент отходит от выбранного курса, но после того, как возмездие совершено, все возвращается на круги своя. (Напротив, правило «всегда предавать* запрещает получение прибыли от сотрудничества с другими, как было показано в разделе 6.5.2, поскольку «всегда предавать после отклонения» недостаточно для снисхождения в случае * ошибки»).413
Эволюционный подход предполагает, что в длительном периоде в игре остаются только такие действующие лица, которые пользуются исключительно «железными» правилами. А те участники, которые пользуются хрупкими правилами, умирают (в биологическом смысле) или же заканчивают банкротством (в экономическом смысле); либо они будут экспериментировать с новыми правилами; и если таким игрокам сопутствует успех, то их правилами будут руководствоваться следующие поколения.
«Биологическая мотивация такого подхода основана на интерпретации выигрыша с точки зрения годности (способности к выживанию и принесению потомства). Все изменения возможны, и если есть возможность погубить данную популяцию, то это может случиться. Таким образом, единственная стратегия, которая может поддерживать общую стабильность в состоянии длительного равновесия, это стратегия, принятая всеми. Стратегии общей стабильности имеют важное значение, так как являются единственным способом поддерживать популяцию в целом в состоянии равновесия, когда ей угрожает гибель» [15, р. 310].
Остается определить предсказательную силу эволюционной теории. То, что подразумевается под «жестким правилом», есть a priori возможность ответить на вероятностное множество изменений множеством стратегий с соответствующими жесткими правилами.
I