ПРИНЦИПЫ ОПТИМАЛЬНОСТИ В МНОГОШАГОВЫХ ИГРАХ

Мир собирается объявить бесполётную зону в нашей Vselennoy! | Президенту Путину о создании Института Истории Русского Народа. |Нас посетило 40 млн. человек | Чем занимались русские 4000 лет назад? | Кому давать гранты или сколько в России молодых ученых?

Статьи Соросовского Образовательного журнала в текстовом формате

ПРИНЦИПЫ ОПТИМАЛЬНОСТИ В МНОГОШАГОВЫХ ИГРАХ (ПЕТРОСЯН Л.А. , 1996), МАТЕМАТИКА

Приводится определение многошаговой неантагонистической игры с полной информацией. Обобщаются основные принципы оптимальности, используемые в теории стратегических неантагонистических игр и формулируется основная теорема о существовании ситуации равновесия по Нэшу. Иллюстрируются основные положения теории.

ПРИНЦИПЫ ОПТИМАЛЬНОСТИ В МНОГОШАГОВЫХ ИГРАХ

Л. А. ПЕТРОСЯН

Санкт-Петербургский государственный университет

ВВЕДЕНИЕ

Методы теории динамических игр в последнее время все чаще применяются при анализе сложных социально-экономических и экологических систем, а также при решении вопросов глобального стратегического баланса. Характерной особенностью таких систем является наличие в них нескольких участников, решения которых влияют на развитие системы и которые действуют в собственных интересах. При этом решение одного игрока не может полностью определить развитие системы, поэтому актуальной оказывается проблема выработки общеприемлемых решений. Процесс принятия решения в сложных системах носит конфликтный характер, поэтому для его адекватного описания применяются методы теории игр.

Важным условием для решения задачи выработки общеприемлемого решения является декларирование принципа оптимальности, который представляет собой математическую формализацию интуитивного представления о рациональном поведении участников в процессе конфликта. Как и следовало ожидать, построение универсального принципа оптимальности, пригодного для конфликтных управляемых процессов различной природы, оказывается невозможным. Поэтому в теории игр имеется широкое семейство принципов оптимальности, удовлетворяющих различным системам аксиом. Одним из наиболее распространенных принципов оптимальности в так называемой некооперативной теории игр является ситуация равновесия по Нэшу, сформулированная им в 1950 году.

Актуальность методов теории игр подтверждена и тем, что в 1994 году известным специалистам по теории игр Дж. Нэшу, Дж. Харсаньи, Р. Зельтену была присуждена Нобелевская премия в области экономики за работы, связанные с формулировкой и развитием равновесия по Нэшу. Интенсивные работы в области исследования равновесия по Нэшу проводятся в разных странах мира, однако многие проблемы, связанные с множественностью данного принципа оптимальности, неустойчивостью относительно отклонений групп игроков, неэффективностью в смысле Парето и др., продолжают оставаться непреодолимыми.

В настоящей статье я попытаюсь сформулировать равновесие по Нэшу для многошаговых игр с полной информацией, привести без доказательства основную теорему о существовании ситуации равновесия и предложить некоторые новые идеи, которые, на мой взгляд, позволят преодолеть часть недостатков, присущих этому принципу.

МНОГОШАГОВАЯ ИГРА С ПОЛНОЙ ИНФОРМАЦИЕЙ

Пусть задан конечный древовидный граф G = = (X, F ), где X - конечное множество вершин, а F - отображение, ставящее в соответствие каждой точке x k X подмножество Fx ? X.

Подграфом Gz древовидного графаG, где z k X, называется граф с начальной вершиной z, вложенный в дерево графа G и содержащий все вершины, в которые возможен переход из вершины z (рис. 1).

Перейдем к определению многошаговой игры с полной информацией G на древовидном конечном графе G.

Пусть G = (X, F ) - древовидный граф. Рассмотрим разбиение множества вершин X на n + 1 множество X1 , _, Xn ,

где Fx = ? для x k Xn + 1 . Множество Xi , i = 1, _, n, называется множеством очередности i-го игрока, а множество Xn + 1 - множеством окончательных позиций. На множестве окончательных позиций Xn + 1 определены n вещественных функций H1(x), _, Hn(x), x k Xn + 1 . Функция Hi(x), i = 1, _, n, называется выигрышем i-го игрока.

Игра происходит следующим образом. Задано множество N игроков, перенумерованных натуральными числами 1, _, i, _, n (в дальнейшем N = = {1, 2, _, n}). Пусть ; тогда в вершине (позиции) x0 "ходит" игрок i1 и выбирает вершину . Если , то в вершине x1 "ходит" игрок i2 и выбирает следующую вершину (позицию) , и т.д. Таким образом, если на m-м шаге реализована вершина (позиция) , то в ней "ходит" игрок ik и выбирает следующую вершину (позицию) из множества . Игра прекращается, как только достигается окончательная вершина (позиция) xl k Xn + 1 , то есть такая, для которой .

В результате последовательного выбора позиций однозначно реализуется некоторая последовательность x0 , _, xk , _, xl , определяющая путь в древовидном графе G, исходящий из начальной позиции x0 и достигающий одной из окончательных позиций игры. Такой путь в дальнейшем будем называть партией. Из-за древовидности графа G каждая партия однозначно определяет окончательную позицию xl , в которую она приводит, и, наоборот, окончательная позиция xl однозначно определяет партию. В позиции xl каждый из игроков i, i = 1, _, n, получает выигрыш Hi(xl ).

Будем предполагать, что игрок i при совершении выбора в позиции x k Xi знает эту позицию x, а следовательно, из-за древовидности графа G может восстановить и все предыдущие позиции. В таком случае говорят, что игроки имеют полную информацию. Примером игр с полной информацией служат шахматы и шашки, поскольку в них игроки могут записывать ходы и поэтому можно считать, что они знают предысторию игры при совершении каждого очередного хода.

Определение 1. Однозначное отображение ui , которое каждой вершине (позиции) x k Xi ставит в соответствие некоторую вершину (позицию) y k Fx , называется стратегией игрока i.

Множество всевозможных стратегий игрока i будем обозначать Ui .

Таким образом, стратегия i-го игрока предписывает ему в любой позиции x из множества его очередности Xi однозначный выбор следующей позиции.

Упорядоченный набор u = (u1 , _, ui , _, un), где ui k Ui , называется ситуацией в игре, а декартово произведение - множеством ситуаций. Каждая ситуация u = (u1 , _, ui , _, un) однозначно определяет партию в игре, а следовательно, и выигрыш игроков. Действительно, пусть . Тогда в ситуации u = (u1 , _, ui , _, un) следующая позиция x1 определяется однозначно по правилу . Пусть теперь . Тогда x2 определяется однозначно по правилу . Если теперь на m-м шаге реализовалась позиция , то xk определяется однозначно по правилу , и т.д.

Пусть ситуации u = (u1 , _, ui , _, un) в указанном смысле соответствует партия x0 , x1 , _, xl . Тогда можно ввести понятие функции выигрыша Ki игрока i, положив ее значение в каждой ситуации u равным значению выигрыша Hi в окончательной позиции партии x0 , _, xl , соответствующей ситуации u = (u1 , _, un), то есть

Ki(u1 , _, ui , _, un) = Hi(xl), i = 1, _, n.

Функции Ki , i = 1, _, n, определены на множестве ситуаций

Таким образом, определив множество стратегий игроков и функции выигрыша, мы определили некоторую игру G, которую и будем называть многошаговой игрой с полной информацией на древовидном конечном графе G.

Для дальнейшего исследования игры G необходимо ввести в рассмотрение понятие подыгры, то есть игры на подграфе графа G основной игры.

Пусть z k X. Рассмотрим подграф Gz = (Xz , F ), с которым свяжем подыгру Gz следующим образом. Множества очередности игроков в подыгре Gz определяем по правилу , i = 1, _, n, множество окончательных позиций , выигрыш игрока i в подыгре полагаем равным

В соответствии с этим стратегия i-го игрока в подыгре Gz определена как сужение стратегии ui i-го игрока в игре G на множество , то есть

Множество всех стратегий i-го игрока в подыгре обозначается . В результате с каждым подграфом Gz мы связываем подыгру в нормальной форме

где функции выигрыша , i = 1, _, n, определены на декартовом произведении

В указанных обозначениях игра G может быть записана так:

СИТУАЦИЯ РАВНОВЕСИЯ ПО НЭШУ

Определим ситуацию равновесия по Нэшу в игре G. Пусть u = (u1 , _,ui , _, un) - произвольная ситуация в игре G, а ui - некоторая стратегия игрока i. Построим ситуацию, которая отлична от u только тем, что стратегия ui игрока i заменена на стратегию . В результате получаем ситуацию (u1 , _, ui - 1 , , ui + 1 , _, un), которую будем обозначать (u || ). Очевидно, что если ui и совпадают, то (u || ) = u.

Определение 2. Ситуация называется ситуацией равновесия по Нэшу, если для всех ui k Ui , i = 1, _, n, имеет место неравенство

Ki(u*) $ Ki(u* || ui).

Из определения равновесия по Нэшу следует, что индивидуальное отклонение игроком i от стратегии , входящей в равновесие по Нэшу u*, не выгодно игроку i (его выигрыш может при этом лишь уменьшиться) при условии, что остальные игроки придерживаются стратегий , k ? i, входящих именно в это равновесие u*. Однако отклонение группы или "коалиции" игроков может, вообще говоря, улучшить положение игроков этой коалиции.

Однако данное определение является достаточно широким и включает в себя целое семейство равновесий в так называемых стратегиях "наказания", когда под страхом наказания игроки могут навязать себе логически неразумный способ поведения (см. пример 1). Поэтому Р. Зельтен в 1975 году ввел понятие абсолютного равновесия по Нэшу (в англоязычной литературе subgame perfect equilibria).

Определение 3. Ситуация равновесия по Нэшу называется ситуацией абсолютного равновесия по Нэшу в игре G, если для любого z k X ситуация , где - сужение стратегии на подыгру Gz , является ситуацией равновесия по Нэшу в подыгре Gz .

Имеет место следующая основная

Теорема. В любой многошаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия по Нэшу.

АНТАГОНИСТИЧЕСКИЕ ИГРЫ

В случае, когда множество игроков состоит из двух элементов 1 и 2 и K1 = - K2 , имеем случай так называемой антагонистической игры. Ситуация равновесия по Нэшу тогда записывается в виде

K1(u*) $ K1(u* || u1),

K2(u*) = - K1(u*) $ K2(u* || u2) = - K1(u* || u1)

для всех u1 k U1 , u2 k U2 . Или, что то же самое,

или

для всех u1 k U1 , u2 k U2 .

В этом случае ситуация называется просто ситуацией равновесия, стратегии , ее образующие, называются оптимальными стратегиями, а выигрыш первого игрока в ситуации равновесия называется значением игры и обозначается буквой n.

Здесь важно отметить, что в различных ситуациях равновесия выигрыш первого игрока всегда один и тот же и равен n, что не имеет места в случае равновесия по Нэшу (см. примеры).

Как видно из определения, ситуация равновесия обладает тем свойством, что ни один из игроков не заинтересован в отклонении от ситуации равновесия, если противник придерживается оптимальной стратегии. Действительно, если игрок 1 отклонится от стратегии , используя стратегию u1 , то его выигрыш, как видно из определения, может разве лишь уменьшиться. Если игрок 2 отклонится от стратегии , используя стратегию u2 , то выигрыш игрока 1 (то есть проигрыш игрока 2, так как игра антагонистическая) лишь увеличится.

Классическим примером многошаговой игры с полной информацией являются шахматы. Здесь имеются два игрока: "белые" и "черные", под позицией x на k-м шаге игры понимается вся предыстория игры до этого шага (последовательность расположения фигур на доске на предыдущих шагах и на k-м шаге), Fx - здесь множество позиций, достижимых из x за один шаг, X1 - множество позиций, где ходят белые и X2 - множество позиций, где ходят черные. Окончательные позиции x k X3 - это партии игры, заканчивающиеся матовой или патовой диспозицией на доске. Для того чтобы сделать игру конечной, можно ограничить число шагов числом N и все партии длины больше N объявить патовыми. Выигрыш белых полагается равным +1, если они выигрывают, и нулю в случае ничьей. Выигрыш черных равен выигрышу белых с отрицательным знаком.

Из предыдущей теоремы следует, что в любой конечношаговой антагонистической игре с полной информацией существует ситуация равновесия. Это относится и к шахматам. Для шахмат это означает следующие три возможности:

(1) у белых существует стратегия, гарантирующая им выигрыш при любой стратегии черных ;

(2) у черных существует стратегия, гарантирующая им выигрыш при любой стратегии белых ;

(3) у каждого из игроков существует стратегия, гарантирующая им ничейный исход при любом поведении противника .

НЕКОТОРЫЕ ПРИМЕРЫ

Пример 1. Пусть игра G происходит на графе, изображенном на рис. 2. Множество N = {1, 2} состоит из двух игроков. На рис. 2 кружками изображены вершины (позиции игры), составляющие множество X1 , квадратиками - множество X2 . Вершины графа перенумерованы двойными индексами, дуги - одинарными.

Нетрудно убедиться, что ситуация = (1, 1, 2, 2, 2), = (1, 1) является абсолютно равновесной в игре G. При этом выигрыши игроков равны 8 и 2 единицам соответственно. Рассмотрим теперь ситуацию = (2, 1, 2, 1, 2), = (2, 2). В этой ситуации выигрыши игроков равны соответственно 10 и 1, тем самым игрок 1 получает больше, чем в ситуации . Ситуация является равновесной в игре G, но не является абсолютно равновесной. Действительно, в подыгре G1, 4 сужение стратегии диктует игроку 1 выбор левой дуги, что не является для него оптимальным в позиции 1, 4. Такое действие игрока 1 в позиции 1, 4 можно интерпретировать как угрозу наказания игрока 2, если он отклонится от желательного для игрока 1 выбора дуги 2 в позиции 2, 2, лишив тем самым игрока 1 максимального выигрыша в 10 единиц. Однако по существу такую угрозу наказания едва ли следует считать действенной, поскольку наказывающий (игрок 1) при этом сам может потерять в выигрыше пять единиц (действуя неоптимально в G1, 4).

Пример 1 показывает, что абсолютное равновесие не включает некоторые явно неприемлемые равновесия, основанные на стратегиях наказания, в то же время множество абсолютных равновесий может быть также достаточно обширным. Это обусловливается тем, что в игре могут существовать позиции, в которых некоторые из последующих позиций могут представляться равнозначными игроку с точки зрения его выигрыша, что приводит к нескольким равноценным возможностям выбора. Если бы удалось зафиксировать предпочтительность отношений игроков друг к другу, то такая неоднозначность выбора могла бы быть устранена, что приводило бы к единственному решению.

В частном случае, если игра является игрой двух лиц и оба игрока "доброжелательны" или, наоборот, "недоброжелательны", то они будут поступать противоположным образом. Возможно, конечно, положение, когда один игрок "доброжелателен", а другой нет.

Пример 2. Рассмотрим игру, изображенную на рис. 3. В позиции 1, 2 и в позиции 1, 3 оба выбора для игрока 1 равнозначны. В то же время если он доброжелателен по отношению к игроку 2, то он выберет альтернативу 2 в позиции 1, 2 и 1 в позиции 1, 3. Если же он недоброжелателен, то он поступит противоположным образом. Легко можно показать, что доброжелательное равновесие имеет вид (2, 2, 1, 1, 1), (2, 1) с выигрышами (2, 1).

Мы видим, что фиксация типов игроков (в смысле их доброжелательного или недоброжелательного отношения друг к другу) однозначно (в смысле выигрышей) определяет ситуацию равновесия в многошаговой игре. Разумеется, здесь очень важным является и то обстоятельство, что игроку известно отношение к себе его противника. Если бы, например, второй игрок считал первого игрока недоброжелательным, а в действительности первый игрок был бы доброжелательным по отношению к игроку 2, то мы получили бы (в предположении, что игроку 1 известна оценка его доброжелательности игроком 2) решение (1, 2, 1, 1, 1), (1, 1) с выигрышами (5, 4), что не является равновесием по Нэшу. Если же не предполагать, что игроку 1 известна оценка его доброжелательности игроком 2, то решение еще более усложняется.

Пример 2 поучителен и в другом смысле: его результат на первый взгляд может показаться парадоксальным, а именно оказывается, что игроки, действующие доброжелательно друг к другу, получают меньше, чем если бы они использовали недоброжелательное поведение. Разумеется, такой факт является скорее исключением, чем правилом, но мы акцентируем на нем внимание для того, чтобы подчеркнуть сложность принятия решения в конфликтных процессах.

Как я ранее отмечал, при наличии нескольких игроков отношение игроков друг к другу имеет более сложный характер и для построения единственного в смысле выигрыша решения необходимо также постулировать степень информированности каждого игрока об отношении к нему остальных участников конфликта. В зависимости от того, знают ли игроки действительное отношение к себе своих противников, или им известны лишь статистические оценки таких отношений, могут быть построены различные теории принятия оптимальных решений, которые в ряде случаев приводят к равновесию по Нэшу.

Теория построения таких решений находится на самых начальных этапах своего развития, и, как мне кажется, приведет в перспективе к построению единственного в смысле выигрыша принципа оптимальности. Термин тип игрока был введен в работах Дж. Харсаньи. Этот термин был использован для построения байесовских равновесий в играх с неполной информацией специального вида. Хотя в рассматриваемом случае в этот термин вкладывается существенно более широкое содержание, я не счел целесообразным введение новых терминов.

Пусть S ? N - некоторое подмножество игроков, называемое коалицией; пусть B - некоторое подмножество множества всех коалиций. Рассмотрим некоторую ситуацию u = (u1 , _, un). Пусть S ? N и S = {i1 , _, ik}. Символом (u || ) обозначим ситуацию, которая отличается от ситуации u лишь тем, что игроки i1 , _, ik , входящие в коалицию S, заменили в u свои стратегии , l = 1, _, k, на стратегии , l = 1, _, k.

Определение 4. Ситуация называется B-равновесной, если для любой коалиции S ? B и любого набора стратегий , существует индекс i0 k S (i0 зависит от S) такой, что

Последнее неравенство означает, что ни одна из коалиций S ? B не пойдет на отклонение от ситуации u*, поскольку при каждом отклонении находится игрок i0 k S, который теряет в выигрыше (которому это отклонение невыгодно).

Пример 3. Рассмотрим игру N лиц, изображенную на рис. 4. В этой игре каждый игрок ходит однажды и игроки совершают ходы один за другим, имея возможность в каждой позиции выбрать одну из двух альтернатив A или D. Выигрыши игроков записаны в окончательных позициях. Легко убедиться, действуя по индукции с конца игры, что ситуация , i = 1, _, N, u* = (A, A, _, A) является ситуацией равновесия по Нэшу и является абсолютно равновесной ситуацией с выигрышами (2, 2,_, 2).

Действительно, пусть игрок i выбирает ui = D, тогда в ситуации (u* || ui) = (u* || D) = (A, A, _, A, D, A, _, A) выигрыши всех игроков равны соответственно (1/ i, 1/ i, _, 1/ i). То есть имеем

и u* есть равновесие по Нэшу. Очевидно, что это же рассуждение можно провести для любой подыгры, начинающейся с шага k.

В то же время эта ситуация не является устойчивой в том смысле, что при большом числе игроков нельзя быть уверенным (первым игрокам), что какой-то из игроков не "ошибется" и вместо A выберет D, тогда все игроки (не только тот, который "ошибся") потеряют в выигрыше. В игре имеется еще богатое множество ситуаций равновесия в стратегиях наказания, что не было замечено при рассмотрении этого примера ранее. Ситуация, в которой первый и любой другой игрок выбирает D, является ситуацией равновесия по Нэшу. То есть равновесной оказываются ситуации вида

= (D, A, _, D, _, A)

(с D на первом месте и еще одним D на любом другом). Выигрыши во всех таких ситуациях одни и те же и равны (1, 1,_, 1).

Действительно, пусть в ситуации второй игрок, выбирающий D, имеет номер k > 1; если игрок i $ 2 выбирает ui , отличную от той, которая входит в ситуацию , то выигрыши игроков не меняются, так как выбор игроком 1 на первом шаге альтернативы D гарантирует завершение игры на этом шаге, при котором все игроки получают выигрыш 1. Если игрок i = 1 выбирает вместо D альтернативу A, то благодаря наличию в позиции еще одного игрока, выбирающего D (игрока с номером k), выигрыш игрока 1 уменьшится и станет равным 1/ k.

Выигрыши в ситуации , конечно, меньше выигрышей в ситуации u* = (A, A, _, A), но не зависят от ошибок большого числа игроков.

Пусть в ситуации стратегию D выбирают игрок 1 и игрок k, тогда если множество коалиций B состоит из всех коалиций S ? N, содержащих игрока 1, но не содержащих игрока k, то ситуация будет B-равновесной ситуацией. К сожалению, B-равновесные ситуации существуют в редких случаях.

В одной краткой статье невозможно охватить все проблемы, связанные с равновесием по Нэшу, и все "улучшения", предложенные математиками за последние годы. Здесь изложен лишь один из возможных подходов построения принципа оптимальности, основанный на типах игроков и приводящий к эквивалентным в смысле выигрышей ситуациям.

ЛИТЕРАТУРА

1. Нэш Д. Бескоалиционные игры. В сб.: Матричные игры / Под ред. Н.Н. Воробьева. М.: Физматгиз, 1961.

2. Воробьев Н.Н. Бескоалиционные игры. М.: Наука, 1984.

3. Льюс Р., Райфа Г. Игры и решения. Введение и критический обзор / Пер. с англ. под ред. Н.Н. Воробьева. М.: ИЛ, 1961.

4. Дюбин Г.Н., Суздаль В.Г. Введение в прикладную теорию игр. М.: Наука, 1981.

* * *

Леон Аганесович Петросян, доктор физико-математических наук, профессор, зав. кафедрой, декан факультета прикладной математики - процессов управления Санкт-Петербургского государственного университета. Область научных интересов: теория игр, теория дифференциальных игр. Автор 120 работ и 15 монографий.

Советуем купить авиабилеты в баку из первых рук.