Слайд 1Задача Новичка
Определение цели антагонистической игры в отсутствии подкреплений
Павел Александрович
Малышкин
Москва, ИСА РАН
2013
Слайд 2Цель – что это?
Цели существуют и играют для теории важную
роль, но как они возникают – за рамками теории:
Теория управления
(критерий оптимизации)
Исследование операций (цель)
Теория игр (выплаты)
Экономика (полезность блага)
Функциональный анализ (направленность и целенаправленность)
Задача теории – прояснить, как возникают цели
Теория организации (принцип примата цели)
Психология (мотивация поведения)
Слайд 3Принцип
Примата
Цели
Теория организации
Структура
организации
определяется
целями
Целостность
организации
обеспечивается
согласованностью
целей разных
видов
Такой подход основан
на положении, что
целями можно
сознательно управлять
Из
принципа примата цели вытекает необходимость
понимания (описания) процесса возникновения целей.
Слайд 4Психология
Пирамида Маслоу как оппозиция бихевиоризму:
Вторичные потребности проявляются, когда удовлетворены базовые.
Вопрос:
как тогда возникают вторичные потребности?
Базовые потребности
Вторичные потребности
Слайд 5Теория самоопределения
Эго-психология Гейнца Гартмана (1939) – Существует сфера психического здоровья,
которая значит для определения целей больше, чем конфликт.
SDT Дэси, Райан
(с 1985) – попытка объяснить самоопределение как результат конфликта ранее неучтенных потребностей – автономии, компетенции и взаимоотношений.
Возврат к концепции бихевиоризма?
Почему?
Слайд 6Подходы к определению цели
Теория организации:
Цели
Необходимость
в обеспечении целостности
Согласование
Психология:
Цели
Потребности в автономии,
компетенции, взаимошениях
Адаптация
Слайд 7Шашки или поддавки?
Если вы не знаете цели игры, можете ли
вы определить ее по поведению противника в серии игр?
А если
варианты цели игры не известны?
Слайд 8Лектор против аудитории
Лектором предлагается серия партий многошаговой игры с целью,
неизвестной аудитории. Например, игра “Ним” c измененной целью.
Аудитория не уведомляется,
выигрывает ли она в каждой партии. Просто по окончании партии начинается другая.
Результат: Аудитория школьников 9-11 классов способна определить цель игры по действиям лектора, сформулировать ее, и начать выигрывать. Аудитория студентов МФТИ 3-го курса определяет цель той же игры за 5 партий.
Слайд 9Как аудитория определяет цель игры?
Лектор, достигая цель, привносит в игру
закономерности, которые не следуют из правил игры.
Аудитория способна увидеть эти
закономерности.
Противодействуя возникновению ситуаций, в которых проявляются закономерности, аудитория начинает выигрывать.
Слайд 10Определение цели игры
Игра
Осведомленный
игрок
правила
взаимодействия и определения выигрыша
Новичок
Реализация выигрышной стратегии
поведения
Обучение без подкрепления (отсутствие данных о цели игры)
Пусть, например, новичок
узнает о своем выигрыше только по окончании
довольно продолжительной серии игр. Как он может увеличить этот
выигрыш? Какова степень уверенности, что новичок правильно определил цель?
Слайд 11Антагонистическая матричная игра со смешанным равновесием
3
0
0
1
= Осведомленный игрок:
Может иметь
знание о структуре игры
Получает сведения о выплатах и о
выборе оппонента.
Имеет “совершенную” память – помнит выплаты предыдущих конов и выбор оппонента и подстраивает свою стратегию так, чтобы максимизировать выигрыш.
= Новичок:
Не имеет об априорных знаний о структуре игры, кроме наборов стратегий.
Не получает данных о выплатах по результатам кона
Получает данные о выборе оппонента по итогам каждого кона
Имеет “совершенную” память
Аудитория=
Лектор=
Задача новичка – максимизация его выигрыша по итогам серии игр
Задача новичка – максимизация его выигрыша по итогам серии игр
Слайд 123
0
0
1
Решение игры
В традиционном понимании эта игра имеет решение в смешанных
стратегиях:
((0.25, 0.75), (0.25,0.75), 0.75)
Известно (см. например, Морозов, Васин), что в
решении игры все стратегии игроков, не исключенные по доминированию, имеют одинаковые ожидаемые выплаты. Это значит, что если новичок придерживается оптимальной стратегии, то осведомленному игроку все равно, какую выбрать стратегию.
Обратное утверждение состоит в том, что для Новичка существует алгоритм асимптотического приближения к равновесной стратегии, при котором Осведомленный рациональный игрок в среднем будет играть (0.5,0.5).
Тогда игра стремится к точке ((0.25, 0.75), (0.5,0.5), 0.75), то есть, новичок может найти свою оптимальную стратегию и иметь выигрыш, не меньший, чем в точке равновесия по Нэшу. Но он не сможет выиграть больше за счет отклонения Осведомленного игрока точки равновесия.
Слайд 13Что нужно для доказательства
Почему осведомленный игрок будет адекватно менять свою
стратегию в зависимости от меняющейся стратегии новичка? => Предположение о
осведомленности оппонента (см., например, индекс Гиттингса).
Почему, если новичок играет оптимально, осведомленный игрок будет играть (0.5, 0.5) – ведь он может с тем же выплатами играть любую смешанную стратегию? => Предположение о рациональности осведомленного игрока и симметричных отклонениях новичка от равновесной стратегии.
Предположение, что решение в игре единственное и вполне смешанное
Но новичок останется новичком, если алгоритм его действий позволит ему выяснить также и выполнение всех этих условий.
?
Слайд 14Новичок остается новичком
Новичку предлагается алгоритм решения его задачи – нахождения
его равновесной стратегии.
При выполнении перечисленных условий алгоритм должен привести новичка
к решению. Если этот алгоритм новичка не сходится, новичок будет знать, что не выполняется какое-то из требований.
В этом смысле новичок остается новичком – он действует в рамках предположений, которые может проверить, и находит решение, если предположения верны.
Возможно, перечисленные требования можно ослабить. Специально этот вопрос не исследовался. Единственное предположение, требующее объяснений - предположение о том, что игра является антагонистической.
Слайд 15II фаза – переход к решению
I фаза – накопление данных
Алгоритм
Новичка
Случай 2х2 стратегий
(0,1)
(1,0)
(х, 1-х)
(0,1)
(1,0)
(х, 1-х)
Слайд 16II фаза
Алгоритм Новичка
Случай 3х3 стратегий
(0,0,1)
(0,1,0)
(1,0,0)
r(1)=r(2)
r(2)=r(3)
r(1)=r(3)
Слайд 17Алгоритм Новичка
Новичок нацелен на обнаружение закономерностей в поведении Осведомленного игрока.
Как
только закономерности обнаружены, Новичок принимает решения так, чтобы обнаруженные закономерности
более не проявлялись.
Отсутствие закономерностей в поведении Осведомленного игрока для Новичка означает отсутствие в его действиях информации, или, в случае матричной игры, локального максимума энтропии в виде:
Где - компоненты профиля стратегий осведомленного игрока. Поиск закономерностей в случае матричной игры соответствует вычислению компонентов , а алгоритмом принятия решений может быть любой алгоритм, максимизирующий .
Единственным требованием к игре, которому нужно иметь объяснение –
игра должна быть антагонистической.
Слайд 18Модель коммуникации
Осведомленный игрок – автор сообщения
Новичок – получатель сообщения
ДО:
ПОСЛЕ:
У игрока
есть цель – вызвать определенное поведение у новичка. Он ее
рационально преследует.
Игроку все равно, какое предпринять действие – сообщение передано.
Действия новичка блуждающие – ему нужно “почувствовать” цель осведомленного игрока
В действиях новичка есть определенность. Сообщение получено.
Слайд 19Результаты
Алгоритм Новичка, асимптотически выигрывающий 100% от принципиально возможного выигрыша в
антагонистическую матричную игру против осведомленного оппонента
В процессе выполнения алгоритма можно
проверить условия, необходимые для его применимости к данной игре.
Алгоритм отражает возможную связь механизма определения цели с физическим принципом максимума энтропии.
Слайд 20Спасибо!
Контакты:
Павел А. Малышкин
МФТИ, ФРТК, кафедра Радиоэлектроники и прикладной информатики
pavelmalyshkin@gmail.com