Разделы презентаций


Задача Новичка

Содержание

Цель – что это?Цели существуют и играют для теории важную роль, но как они возникают – за рамками теории:Теория управления (критерий оптимизации)Исследование операций (цель)Теория игр (выплаты)Экономика (полезность блага)Функциональный анализ (направленность и

Слайды и текст этой презентации

Слайд 1Задача Новичка
Определение цели антагонистической игры в отсутствии подкреплений

Павел Александрович

Малышкин

Москва, ИСА РАН
2013

Задача Новичка Определение цели антагонистической игры в отсутствии подкрепленийПавел Александрович МалышкинМосква, ИСА РАН2013

Слайд 2Цель – что это?
Цели существуют и играют для теории важную

роль, но как они возникают – за рамками теории:
Теория управления

(критерий оптимизации)
Исследование операций (цель)
Теория игр (выплаты)
Экономика (полезность блага)
Функциональный анализ (направленность и целенаправленность)

Задача теории – прояснить, как возникают цели
Теория организации (принцип примата цели)
Психология (мотивация поведения)

Цель – что это?Цели существуют и играют для теории важную роль, но как они возникают – за

Слайд 3Принцип
Примата
Цели

Теория организации
Структура
организации
определяется
целями
Целостность
организации
обеспечивается
согласованностью
целей разных

видов
Такой подход основан
на положении, что
целями можно
сознательно управлять
Из

принципа примата цели вытекает необходимость
понимания (описания) процесса возникновения целей.
ПринципПриматаЦелиТеория организацииСтруктура организации определяется целямиЦелостность организации обеспечивается согласованностью целей разных видовТакой подход основан на положении, что целями

Слайд 4Психология
Пирамида Маслоу как оппозиция бихевиоризму:
Вторичные потребности проявляются, когда удовлетворены базовые.
Вопрос:

как тогда возникают вторичные потребности?
Базовые потребности
Вторичные потребности

ПсихологияПирамида Маслоу как оппозиция бихевиоризму:Вторичные потребности проявляются, когда удовлетворены базовые.Вопрос: как тогда возникают вторичные потребности?Базовые потребностиВторичные потребности

Слайд 5Теория самоопределения
Эго-психология Гейнца Гартмана (1939) – Существует сфера психического здоровья,

которая значит для определения целей больше, чем конфликт.
SDT Дэси, Райан

(с 1985) – попытка объяснить самоопределение как результат конфликта ранее неучтенных потребностей – автономии, компетенции и взаимоотношений.

Возврат к концепции бихевиоризма?
Почему?

Теория самоопределенияЭго-психология Гейнца Гартмана (1939) – Существует сфера психического здоровья, которая значит для определения целей больше, чем

Слайд 6Подходы к определению цели
Теория организации:






Цели
Необходимость
в обеспечении целостности
Согласование
Психология:






Цели
Потребности в автономии,
компетенции, взаимошениях
Адаптация

Подходы к определению целиТеория организации: ЦелиНеобходимость в обеспечении целостностиСогласованиеПсихология: ЦелиПотребности в автономии, компетенции, взаимошенияхАдаптация

Слайд 7Шашки или поддавки?
Если вы не знаете цели игры, можете ли

вы определить ее по поведению противника в серии игр?
А если

варианты цели игры не известны?
Шашки или поддавки?Если вы не знаете цели игры, можете ли вы определить ее по поведению противника в

Слайд 8Лектор против аудитории
Лектором предлагается серия партий многошаговой игры с целью,

неизвестной аудитории. Например, игра “Ним” c измененной целью.
Аудитория не уведомляется,

выигрывает ли она в каждой партии. Просто по окончании партии начинается другая.

Результат: Аудитория школьников 9-11 классов способна определить цель игры по действиям лектора, сформулировать ее, и начать выигрывать. Аудитория студентов МФТИ 3-го курса определяет цель той же игры за 5 партий.

Лектор против аудиторииЛектором предлагается серия партий многошаговой игры с целью, неизвестной аудитории. Например, игра “Ним” c измененной

Слайд 9Как аудитория определяет цель игры?
Лектор, достигая цель, привносит в игру

закономерности, которые не следуют из правил игры.
Аудитория способна увидеть эти

закономерности.
Противодействуя возникновению ситуаций, в которых проявляются закономерности, аудитория начинает выигрывать.

Как аудитория определяет цель игры?Лектор, достигая цель, привносит в игру закономерности, которые не следуют из правил игры.Аудитория

Слайд 10Определение цели игры
Игра




Осведомленный
игрок
правила
взаимодействия и определения выигрыша






Новичок
Реализация выигрышной стратегии

поведения

Обучение без подкрепления (отсутствие данных о цели игры)
Пусть, например, новичок

узнает о своем выигрыше только по окончании
довольно продолжительной серии игр. Как он может увеличить этот
выигрыш? Какова степень уверенности, что новичок правильно определил цель?
Определение цели игрыИграОсведомленный игрокправила взаимодействия и определения выигрышаНовичокРеализация выигрышной стратегии поведенияОбучение без подкрепления (отсутствие данных о цели

Слайд 11Антагонистическая матричная игра со смешанным равновесием
3
0
0
1
= Осведомленный игрок:
Может иметь

знание о структуре игры
Получает сведения о выплатах и о

выборе оппонента.
Имеет “совершенную” память – помнит выплаты предыдущих конов и выбор оппонента и подстраивает свою стратегию так, чтобы максимизировать выигрыш.

= Новичок:
Не имеет об априорных знаний о структуре игры, кроме наборов стратегий.
Не получает данных о выплатах по результатам кона
Получает данные о выборе оппонента по итогам каждого кона
Имеет “совершенную” память

Аудитория=

Лектор=

Задача новичка – максимизация его выигрыша по итогам серии игр

Задача новичка – максимизация его выигрыша по итогам серии игр

Антагонистическая матричная игра со смешанным равновесием3001= Осведомленный игрок: Может иметь знание о структуре игры Получает сведения о

Слайд 123
0
0
1
Решение игры
В традиционном понимании эта игра имеет решение в смешанных

стратегиях:
((0.25, 0.75), (0.25,0.75), 0.75)
Известно (см. например, Морозов, Васин), что в

решении игры все стратегии игроков, не исключенные по доминированию, имеют одинаковые ожидаемые выплаты. Это значит, что если новичок придерживается оптимальной стратегии, то осведомленному игроку все равно, какую выбрать стратегию.

Обратное утверждение состоит в том, что для Новичка существует алгоритм асимптотического приближения к равновесной стратегии, при котором Осведомленный рациональный игрок в среднем будет играть (0.5,0.5).

Тогда игра стремится к точке ((0.25, 0.75), (0.5,0.5), 0.75), то есть, новичок может найти свою оптимальную стратегию и иметь выигрыш, не меньший, чем в точке равновесия по Нэшу. Но он не сможет выиграть больше за счет отклонения Осведомленного игрока точки равновесия.

3001Решение игрыВ традиционном понимании эта игра имеет решение в смешанных стратегиях:((0.25, 0.75), (0.25,0.75), 0.75)Известно (см. например, Морозов,

Слайд 13Что нужно для доказательства
Почему осведомленный игрок будет адекватно менять свою

стратегию в зависимости от меняющейся стратегии новичка? => Предположение о

осведомленности оппонента (см., например, индекс Гиттингса).
Почему, если новичок играет оптимально, осведомленный игрок будет играть (0.5, 0.5) – ведь он может с тем же выплатами играть любую смешанную стратегию? => Предположение о рациональности осведомленного игрока и симметричных отклонениях новичка от равновесной стратегии.
Предположение, что решение в игре единственное и вполне смешанное
Но новичок останется новичком, если алгоритм его действий позволит ему выяснить также и выполнение всех этих условий.

?

Что нужно для доказательстваПочему осведомленный игрок будет адекватно менять свою стратегию в зависимости от меняющейся стратегии новичка?

Слайд 14Новичок остается новичком
Новичку предлагается алгоритм решения его задачи – нахождения

его равновесной стратегии.
При выполнении перечисленных условий алгоритм должен привести новичка

к решению. Если этот алгоритм новичка не сходится, новичок будет знать, что не выполняется какое-то из требований.
В этом смысле новичок остается новичком – он действует в рамках предположений, которые может проверить, и находит решение, если предположения верны.

Возможно, перечисленные требования можно ослабить. Специально этот вопрос не исследовался. Единственное предположение, требующее объяснений - предположение о том, что игра является антагонистической.
Новичок остается новичкомНовичку предлагается алгоритм решения его задачи – нахождения его равновесной стратегии.При выполнении перечисленных условий алгоритм

Слайд 15II фаза – переход к решению







I фаза – накопление данных







Алгоритм

Новичка
Случай 2х2 стратегий
(0,1)
(1,0)
(х, 1-х)
(0,1)
(1,0)
(х, 1-х)

II фаза – переход к решениюI фаза – накопление данныхАлгоритм НовичкаСлучай 2х2 стратегий(0,1)(1,0)(х, 1-х)(0,1)(1,0)(х, 1-х)

Слайд 16II фаза
Алгоритм Новичка
Случай 3х3 стратегий
(0,0,1)
(0,1,0)
(1,0,0)
r(1)=r(2)
r(2)=r(3)
r(1)=r(3)

II фазаАлгоритм НовичкаСлучай 3х3 стратегий(0,0,1)(0,1,0)(1,0,0)r(1)=r(2)r(2)=r(3)r(1)=r(3)

Слайд 17Алгоритм Новичка
Новичок нацелен на обнаружение закономерностей в поведении Осведомленного игрока.
Как

только закономерности обнаружены, Новичок принимает решения так, чтобы обнаруженные закономерности

более не проявлялись.
Отсутствие закономерностей в поведении Осведомленного игрока для Новичка означает отсутствие в его действиях информации, или, в случае матричной игры, локального максимума энтропии в виде:





Где - компоненты профиля стратегий осведомленного игрока. Поиск закономерностей в случае матричной игры соответствует вычислению компонентов , а алгоритмом принятия решений может быть любой алгоритм, максимизирующий .

Единственным требованием к игре, которому нужно иметь объяснение –
игра должна быть антагонистической.

Алгоритм НовичкаНовичок нацелен на обнаружение закономерностей в поведении Осведомленного игрока.Как только закономерности обнаружены, Новичок принимает решения так,

Слайд 18Модель коммуникации
Осведомленный игрок – автор сообщения
Новичок – получатель сообщения
ДО:
ПОСЛЕ:
У игрока

есть цель – вызвать определенное поведение у новичка. Он ее

рационально преследует.

Игроку все равно, какое предпринять действие – сообщение передано.

Действия новичка блуждающие – ему нужно “почувствовать” цель осведомленного игрока

В действиях новичка есть определенность. Сообщение получено.

Модель коммуникацииОсведомленный игрок – автор сообщенияНовичок – получатель сообщенияДО:ПОСЛЕ:У игрока есть цель – вызвать определенное поведение у

Слайд 19Результаты
Алгоритм Новичка, асимптотически выигрывающий 100% от принципиально возможного выигрыша в

антагонистическую матричную игру против осведомленного оппонента
В процессе выполнения алгоритма можно

проверить условия, необходимые для его применимости к данной игре.
Алгоритм отражает возможную связь механизма определения цели с физическим принципом максимума энтропии.

РезультатыАлгоритм Новичка, асимптотически выигрывающий 100% от принципиально возможного выигрыша в антагонистическую матричную игру против осведомленного оппонентаВ процессе

Слайд 20Спасибо!
Контакты:
Павел А. Малышкин
МФТИ, ФРТК, кафедра Радиоэлектроники и прикладной информатики
pavelmalyshkin@gmail.com

Спасибо!Контакты:Павел А. МалышкинМФТИ, ФРТК, кафедра Радиоэлектроники и прикладной информатикиpavelmalyshkin@gmail.com

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика