slajdy 5

advertisement
Gry w postaci ekstensywnej
Wykład 5
Trzy firmy
• Równowaga indukcji wstecznej: (OUT; OUT; AAF)
• Jest jednak dużo więcej równowag Nasha, na przykład
(IN; IN; AFA) – niewiarygodna groźba Tesco.
Forma standardowa
BILLA
AAA
AAF
AFA
FAA
AFF
FAF
FFA
FFF
IN
Albert
IN
OUT
-1 5 6 -1 5 6
-1 5 6 -1 5 6
-1 5 6 -1 5 6
2 0 1
2 0 1
-1 5 6 -1 5 6
2 0 1
2 0 1
2 0 1
2 0 1
2 0 1
2 0 1
OUT
Albert
IN
OUT
AAA -2 2 0
5 4 4
AAF 0 -1 7
5 4 4
AFA -2 2 0
3 1 2
FAA -2 2 0
5 4 4
AFF 0 -1 7
3 1 2
FAF 0 -1 7
5 4 4
FFA -2 2 0
3 1 2
FFF
0 -1 7
3 1 2
Dr Strangelove
• Komandor floty powietrznej
Stanów Zjednoczonych
rozkazuje 34 B-52, aby
rozpocząć nuklearny atak na
Związek Radziecki
• Zamyka wszystkie kanały
komunikacji z bazą i
samolotami
• Amerykański prezydent
zaprasza rosyjskiego
ambasadora do war room i
wyjaśnia sytuację
• Decydują się zadzwonić do
rosyjskiego premiera Dimitrija
Dr Strangelove
• Co jest wynikiem jeśli Stany
Zjednoczone nie wiedzą o
istnieniu doomsday device?
• Co jest wynikiem jeśli wiedzą?
• Zobowiązanie (commitment)
musi być obserwowalne
• Co jeśli Związek Sowiecki może
zdezaktywować urządzenie?
• Zobowiązanie musi być
nieodwracalne
Thomas Schelling: The power to constrain an adversary
depends upon the power to bind oneself
Wiarygodne zobowiązania (groźby)
• W sytuacjach nie-strategicznych więcej opcji
nigdy nie zaszkodzi
• Tak nie jest w sytuacjach strategicznych
• Można zmienić działanie swojego przeciwnika
eliminując niektóre swoje opcje działania
Przykłady
• 1066: William Zdobywca rozkazał swoim żołnierzom spalić
statki po wylądowaniu, aby uniemożliwić im odwrót
• 1519: Hernan Cortes zatopił swoje statki po wylądowaniu w
Meksyku z tego samego powodu
• Sun-tzu w The art of war, 400 przed Chrystusem:
At the critical moment, the leader of an army acts like one who
has climbed up a height, and then kicks away the ladder
behind him
Skarb piratów
• 5 racjonalnych piratów Adam, Bogdan, Czesio, Dzidek i
Eustachy znajdują wielką skrzynię ze skarbem a w niej
200 sztuk złota.
• Piraci mają ścisły porządek starszeństwa
odpowiadający przeszłym zasługom i sile: Adam jest
nad Bogdanem, Bogdan nad Czesiem, Czesio nad
Dzidkiem a Dzidek nad Eustachym.
• Najpierw Adam proponuje jak rozdzielić 200 sztuk złota
między pozostałych
• Wszyscy piraci głosują demokratycznie
– Jeśli większość zaakceptuje – propozycja przechodzi
– Jeśli większość odrzuci – zabijają Adama i następny w
kolejności pirat proponuje podział
Skarb piratów
Gra sekwencyjna – znajdziemy SPNE poprzez indukcję wsteczną:
4 krok: zostało tylko dwóch piratów, Dzidek przydziela sobie cały
skarb – remis, propozycja przechodzi
3 krok: zostało trzech piratów, Czesio proponuje – nie może
dać Dzidkowi więcej niż miał, ale może dać Eustachemu
Skarb piratów
2 krok: czterech piratów zostało, Bogdan musi
przekonać przynajmniej jednego – najlepiej
Dzidka
Skarb piratów
1 krok: pięciu piratów zostało, Adam nie
przekona Bodzia, ale może przekonać Czesia
i Eustachego
Gry w formie ekstensywnej (drzewo)
vs gry w formie strategicznej (tabelka)
• Gra w postaci strategicznej składa się z:
– Zbiór graczy
– Dla każdego gracza:
• Zbiór akcji
• Funkcja wypłat dla każdego profilu akcji
• Gry w postaci ekstensywnej zawierają więcej
informacji:
– Kolejność ruchów
– Akcje, które mają do dyspozycji gracze na różnych
etapach gry
– Informacja dostępna dla graczy podczas gry
Drzewo – graf acykliczny
• Wierzchołki:
– Wierzchołki decyzyjne oraz losowe
– Korzeń i liście
•
•
•
•
•
Krawędzie (gałęzie)
Etykiety graczy
Etykiety akcji
Wypłaty
Zbiory informacji
Strategie w grach ekstensywnych
• Strategia czysta gracza jest to plan akcji w
każdym wierzchołku decyzyjnym tego gracza
• W równowadze indukcji wstecznej każdy gracz
gra optymalnie w każdym wierzchołku
decyzyjnym (gra sekwencyjnie racjonalną
strategię)
• Równowaga a wynik gry w równowadze
Inny przykład
• Kodak zastanawia się, czy wejść na rynek
fotografii natychmiastowej a Polaroid
zastanawia się czy walczyć czy się zgodzić
Analiza
• Zbiór równowag Nasha = {(In, A), (Out,F)}
• (Out, F) jest oparte na niewiarygodnej groźbie
Polaroida
• Równowaga indukcji wstecznej eliminuje
równowagi Nasha, które są oparte na
niewiarygodnej groźbie.
• Równowaga Nasha wymaga racjonalności
• Równowaga indukcji wstecznej wymaga
racjonalności sekwencyjnej
– Gracze muszą grać optymalnie w każdym punkcie gry
Gra w formie ekstensywnej z
niedoskonałą informacją
Nie możemy zastosować indukcji
wstecznej, ponieważ K nie może
znaleźć optymalnej strategii
znajdując się w zbiorze informacji,
który zawiera dwa wierzchołki
Subgame perfect Equilibrium
• Podgra to część drzewa gry taka, że:
– Zaczyna się od pojedynczego wierzchołka decyzyjnego
– Zawiera każdy następnik tego wierzchołka
– Jeśli zawiera jakiś wierzchołek w zbiorze informacji, wtedy
zawiera wszystkie wierzchołki w tym zbiorze informacji
Jet podgrą
Nie jest podgrą
Subgame Perfect Nash Equilibrium
• Czysta strategia gracza to plan akcji w każdym
zbiorze informacji tego gracza
• Profil strategii jest SPNE jeśli w każdej
podgrze jest równowagą Nasha
Bank run
Panika finansowa
• Dwóch inwestorów – każdy z nich zdeponował sumę D w banku.
• Bank zainwestował w długoterminowy projekt.
• Jeśli bank będzie zmuszony upłynnić inwestycję przed terminem
zapadalności, wówczas będzie w stanie odzyskać tylko 2r, gdzie D>r>D/2
• Jeśli inwestycja „dotrwa” do końca, wypłata będzie równa 2R, gdzie R>D
• Są dwa okresy, w których inwestorzy mogą wycofać swój wkład:
– Okres 1, przed okresem zapadalności inwestycji
– Okres 2, po okresie zapadalności
• Nie ma dyskontowania
Niestandardowy sposób reprezentacji
gry
OKRES 1
• Jeśli oboje wypłacą, każdy otrzyma r
• Jeśli jeden wypłaci a drugi nie, to ten
pierwszy otrzyma D a drugi 2r-D i gra
się kończy
• Jeśli nikt nie wypłaci, wówczas
przechodzimy do kolejnego etapu
wypłaca
nie wypł.
wypłaca
r,r
2r-D,D
nie wypł.
D,2r-D
do okresu 2
R>D>r>D/2
OKRES 2
• Jeśli oboje wypłacą, każdy otrzyma R
• Jeśli jeden wypłaci a drugi nie, to ten
pierwszy otrzyma 2R-D a drugi D
• Jeśli żaden nie wypłaci, wówczas
bank zwraca każdemu R
wypłaca
nie wypł.
wypłaca
R,R
D,2R-D
nie wypł.
2R-D,D
R,R
Rozwiązujemy od tyłu
wypłaca
nie wypł.
wypłaca
R,R
D,2R-D
nie wypł.
2R-D,D
R,R
R>D>r>D/2
OKRES 2
• Ponieważ R>D, “wypłaca” ściśle dominuje “nie wypł.”, dlatego
(wypłaca, wypłaca) jest równowagą w strategiach ściśle dominuj.
OKRES 1
• Nie ma dyskontowania, więc po prostu wstawiamy (R,R)
• Dwie równowagi Nasha:
wypłaca
nie wypł.
wypłaca
r,r
2r-D,D
– (nie wypł. nie wypł.) z wypłatą (R,R)
– (wypłaca, wypłaca) z wypłatą (r,r) [panika finansowa]
nie wypł.
D,2r-D
R, R
Równowaga induckji wstecznej vs
SPNE
• Równowaga indukcji wstecznej występuje w
grach dynamicznych z doskonałą informacją
• SPNE bardziej ogólna – także dla gier z
niedoskonałą informacją
• Od teraz nie będę robił rozróżnienia, tylko
będę zawsze mówił SPNE
Gra ultimatum
• Gracz 1 proponuje podział 100 złotych
(liczonych w dziesiątkach)
• Gracz 2 akceptuje podział – każdy dostaje to
co przewiduje podział, lub odrzuca – wtedy
100 złotych przepada
• Jakie gracze mają strategie? Ile ich jest?
• Co jest równowagą SPNE? Ile ich jest?
Gra ultimatum
Jedyne równowagi SPNE to
• (0, AAAAAAAAAAA)
• (1,OAAAAAAAAAA)
Gra ultimatum
• (5,OOOOOAAAAAA) jest równowagą Nasha
(czemu?), ale groźba gracza drugiego, że
odrzuci wszystko poniżej 50 złotych jest
niewiarygodna, nie jest SPNE ponieważ nie
jest optymalna w drugiej podgrze.
– Ile jest równowag Nasha?
Stonoga (Centipede)
Co jest równowagą indukcji wstecznej?
Krytyka: Jakiego rodzaju racjonalność jest wymagana?
Gry statyczne vs gry dynamiczne
• Gry statyczne
– Gracze ruszają się jednocześnie
– Wybierają jedną akcję
– Równowaga Nasha – profil akcji (jedna akcja
najlepszej odpowiedzi dla każdego gracza
• Gry dynamiczne
– Gracze ruszają się sekwencyjnie
– Wybierają jedną akcję w każdym swoim zbiorze
informacyjnym
– SPNE – profil strategii (jedna strategia najlepszej
odpowiedzi w każdej podgrze dla każdego gracza
Download