LAB II – W

advertisement
WIELOKRYTERIALNE W SPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI
LAB II – W PROWADZENIE DO TEORII GIER (GAME THEORY)
I. Teoria Gier
•
Badanie optymalnego zachowania w przypadku konfliktu interesów (lub konieczności współpracy)
•
Wywodzi się z badania gier hazardowych
•
Gra: dowolna sytuacja konfliktowa (strategiczna) wraz z jej formalnym opisem
•
Gracz: dowolny uczestnik tej sytuacji (człowiek, grupa, przedsiębiorstwo, zwierzę) podejmujący decyzje;
w grę zazwyczaj zaangażowanych jest wielu graczy
•
Każda strona wybiera pewną strategię postępowania, po czym zależnie od strategii własnej oraz innych
uczestników każdy gracz otrzymuje wypłatę w jednostkach użyteczności (pieniądze, satysfakcja,
szanse przekazania genów, itd.)
•
Grę reprezentuje się za pomocą macierzy wypłat (gracze, strategie i wypłaty im przypisane)
•
Zastosowania w informatyce (sztuczna inteligencja), ekonomii, socjologii, biologii
•
Narządzie matematyczne; formalne zamodelowanie sytuacji wymaga określenia graczy, identyfikacji ich
potencjalnych akcji, preferencji oraz reakcji
•
Początki sięgają 1838r. (Antoine Cournot), potem Emile Morel, John von Neumann, Oskar Morgenstern
•
Herbert Simon (Nobel w 1978r. za wkład w rozwój ewolucyjnej teorii gier; ograniczona racjonalność vs.
podejmowanie decyzji)
•
John Nash, Reinhard Selten i John Harsanyi (Nobel w 1994r. za rozwój teorii gier i jej zastosowania
w ekonomii)
•
William Vickrey i James Millrees (Nobel w 1996r. za stworzenie modeli przetargów)
•
W 2005r. i 2007r. Nagrody Nobla za zastosowanie teorii gier w dziedzinie ekonomii (m.in. Leonid
Hurwicz)
*
Herbet Simon
John Nash
John Nash
Leonid Hurwicz
II. Plan laboratorium II
•
Przykłady: dylemat więźnia (ang. Prisoner's Dilemma), gra w cykora (ang. Game of Chicken), …
•
Rozróżnienie strategii dominujących (ang. dominant strategies) oraz strategii równowagi
(ang. equilibrium strategies)
•
Rozróżnienie czystej i mieszanej równowagi Nasha (ang. pure and mixed Nash equilibria)
•
Istnienie oraz identyfikacja (obliczenie) mieszanych równowag Nasha
•
Główne zainteresowanie: gry bez współpracy (ang. non-cooperative; a nie ze współpracą)
strategiczne (ang. strategic; a nie rozległe (ang. extensive)) z pełną informacją (ang. perfect, a nie
niepełną)
III. Dylemat więźnia
Scenariusz:
„Dwóch podejrzanych A i B zostało zatrzymanych przez policję.
Policja, nie mając wystarczających dowodów do postawienia zarzutów, rozdziela więźniów i przedstawia
każdemu z nich tę samą ofertę:
jeśli będziesz zeznawać (confess) przeciwko drugiemu, a drugi będzie milczeć, to wyjdziesz na
wolność (0 lat w więzieniu),
jeśli będziesz milczeć, a drugi zezna przeciwka tobie, spędzisz 5 lat w więzieniu,
jeśli obaj będziecie milczeć, odsiedzicie w więzieniu 1 rok za inne przewinienia;
jeśli obaj będziecie zeznawać, obaj dostaniecie wyrok w wysokości 3 lat.
Każdy z nich musi podjąć decyzję niezależnie i żaden nie dowie się, czy drugi milczy, czy zeznaje, aż do
momentu wydania wyroku.”
Ogólny schemat – tablica użyteczności (zysku, payoff)
UA \ UB
B zeznaje
B nie zeznaje
A zeznaje
R, R
S, T
A nie zeznaje
T, S
P, P
Aby gra spełniają warunki dylematu: S > P > R > T
Dylemat więźnia jest grą symetryczną (zamień graczy
miejscami i gra pozostaje bez zmian)
Pytanie: Jak powinni postąpić? Jaka jest racjonalna (ang. rational) strategia?
Co to znaczy racjonalny? Zależy mu na maksymalizacji swojego zysku.
Krótszy wyrok dla siebie, a wyrok dla drugiego jest mi obojętny.
Cel: uzyskanie jak najkrótszego wyroku.
Terminologia: dla gier tego typu, mówimy, że gracz może albo współpracować z przeciwnikiem (milcząc; nie
zeznając) lub zdradzić, oszukać (zeznawać)
IV. Strategia dominująca (ang. dominant startegy)
Strategia zawsze nie gorsza od jakiejkolwiek innej strategii (prowadzi do niegorszego zysku), niezależnie
od wyboru strategii przez przeciwnika i zdarzeń losowych. Gracz racjonalny nigdy nie wybierze strategii
zdominowanej.
Dylemat więźnia: gracze mają strategię dominującą. Patrz ćwiczenie 1.
Przykłady (analogiczne wybory jak w dylemacie więźnia):
•
Politologia: dwa państwa uwikłane w wyścig zbrojeń (zwiększyć wydatki lub podpisać porozumienie
o zmniejszeniu wydatków) – jaka jest racjonalna strategia?
•
Sport: doping, boks - zmniejszenie wagi, kolarstwo (ucieczka przed peletonem)
•
Reklama: towar, który ludzie kupują niezależnie od tego czy jest reklamowany; dwie firmy sprzedają
papierosy na tym samym rynku – zysk jednej zależy od tego, ile sprzeda druga; za czym optowały
firmy w USA?
•
Informatyka: udostępnianie programów na publicznej licencji GNU jest odpowiednikiem współpracy
w dylemacie więźnia (ułatwienie pracy innym; konieczność udostępnienia ulepszeń na publicznej licencji;
wymuszenie współpracy między rywalizującymi firmami).
•
Ochrona środowiska.
V. Równowaga Nasha
Profil (zbiór) strategii, po jednej dla każdego z graczy, takich że żaden gracz nie może poprawić swojego zysku
jednostronnie odchodząc od obranej strategii (strategia każdego gracza jest optymalna, przyjmując wybór jego
oponentów za ustalony). W równowadze żaden z graczy nie ma powodów jednostronnie odstępować od strategii
równowagi. W tym sensie równowaga jest stabilna.
John. F. Nash, Nagroda Nobla w Ekonomii w 1994r., Oskar w 2001r. ☺
Intuicyjnie: Równowagą Nasha jest następujący zbiór wyborów: wybór gracza A jest optymalny dla wyboru
gracza B i wybór gracza B jest optymalny przy danym wyborze A. Inaczej: Wybieram to, co jest dla mnie
najlepsze, gdy ty robisz to, co robisz. Ty robisz to, co jest dla ciebie najlepsze, gdy ja robię to, co robię.
Patrz ćwiczenie 2.
Przykład: w dylemacie więźnia równowagą Nasha jest profil strategii (zeznaje, zeznaje) - po jednej akcji dla
każdego gracza (w tym wypadku akcja "zeznaje").
Uwaga: W przypadku, gdy nie ma strategii dominującej, posiadanie zbioru strategii równoważących jest
najlepszym co możemy mieć
Dyskusja: Gry z równowagą Nasha są fajne, bo nie musisz utrzymywać swojej strategii w tajemnicy i nie musisz
marnotrawić zasobów, by dowiedzieć się jakie są strategie innych graczy. Oczywiście, pojedyncza (ang. unique)
równowaga jest lepsza.
Równowaga Nasha nie musi być efektywna w sensie Pareto. Patrz ćwiczenie 3.
Przykład: profil (nie zeznaje, nie zeznaje) z wypłatą (4,4) dominuje w silnym sensie profil (zeznaje, zeznaje) z
wypłatą (2,2) - mimo tego ten pierwszy profil nie jest równowagą Nasha.
VI. Iterowany (sekwencyjny) dylemat więźnia
•
Ci sami gracze grają ze sobą wielokrotnie, wybierając strategie w kolejnych rundach na podstawie
wcześniejszych rund;
•
W każdej rundzie gracz może współpracować lub oszukiwać;
•
Gracz może się zrewanżować w następnej rundzie, racjonalnie jest współpracować…
•
…ale nie działa to, gdy liczba rund jest ustalona (dlaczego?)
W przypadku gdy wiadomo, ile dokładnie będzie rozgrywek, optymalna jest strategia „zawsze oszukuj”. Wynika to
z następującego rozumowania: w ostatniej rundzie można równie dobrze oszukać, ponieważ przeciwnik nie
będzie miał już okazji ukarać za to zagranie. Dlatego obaj gracze w ostatniej rundzie oszukają. Zatem
w przedostatniej rundzie również opłaca się oszukać, ponieważ w ostatniej rundzie przeciwnik i tak oszuka, itd.
Zatem aby pojawiła się współpraca, liczba rund musi być losowa, albo przynajmniej nieznana graczom.
Zagraj: http://kane.me.uk/ipd/
W 1984r. ogłoszono konkurs polegający na napisaniu programu, grającego w iterowany dylemat więźnia.
Najlepszą deterministyczną strategią w tym turnieju okazała się strategia „wet za wet”, którą zgłosił Anatol
Rapoport. Była ona jednocześnie najprostszą zgłoszoną – jej cały program w języku BASIC zajmował cztery linie.
Strategia polegała na współpracy w pierwszej rundzie, a w każdej kolejnej robieniu tego co przeciwnik robił
w poprzedniej.
W niektórych sytuacjach lepsza była lekko zmodyfikowana strategia „wet za wet z wybaczaniem”. W strategii tej,
jeśli przeciwnik oszukiwał, z małym prawdopodobieństwem (1%-5%) gracz wybaczał i w kolejnej rundzie dalej
współpracował. Pozwalało to na przerwanie ciągu wzajemnych zdrad, w którym dwie strategie wet za wet mogły
utykać w nieskończoność.
Przyjazność: oznaczająca nie oszukiwanie dopóki przeciwnik tego nie zrobił.
Mściwość: oznaczająca reagowanie na zdradę przeciwnika. Bez tej cechy, strategia nie mogła dawać dobrych
rezultatów; przykładowo strategia „zawsze współpracuj” dawała bardzo kiepskie wyniki, gdyż wielu przeciwników
bezlitośnie wykorzystywało takiego gracza.
Skłonność do wybaczania: oznaczająca wracanie do współpracy po okresie zemsty za oszustwo; to pozwalało
uzyskać znacznie lepsze wyniki niż ciągłe wzajemne mszczenie się.
Brak zazdrości: oznaczająca nie staranie się uzyskać lepszego wyniku niż przeciwnik.
Na podstawie tego eksperymentu wywnioskowano, że dbanie wyłącznie o własne zyski można często najlepiej
realizować będąc przyjaznym i wybaczającym.
VII. Gra w cykora
Scenariusz:
Dwie osoby wsiadają do samochodów i z dużą prędkością jadą naprzeciwko siebie – ten, kto pierwszy
zahamuje lub zjedzie z trasy (skręt w prawo) jest "cykorem" (ang. chicken) i przegrywa. Ten który skręci
ratuje życie, ale traci prestiż, jadący do końca prosto wygrywa prestiżowo, jeśli jednak obydwaj zdecydują
się jechać do końca – zginą.
Różnica w stosunku do dylematu więźnia: najwięcej można zyskać lub stracić wybierając konfrontację.
Strategia pokojowa chroni przed największą stratą, ale nie przynosi żadnej nagrody. Najgorsza jest nie sytuacja
asymetryczna (jeden jedzie, drugi ucieka), lecz symetryczna (obaj jadą na siebie) – jeśli koszty honorowe byłyby
większe od kosztów wypadku gra zmienia się w zwykły dylemat więźnia.
Sytuacje rzeczywiste: najbardziej opłacalna jest "strategia szaleńca" – trzeba przekonać przeciwnika, że nie myśli
się racjonalnie i zamierza jechać bez względu na okoliczności. Lub inaczej: jeśli masz powód, by sądzić, że Twój
przeciwnik stchórzy, jedź, ale jeśli masz powód, by sądzić, że Twój przeciwnik nie skręci, to skręć
VIII. Notacja i formalna definicja
Gra strategiczna (ang. strategic game) składa się ze zbioru graczy (ang. players), zbioru akcji dla każdego
gracza, oraz relacji preferencji dla profilu akcji
Gracze: i∈{1,...,n}
Strategie, akcje: każdy gracz i ma zbiór Ai możliwych akcji
Profil strategii (akcji): a = (a1, a2,..., an) dla graczy 1, 2,...,n ((ang. strategy profile) zbiór zawierający jako
elementy strategie, po jednej dla każdego gracza. Profil strategii pozwala wyznaczyć ruch każdego gracza
w każdej sytuacji, a zatem w pełni określa całkowity przebieg gry)
Preferencje: reprezentowane jako użyteczności ui: A1 … x An → R
(a-i, ai') – profil akcji taki jak a z wyjątkiem tego, że gracz i wybiera ai' zamiast ai
Czysta równowaga Nasha to profil akcji a taki, że ui(a) ≥ ui(a-i, ai') dla każdego gracza i oraz dla każdej
akcji ai' gracza i.
Przykład notacji:
a = (zeznaje, zeznaje) - gracz 1 i 2 zeznają,
b = (a-1, nie zeznaje) - profil taki jak a z tą różnicą, że gracz 1 (a-1) zmienia strategię z "zeznaje" na "nie zeznaje";
pozostali gracze nie zmieniają swojej strategii, czyli b = (nie zeznaje, zeznaje);
c = (a-2, nie zeznaje) = (zeznaje, nie zeznaje)
u1(a)=2, u2(a)=2, u1(a-1, nie zeznaje)= u1(b)=0, u2(a-2, nie zeznaje)= u2(c)=0, itd.
Obserwacje:
•
Istnieją gry bez czystych równowag Nasha
•
Na razie tylko porządek użyteczności ma znaczenia (intensywność czy też różnica nie)
•
Modelujemy pojedyncze decyzje. W niektórych sytuacjach mamy do czynienia z sekwencją decyzji –
jedna następuje po drugiej (patrz extensive games)
IX. Konkurs (gazetowy)
Scenariusz:
Każdy czytelnik może zaproponować (rzeczywistą) liczbę z zakresu 0 do 100. Zwycięzcą będzie ten gracz,
czyjego liczba będzie najbliższa 2/3 średniej wszystkich zgłoszeń (w przypadku remis nagroda zostanie
podzielona równo między najlepszych graczy)
A. Bosch-Dom`enech, J.G. Montalvo, R. Nagel, and A. Satorra. One, Two, (Three), Infinity, . . . : Newspaper and
Lab Beauty-Contest Experiments. American Economic Review, 92(5):1687–1701, 2002.
Jaki numer zgłosisz (i dlaczego)?
Średnia z Waszych 29 propozycji: 29.029, Wynik:19.352
Wygrywa: 2 pkt - Mateusz Ledzianowski (19.18),
1 pkt - Jakub Kwiatkowski (20), Maciej Dąbrowski (20), Grzegorz Spychała (20), Sebastian Pawlak (0)
Równowaga Nasha?
Jak muszą postępować wszyscy gracze, by żaden z nich nie miał żadnego
argumentu, by odejść od przyjętej strategii (tj. uzyskać lepszy wynik)
Co jeśli mogą zgłaszać tylko liczby całkowite? Dochodzi jedna dodatkowa równowaga (razem są dwie)
Co jeśli liczby całkowite i p=0.9, a nie p=2/3? Dochodzą kolejne trzy równowagi (razem pięć).
X. Mieszana równowaga Nasha
Strategia czysta (strategia prosta) - w teorii gier jest to strategia, w której każdy gracz dokonuje jednego
wyboru z prawdopodobieństwem 1 i trwa przy nim. Jest szczególnym przypadkiem strategii mieszanej, w której
gracze podejmują decyzje na podstawie rozkładu prawdopodobieństwa. Strategia czysta dostarcza kompletnej
definicji na temat tego, jak gracze będą postępować w danej grze. W danej sytuacji ruch gracza jest
zdeterminowany przez przyjętą definicję, np. jeśli gracz określi, że będzie wybierał reszkę przy rzucie monetą to
będzie to robił zawsze.
Na pierwszy rzut oka mogłoby się wydawać, że jeśli dla danej gry istnieje strategia optymalna, powinna nią być
strategia czysta. Tak jednak nie jest.
Rozpatrzmy następującą grę:
dwaj gracze wybierają liczbę jeden lub dwa;
jeśli wybiorą to samo wygrywa pierwszy gracz;
jeśli wybiorą co innego wygrywa drugi gracz.
Jeśli pierwszy gracz miałby optymalną strategię czystą "wybrać 1", drugi zawsze wybierałby 2, jeśli miałby
optymalną strategię czystą "wybrać 2", drugi zawsze wybierałby 1. Jeśli drugi gracz miałby optymalną strategię
czystą "wybrać 1", pierwszy zawsze wybierałby 1, jeśli zaś miałby optymalną strategię czystą "wybrać 2",
pierwszy zawsze wybierałby 2.
Przykład: gra bez czystej równowagi Nasha
Obserwacja: Którąkolwiek akcje podejmie gracz z wiersza, gracz z kolumny może
L
R
T
1/2
2/1
zareagować w ten sposób, że gracz z wiersza wybrałby inną akcję. I tak dalej...
B
2/1
1/2
Pomysł: Wykorzystajmy rozkład prawdopod. dla wszystkich możliwych akcji jako strategię.
Strategia mieszana: w jakiejkolwiek sytuacji decyzję jaki ruch wykonać gracz podejmuje losowo. Strategia
mieszana zdefiniowana jest przy pomocy rozkładu prawdopodobieństwa na zbiorze strategii czystych. Definicja ta
odzwierciedla fakt, że zamiast wybierać na pewno konkretny ruch, gracz może preferować w pewnych sytuacjach
aby wybrać swój ruch losowo.
Strategia mieszana pi gracza i to rozkład prawdopodobieństwa na zbiorze akcji Ai dostępnych dla gracza i.
Przykład: Załóżmy, że gracz 1 może wykonać akcje: T, M oraz B. Wtedy strategia mieszana, by grać T
z prawdopodobieństwem ½, M z prawdopodobieństwem 1/6 oraz B z prawdopodobieństwem 1/3 zapisuje się
jako p1 =(1/2, 1/6, 1/3).
Oczekiwany zysk (ang. expected payoff) gracza i dla profilu p strategii mieszanych oblicza się jako:
Ei ( p) =
∑
a ∈ A1 × ... A n




⋅
u
(
a
)
p
(
a
)
i
i 
 i

i∈{1,..., n }


∏
Suma po wszystkich możliwych profilach akcjI a ( zysk i-tego gracza ∙ iloczyn prawdopodobieństw wyboru a)
Przykład obliczenia oczekiwanego zysku:
I\II
L (q=0.6)
R (1-q=0.4)
T (p=0.75)
1/2
3/1
B (1-p=0.25)
4/1
2/2
Dla strategii ((p,1-p),(q,1-q))=((0.75,0.25),(0.6,0.4)) oczekiwany
zysk gracza I:
E1((0.75,0.25),(0.6,0.4)) =
= 0.75*0.6*1 + 0.75*0.4*2 + 0.25*0.6*4 + 0.25*0.4*2
Dyskusja:
•
Do tej pory rozważaliśmy preferencje porządkowe
•
W kontekście strategii mieszanych, korzystamy z liczb reprezentujących użyteczności i zakładamy, że
preferencje graczy dla zbioru różnych profili mieszanych strategii są reprezentowane przez oczekiwany
zysk (ang. expected payoff) względem tych funkcji użyteczności.
Mieszana równowaga Nasha
Oznaczenie: (s-i, si') -profil mieszanych strategii taki jak s z wyjątkiem tego, że gracz i wybiera si' zamiast si.
Profil mieszanych strategii s taki, że: Ei(s) ≥ Ei(s-i,si') dla każdego gracza i oraz każdej możliwej strategii
mieszanej si' dla gracza i.
Nieformalnie: mieszana równowaga Nasha to zbiór mieszanych strategii, po jednej dla każdego gracza, takich
że żaden gracz nie ma żadnego bodźca (motywacji), by samodzielnie odejść od przypisanej graczom strategii.
Przykład interpretacji notacji i obliczenia oczekiwanych zysków:
I\II
L (q=0.5)
R (1-q=0.5)
T (p=0.5)
1/2
2/1
B (1-p=0.5)
2/1
1/2
Dla strategii s=((p,1-p),(q,1-q)) = ((0.5,0.5),(0.5,0.5)) :
•
E1((0.5,0.5),(0.5,0.5)) = 0.5*0.5*1 + 0.5*0.5*2 + 0.5*0.5*2 + 0.5*0.5*1=1.5
•
E2((0.5,0.5),(0.5,0.5)) = 0.5*0.5*2 + 0.5*0.5*1 + 0.5*0.5*1 + 0.5*0.5*2=1.5
Dla (s-1, (0.75,0.25)) tylko gracz I zmienia swoją strategię mieszaną z (0.5,0.5) na (0.75,0.25), czyli profil
mieszanych strategii wygląda następująco: ((0.75,0.25),(0.5,0.5)). Wtedy:
•
E1(s-1, (0.75,0.25))= E1((0.75,0.25),(0.5,0.5)) = 0.75*0.5*1 + 0.75*0.5*2 + 0.25*0.5*2 + 0.25*0.5*1=1.5
•
E2(s-1, (0.75,0.25))= E2((0.75,0.25),(0.5,0.5)) = 0.75*0.5*2 + 0.75*0.5*1 + 0.25*0.5*1 + 0.25*0.5*2=1.5
Dla (s-2, (0.75,0.25)) tylko gracz II zmienia swoją strategię mieszaną z (0.5,0.5) na (0.75,0.25), czyli profil
mieszanych strategii wygląda następująco: ((0.5,0.5), (0.75,0.25)). Wtedy:
•
E1(s-2, (0.75,0.25))= E1((0.5,0.5),(0.75,0.25)) = 0.5*0.75*1 + 0.5*0.75*2 + 0.5*0.25*2 + 0.5*0.25*1=1.5
•
E2(s-2, (0.75,0.25))= E2((0.5,0.5),(0.75,0.25)) = 0.5*0.75*2 + 0.5*0.75*1 + 0.5*0.25*1 + 0.5*0.25*2=1.5
Jakkolwiek jednostronnie zmienić strategię gracza I lub II, nie mają oni z tego zysku, co potwierdza, że
((0.5,0.5),(0.5,0.5)) jest mieszaną równowagą Nasha.
Dla porównania, rozważając strategię s=((p,1-p),(q,1-q)) = ((1,0),(1,0)):
•
E1((1,0),(1,0))= 1*1*1 + 1*0*2 + 0*1*2 + 0*0*1=1
•
E2((1,0),(1,0))= 1*1*2 + 1*0*1 + 0*1*1 + 0*0*2=2
Zmieniając jednostronnie strategię z (1,0) na (0,1) gracz I może odnosi zysk:
E1((0,1),(1,0))= 0*1*1 + 0*0*2 + 1*1*2 + 1*0*1=2,
więc opłaca mu się odstąpić jednostronnie od strategii ((1,0),(1,0)).
XI. Istnienie Mieszanych Równowag Nasha
(Nash, 1950) Every finite strategic game has got at least one mixed Nash equilibrium.
J.F. Nash. Equilibrium Points in n-Person Games. Proc. National Academy of Sciences of the United States of
America, 36:48–49, 1950.
XII. Obliczenie Równowag Nasha
Pokazaliśmy ogólną metodę obliczenia wszystkich mieszanych równowag Nasha dla gry z dwójką graczy,
z których każdy może podjąć dwie akcje:
(1) Rozważamy oczekiwane zyski dla każdej akcji jednego z graczy przy założenie, że mieszana strategia
drugiego gracza jest ustalona.
(2) Na tej podstawie modelujemy najlepszą strategię (odpowiedź) gracza w zależności od strategii drugiego i
przedstawiamy ją w postaci wykresu uzależniającego p (prawdopodobieństwo dla gracza I) od q
(prawdopodobieństwo dla gracza II) i drugiego wykresy uzależniającego q od p.
(3) Miejsca przycięcia wykresów identyfikują mieszane równowagi Nasha.
W ogólności, obliczenie równowag Nasha to bardzo złożony problem. Jak trudny jest pytaniem otwartym?
„ . . [this] is a most fundamental computational problem whose complexity is wide open.”
Papadimitriou (2001) Algorithms, Games, and the Internet. Proc. STOC-2001
XIII. Nadracjonalność
Dylemat podróżnika
Scenariusz:
Linia lotnicza zgubiła dwie walizki, należące do dwóch podróżnych. Walizki były identyczne i miały taką
samą zawartość. Linia oferuje odszkodowanie za ich zgubienie, ale w kwocie nie większej niż $100. Aby
określić wartość walizek, ich właściciele proszeni są niezależnie od siebie o napisanie kwoty jakiej
oczekują – nie mniejszej niż $2 i nie większej niż $100. Jeśli napiszą taką samą kwotę, zostanie ona
uznana za wiążącą i obaj otrzymają odszkodowanie tej wysokości. Jeśli napiszą różne kwoty, za wiążącą
zostanie uznana niższa kwota. Dodatkowo, ten kto napisze niższą kwotę, dostanie bonus w wysokości $2,
a ten kto napisze wyższą, straci $2 ze swojego odszkodowania.
Jeśli przewidujemy że przeciwnik napisze wartość $100, najbardziej opłaca nam się napisać $99. Nasza nagroda
wyniesie wtedy $101. Jeśli jednak przeciwnik przewidzi, że będziemy chcieli napisać $99, sam napisze $98 (jego
nagroda wyniesie wtedy $100, a nasza $96). Kontynuując to rozumowanie, dojdziemy do wniosku że od każdej
strategii $X lepsza jest strategia X-$1, z wyjątkiem $2, które są minimalną wartością. Zgodnie z teorią gier,
napisanie $2 jest więc strategią dominującą i jedyną równowagą Nasha jest sytuacja, gdy obaj gracze dostają $2.
Eksperymenty, w których gracze grają w tę grę na prawdziwe pieniądze, pokazują jednak że większość ludzi
podaje kwoty bliskie $100. Co więcej, strategię taką stosują ludzie zarówno nie znający teorii gier jak i ci którzy ją
znają. Dodatkowo, gracze grający w ten sposób zyskują znacznie więcej niż gdyby grali strategią optymalną
według teorii.
Oznacza to nie tylko że ludzie nie grają racjonalnie, ale też że zyskują więcej niż gdyby tak grali. Ten paradoks
stanowi podstawę do opracowywania teorii konkurencyjnych do teorii racjonalnego wyboru. Przykładowo,
strategia nadracjonalna w tej grze każe zawsze wybierać wartość $100, zakładając że przeciwnik dojdzie do tego
samego wniosku.
Macierz wypłat
100
99
98
97
.
3
2
100
100, 100
101, 97
100, 96
99, 95
.
5, 1
4, 0
99
97, 101
99, 99
100, 96
99, 95
.
5, 1
4, 0
98
96, 100
96, 100
98, 98
99, 95
.
5, 1
4, 0
97
95, 99
95, 99
95, 99
97, 97
.
5, 1
4, 0
.
.
.
.
.
.
.
.
3
1, 5
1, 5
1, 5
1, 5
.
3, 3
4, 0
2
0, 4
0, 4
0, 4
0, 4
.
0, 4
2, 2
Bonus: Najlepsze średnie wyniki: 2pkt - Mateusz Sarbinowski (98), Mateusz Ledzianowski (98), Marek
Rydlewski (98)
Nadracjonalność: pojęcie wprowadzone do teorii gier przez Douglasa Hofstadtera w felietonach zebranych
w książce Metamagical Themas. Polega na zakładaniu, że przeciwnik przeprowadza identyczne rozumowanie jak
my i szukaniu strategii, która daje najlepsze wyniki przy tym założeniu.
Przykład: dylemat więźnia
W najbardziej klasycznej grze dla dwóch graczy, dylemacie więźnia, oszukanie przeciwnika daje zawsze lepszy
wynik niż współpracowanie z nim, niezależnie od tego, jaką strategią posługuje się przeciwnik. Dlatego jedyną
równowagą Nasha jest sytuacja, gdy obaj gracze zawsze oszukują. Gracz grający racjonalnie będzie zatem
oszukiwał.
Gracz nadracjonalny zakłada, że drugi gracz będzie stosował tę samą strategię co on. Ponieważ sumaryczny
zysk dwóch graczy jest maksymalny, gdy obaj współpracują, współpracowanie daje też największy zysk dla
gracza nadracjonalnego. W ten sposób dwaj gracze nadracjonalni będą zawsze współpracować, zyskując więcej
niż dwaj racjonalni.
XIV. Co powinieneś wiedzieć po tych zajęciach?
•
Strategie dominujące
•
Czyste i mieszane strategie równoważące
•
Obliczyć proste mieszane strategie
Skupiliśmy się na:
Gry niekooperacyjne (gracze dokonują wyborów we własnym interesie)
Gry kooperacyjne (koalicyjne) zajmują się rywalizacją koalicji graczy, a nie pojedynczych graczy – jaki zysk może
osiągnąć potencjalna grupa (koalicja) przez współpracę swoich członków (nie mówi się nic o tym, jak ta koalicja
się formuje). np. partie w parlamencie; pod uwagę bierze się tu głównie ilość mocy posiadaną przez
poszczególnych graczy
Gry strategiczne (ang. strategic lub normal form) – określone strategie graczy oraz wyniki (outcomes) dla
kombinacji poszczególnych wyborów
Gry ekstensywne (extensive) modelują interakcje za pomocą drzew (dlatego też zwane są game tree) – bardziej
szczegółowe niż gry strategiczne; kompletny opis tego, jak gra postępuje w czasie (kolejność, w jakiej graczy
podejmują akcje, informacje którą wtedy posiadali i okresy, w których wyjaśniono jakiekolwiek niepewności)
Gry z pełną informacją
Gry z niepełną informacją modelują sytuacje, w których gracze nie znają nawzajem swoich preferencji.
XV. Referencje:
M.J. Osborne. An Introduction to Game Theory. OxfordUniversity Press, 2004.
M.J. Osborne and A. Rubinstein. A Course in Game Theory. MIT Press, 1994.
R.B. Myerson. Game Theory: Analysis of Conflict. Harvard University Press, 1991.
K. Binmore. Fun and Games. Heath, 1992.
XVI. Ciekawostki
Historia
•
Jednym z pierwszych zastosowań teorii gier była strategia wojskowa podczas bitwy na Morzu Bismarcka pod
koniec 1942r.. Było to starcie generała George'a Keeneya i japońskiego admirała Kimura Masatomi. Bitwa
zakończyła się zwycięstwem USA i dała początek nowej doktrynie lotów rekonesansowych.
•
Gra wojenna (spowodowana zagrożeniem nuklearnym) stała się przykładem zastosowania teorii gier
podczas zimnej wojny pomiędzy USA i ZSRR. Nie była grą o tzw. zerowej sumie (wygrana jednego jest taką
samą przegraną drugiego), bo nie wszystkie przegrane ZSRR były wygranymi USA.
•
W pierwszych latach zimnej wojny John von Neumann, po przeanalizowaniu możliwych strategii,
zaproponował serię wyprzedzających ataków nuklearnych na ZSRR. Rząd amerykański odrzucił propozycję
ze względu na potencjalne poważne konsekwencje takiej akcji.
•
Neumann został uhonorowany Medalem Wolności (Medal of Freedom), które otrzymał za osiągnięcia
w dziedzinach cywilnych i wojskowych oraz intensywną współpracę z armią USA.
Sztuka powszechna
•
Życie ekonomisty i profesora na uniwersytecie w Princeton (New Jersey) Johna Forbesa Nasha stała się
kanwą filmu "Piękny umysł". Nash otrzymał Nagrodę Nobla w 1994r. za analizę równowagi w teorii gier
niekooperacyjnych.
•
W jednym z opowiadań Artura Conan Doyle'a matematyk prof. Moriarty i Shelock Holmes toczą ze sobą
śmiertelną walkę. Opis złożony jest z epizodów (jak pościg w pociągu) oraz z intelektualnych
scenariuszy, które dziś są uznane za przykłady teorii gier. Wyobraźnia autora o wiele lat wyprzedziła
wiedzę matematyczną.
•
W filmie "Narzeczona księcia" ("The Princess Bride") nikczemny zakładnik Vizzini i heroiczny Westley
walczą na śmierć i życie o księżniczkę. Mają wybrać między kielichem napełnionym trucizną a kielichem
z nieszkodliwym napojem. Walka intelektualna pomiędzy bohaterami jest doskonałym przykładem
zastosowanie teorii gier.
XVII. Zadania - omówienie
I. Dylemat więźnia - strategia dominująca
•
Umiejętność wypełnienia macierzy wypłat dla gry z dwoma graczami: dlaczego w komórce (A zeznaje,
B zeznaje) jest (2/2)? Funkcję użyteczności obydwu graczy zdefiniowano jako U=5-lata w więzieniu. Zgodnie
z zasadami gry, jeżeli gracze będę zeznawać odsiedzą w więzieniu po 3 lata, a więc dostaną 2 (=5-3)
jednostki użyteczności. W przyjętej notacji w danej komórce liczba po lewej stronie jest wypłatą gracza z
wiersza, po prawej - z kolumny.
•
Umiejętność identyfikacji strategii dominującej: zakładamy wybór jednego gracza za ustalony (np. B zeznaje)
i sprawdzamy, co opłacałoby się zrobić drugiemu graczowi (w tym przypadku dla gracza A "zeznawać" (2)
przeważa nad opcją "nie zeznawać" (0)). Okazuje się, że niezależnie od wyboru gracza B, A powinien
zeznawać i vice versa. Istnieje zatem dla nich strategia dominująca, czyli zawsze nie gorsza od jakiejkolwiek
innej strategii (prowadząca do niegorszego zysku).
II. Bitwa płci
•
Nie istnieje strategia dominując: jeśli Robert idzie do teatru, to Ania powinna też iść do teatru, ale jeśli Robert
idzie na mecz, to Ania też powinna to zrobić, itd.
•
Identyfikacja czystej równowagi Nasha, czyli takiego profilu akcji (deterministycznych = pewnych
wyborów), że żadnemu z graczy nie opłaca się od niej jednostronnie odstąpić, bo na tym nie zyska, np.
analiza dla (A: teatr, R: teatr) z wypłatą (2/1) wskazuje, że jeśli A jednostronnie od niej odstąpi (tj. pójdzie na
mecz) będzie miała 0 zamiast 2 (a więc straci/nie zyska), jeśli R jednostronnie od niej odstąpi (pójdzie na
mecz) będzie miał 0 zamiast 1 (a więc straci/nie zyska).Taką samą analizę można przeprowadzić dla profilu
(A: mecz, R: mecz), natomiast w każdym innym przypadku (wybór asymetryczny), graczom opłaca się
jednostronnie odstąpić od strategii, ponieważ zyskaliby na takim postępowaniu.
III. Dylemat więźnia - równowaga Nasha
Jedyną równowagą Nasha jest strategia (A: zeznaje, B: zeznaje) z wypłatą (2/2). Jednostronne odstąpienie od
niej pogarsza wynik gracza z 2 na 0. Wydaje się to sprzeczne z intuicją, bo gracze zyskaliby więcej w przypadku
obustronnego milczenia z wypłatą (4/4). W tym wypadku opłaca im się jednak jednostronnie odstąpić od takiej
strategii, bo wypłata poprawia się z 4 na 5 (patrz nadracjonalność).
IV. Gra w cykora
•
Schemat zbliżony do dylematu więźnia z tą różnicą, że najwięcej można stracić i zyskać, idąc na
konfrontację (zdradzając = jadąc na wprost), tj. zysk 8 (największy) w przypadku gdy drugi gracz skręci,
zysk 0 (najmniejszy) w przypadku gdy drugi gracz także pojedzie prosto.
•
W grze w cykora istnieją dwie czyste równowagi Nasha z wyborami asymetrycznymi (skręca, jedzie) lub
(jedzie, skręca). W każdym z tych dwóch wypadków, jeśli gracz jednostronnie odstąpi od strategii, wynik mu
się pogorszy (z 1 na 0 lub z 8 na 5).
V. Identyfikacja czystych równowag Nasha:
•
macierz lewa: (T,L);
•
macierz środkowa: (T,L), (T,R), (B,L), (B,R) - w każdym wypadku jednostronne odstąpienie jakiegokolwiek
gracza nie zwiększa mu wygranej (patrz defnicja: czysta równowaga Nasha to profil akcji a taki, że ui(a) ≥
ui(a-i, ai') dla każdego gracza i oraz dla każdej akcji ai' gracza i - kluczowy jest znak ≥, czyli wypłata większa
równa, a nie ściśle większa; aby strategia nie była równowagą Nasha ktoś musi na tym zyskać, a nie tylko
nie stracić, odstępując od niej).
•
macierz prawa: brak czystej równowagi Nasha - strzałki identyfikującej optymalną akcję jednego gracza przy
ustalonej akcji drugiego biegną w tym samym kierunki (w tym wypadku - przeciwnie do ruchu wskazówek
zegara).
VI. Próba identyfikacji mieszanej strategii Nasha
•
Aby odpowiedzieć, z jakim prawdopodobieństwem q powinien wybierać swoje strategie gracz z kolumny, by
gracz z wiersza był nierozróżnialny wobec swoich strategii, należy odwołać się do obliczeń oczekiwanego
zysku gracza z wiersza (I) dla każdej akcji (T lub B) przy ustalonym prawdopodobieństwie q wyboru akcji
przez gracza z kolumny (II):
EI(T,q) =1q+2(1-q)=2-q, EI(B,q) =2q+1(1-q)=q+1, kiedy EI(T,q) = EI(B,q)? Dla q=0.5.
Dla q=0.5 oczekiwany zysk dla każdej akcji wynosi 1.5. Jeśli więc gracz II wybierałby swoje akcje
z prawdopodobieństwem q=0.5, to gracz I byłby nierozróżnialny wobec swoich akcji. Przez analogię można
powiedzieć, że jeśli gracz I wybierałby swoje akcje z prawdopodobieństwem p=0.5, to gracz II byłby
nierozróżnialny wobec swoich akcji. W takiej sytuacji, żaden z nich nie miałby powodu, by jednostronnie
odstąpić od tej strategii, ponieważ nie zyskałby na tym, a jedynie prowokowałby drugiego gracza do zmiany
strategii.
VII. Obliczenie mieszanej równowagi Nasha.
•
Rozważmy strategię mieszaną ((p=½, ½), (q=½, ½) i oczekiwane zyski gracza I dla swoich akcji:
EI(T,q=0.5) = 0.5*0 + 0.5*8 = 4
EI(B,q=0.5) = 0.5*1 + 0.5*5 = 3,
czyli gracz I wybrałby akcję T (oferującą większy oczekiwany zysk), co implikuje, że gracz II nie może
stosować strategii (q=½, ½).
•
W ogólnym wypadku, dla gracza I:
EI(T,q) = q*0 + (1-q)*8 = 8-8q
EI(B,q) = q*1 + (1-q)*5 = 5-4q
Rozważamy akcje opłacalne dla gracza I dla poszczególnych wartości q:
EI(T,q) > EI(B,q) gdy q < 0.75 - wtedy graczowi I opłaca się T, czyli powinien wybierać swoje akcje z p=1;
EI(T,q) = EI(B,q), gdy q=0.75 - wtedy gracz I jest nierozróżnialny między swoimi akcjami, czyli może
wybierać swoje akcje z dowolnym prawdopodobieństwem p;
EI(T,q) < EI(B,q), gdy q > 0.75 - wtedy graczowi I opłaca się B, czyli powinien wybierać swoje akcje z p=0.
XVIII. Zadania domowe - podpowiedzi
I. Wybór jakości - istnieje strategia dominująca tylko dla jednego z graczy, istnieje tylko jedna równowaga Nasha
(warto narysować wykres optymalnych akcji p vs. q dla graczy I i II, żeby zobaczyć, że jest tylko jeden punkt
przecięcia między wykresami w (p,q)=(0,0); w szczególności - optymalnym wyborem gracza I będzie zawsze p=0
niezależnie od tego jakie q stosowałby gracz II).
II. Równowagi Nasha - istnieją dwie czyste równowagi Nasha oraz jedna równowaga mieszana (warto
narysować wykres optymalnych akcji p vs. q dla graczy I i II, żeby zobaczyć, że istnieją trzy punkty przecięcia
między wykresami w (p,q) równym (1,1), (0,0) oraz (0.5, 0.5)).
Zapis równowag: ((1,0),(1,0)), ((0,1),(0,1)), ((0.5, 0.5), (0.5,0.5)).
III. Identyfikacja mieszanych równowag Nasha - istnieje tylko jeden taki profil stricte mieszany (brak czystej
równowagi). Aby podać jego pełny zapis należy odwołać się do formuły ((p,1-p), (q,1-q)) z odpowiednimi
wartościami p i q.
IV. Papier-kamień-nożyczki: spośród 9 możliwych profili dla dwóch graczy po trzy są remisowe (0), zwycięskie
(1) lub przegrane (-1) dla każdego z nich. W związku z tym, że jest to gra o sumie zerowej wystarczy w każdej
komórce wpisać tylko jedną liczbę, np. dla (kamień, papier) wystarczy "-1", a nie "-1 / 1".
Download