WIELOKRYTERIALNE W SPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB II – W PROWADZENIE DO TEORII GIER (GAME THEORY) I. Teoria Gier • Badanie optymalnego zachowania w przypadku konfliktu interesów (lub konieczności współpracy) • Wywodzi się z badania gier hazardowych • Gra: dowolna sytuacja konfliktowa (strategiczna) wraz z jej formalnym opisem • Gracz: dowolny uczestnik tej sytuacji (człowiek, grupa, przedsiębiorstwo, zwierzę) podejmujący decyzje; w grę zazwyczaj zaangażowanych jest wielu graczy • Każda strona wybiera pewną strategię postępowania, po czym zależnie od strategii własnej oraz innych uczestników każdy gracz otrzymuje wypłatę w jednostkach użyteczności (pieniądze, satysfakcja, szanse przekazania genów, itd.) • Grę reprezentuje się za pomocą macierzy wypłat (gracze, strategie i wypłaty im przypisane) • Zastosowania w informatyce (sztuczna inteligencja), ekonomii, socjologii, biologii • Narządzie matematyczne; formalne zamodelowanie sytuacji wymaga określenia graczy, identyfikacji ich potencjalnych akcji, preferencji oraz reakcji • Początki sięgają 1838r. (Antoine Cournot), potem Emile Morel, John von Neumann, Oskar Morgenstern • Herbert Simon (Nobel w 1978r. za wkład w rozwój ewolucyjnej teorii gier; ograniczona racjonalność vs. podejmowanie decyzji) • John Nash, Reinhard Selten i John Harsanyi (Nobel w 1994r. za rozwój teorii gier i jej zastosowania w ekonomii) • William Vickrey i James Millrees (Nobel w 1996r. za stworzenie modeli przetargów) • W 2005r. i 2007r. Nagrody Nobla za zastosowanie teorii gier w dziedzinie ekonomii (m.in. Leonid Hurwicz) * Herbet Simon John Nash John Nash Leonid Hurwicz II. Plan laboratorium II • Przykłady: dylemat więźnia (ang. Prisoner's Dilemma), gra w cykora (ang. Game of Chicken), … • Rozróżnienie strategii dominujących (ang. dominant strategies) oraz strategii równowagi (ang. equilibrium strategies) • Rozróżnienie czystej i mieszanej równowagi Nasha (ang. pure and mixed Nash equilibria) • Istnienie oraz identyfikacja (obliczenie) mieszanych równowag Nasha • Główne zainteresowanie: gry bez współpracy (ang. non-cooperative; a nie ze współpracą) strategiczne (ang. strategic; a nie rozległe (ang. extensive)) z pełną informacją (ang. perfect, a nie niepełną) III. Dylemat więźnia Scenariusz: „Dwóch podejrzanych A i B zostało zatrzymanych przez policję. Policja, nie mając wystarczających dowodów do postawienia zarzutów, rozdziela więźniów i przedstawia każdemu z nich tę samą ofertę: jeśli będziesz zeznawać (confess) przeciwko drugiemu, a drugi będzie milczeć, to wyjdziesz na wolność (0 lat w więzieniu), jeśli będziesz milczeć, a drugi zezna przeciwka tobie, spędzisz 5 lat w więzieniu, jeśli obaj będziecie milczeć, odsiedzicie w więzieniu 1 rok za inne przewinienia; jeśli obaj będziecie zeznawać, obaj dostaniecie wyrok w wysokości 3 lat. Każdy z nich musi podjąć decyzję niezależnie i żaden nie dowie się, czy drugi milczy, czy zeznaje, aż do momentu wydania wyroku.” Ogólny schemat – tablica użyteczności (zysku, payoff) UA \ UB B zeznaje B nie zeznaje A zeznaje R, R S, T A nie zeznaje T, S P, P Aby gra spełniają warunki dylematu: S > P > R > T Dylemat więźnia jest grą symetryczną (zamień graczy miejscami i gra pozostaje bez zmian) Pytanie: Jak powinni postąpić? Jaka jest racjonalna (ang. rational) strategia? Co to znaczy racjonalny? Zależy mu na maksymalizacji swojego zysku. Krótszy wyrok dla siebie, a wyrok dla drugiego jest mi obojętny. Cel: uzyskanie jak najkrótszego wyroku. Terminologia: dla gier tego typu, mówimy, że gracz może albo współpracować z przeciwnikiem (milcząc; nie zeznając) lub zdradzić, oszukać (zeznawać) IV. Strategia dominująca (ang. dominant startegy) Strategia zawsze nie gorsza od jakiejkolwiek innej strategii (prowadzi do niegorszego zysku), niezależnie od wyboru strategii przez przeciwnika i zdarzeń losowych. Gracz racjonalny nigdy nie wybierze strategii zdominowanej. Dylemat więźnia: gracze mają strategię dominującą. Patrz ćwiczenie 1. Przykłady (analogiczne wybory jak w dylemacie więźnia): • Politologia: dwa państwa uwikłane w wyścig zbrojeń (zwiększyć wydatki lub podpisać porozumienie o zmniejszeniu wydatków) – jaka jest racjonalna strategia? • Sport: doping, boks - zmniejszenie wagi, kolarstwo (ucieczka przed peletonem) • Reklama: towar, który ludzie kupują niezależnie od tego czy jest reklamowany; dwie firmy sprzedają papierosy na tym samym rynku – zysk jednej zależy od tego, ile sprzeda druga; za czym optowały firmy w USA? • Informatyka: udostępnianie programów na publicznej licencji GNU jest odpowiednikiem współpracy w dylemacie więźnia (ułatwienie pracy innym; konieczność udostępnienia ulepszeń na publicznej licencji; wymuszenie współpracy między rywalizującymi firmami). • Ochrona środowiska. V. Równowaga Nasha Profil (zbiór) strategii, po jednej dla każdego z graczy, takich że żaden gracz nie może poprawić swojego zysku jednostronnie odchodząc od obranej strategii (strategia każdego gracza jest optymalna, przyjmując wybór jego oponentów za ustalony). W równowadze żaden z graczy nie ma powodów jednostronnie odstępować od strategii równowagi. W tym sensie równowaga jest stabilna. John. F. Nash, Nagroda Nobla w Ekonomii w 1994r., Oskar w 2001r. ☺ Intuicyjnie: Równowagą Nasha jest następujący zbiór wyborów: wybór gracza A jest optymalny dla wyboru gracza B i wybór gracza B jest optymalny przy danym wyborze A. Inaczej: Wybieram to, co jest dla mnie najlepsze, gdy ty robisz to, co robisz. Ty robisz to, co jest dla ciebie najlepsze, gdy ja robię to, co robię. Patrz ćwiczenie 2. Przykład: w dylemacie więźnia równowagą Nasha jest profil strategii (zeznaje, zeznaje) - po jednej akcji dla każdego gracza (w tym wypadku akcja "zeznaje"). Uwaga: W przypadku, gdy nie ma strategii dominującej, posiadanie zbioru strategii równoważących jest najlepszym co możemy mieć Dyskusja: Gry z równowagą Nasha są fajne, bo nie musisz utrzymywać swojej strategii w tajemnicy i nie musisz marnotrawić zasobów, by dowiedzieć się jakie są strategie innych graczy. Oczywiście, pojedyncza (ang. unique) równowaga jest lepsza. Równowaga Nasha nie musi być efektywna w sensie Pareto. Patrz ćwiczenie 3. Przykład: profil (nie zeznaje, nie zeznaje) z wypłatą (4,4) dominuje w silnym sensie profil (zeznaje, zeznaje) z wypłatą (2,2) - mimo tego ten pierwszy profil nie jest równowagą Nasha. VI. Iterowany (sekwencyjny) dylemat więźnia • Ci sami gracze grają ze sobą wielokrotnie, wybierając strategie w kolejnych rundach na podstawie wcześniejszych rund; • W każdej rundzie gracz może współpracować lub oszukiwać; • Gracz może się zrewanżować w następnej rundzie, racjonalnie jest współpracować… • …ale nie działa to, gdy liczba rund jest ustalona (dlaczego?) W przypadku gdy wiadomo, ile dokładnie będzie rozgrywek, optymalna jest strategia „zawsze oszukuj”. Wynika to z następującego rozumowania: w ostatniej rundzie można równie dobrze oszukać, ponieważ przeciwnik nie będzie miał już okazji ukarać za to zagranie. Dlatego obaj gracze w ostatniej rundzie oszukają. Zatem w przedostatniej rundzie również opłaca się oszukać, ponieważ w ostatniej rundzie przeciwnik i tak oszuka, itd. Zatem aby pojawiła się współpraca, liczba rund musi być losowa, albo przynajmniej nieznana graczom. Zagraj: http://kane.me.uk/ipd/ W 1984r. ogłoszono konkurs polegający na napisaniu programu, grającego w iterowany dylemat więźnia. Najlepszą deterministyczną strategią w tym turnieju okazała się strategia „wet za wet”, którą zgłosił Anatol Rapoport. Była ona jednocześnie najprostszą zgłoszoną – jej cały program w języku BASIC zajmował cztery linie. Strategia polegała na współpracy w pierwszej rundzie, a w każdej kolejnej robieniu tego co przeciwnik robił w poprzedniej. W niektórych sytuacjach lepsza była lekko zmodyfikowana strategia „wet za wet z wybaczaniem”. W strategii tej, jeśli przeciwnik oszukiwał, z małym prawdopodobieństwem (1%-5%) gracz wybaczał i w kolejnej rundzie dalej współpracował. Pozwalało to na przerwanie ciągu wzajemnych zdrad, w którym dwie strategie wet za wet mogły utykać w nieskończoność. Przyjazność: oznaczająca nie oszukiwanie dopóki przeciwnik tego nie zrobił. Mściwość: oznaczająca reagowanie na zdradę przeciwnika. Bez tej cechy, strategia nie mogła dawać dobrych rezultatów; przykładowo strategia „zawsze współpracuj” dawała bardzo kiepskie wyniki, gdyż wielu przeciwników bezlitośnie wykorzystywało takiego gracza. Skłonność do wybaczania: oznaczająca wracanie do współpracy po okresie zemsty za oszustwo; to pozwalało uzyskać znacznie lepsze wyniki niż ciągłe wzajemne mszczenie się. Brak zazdrości: oznaczająca nie staranie się uzyskać lepszego wyniku niż przeciwnik. Na podstawie tego eksperymentu wywnioskowano, że dbanie wyłącznie o własne zyski można często najlepiej realizować będąc przyjaznym i wybaczającym. VII. Gra w cykora Scenariusz: Dwie osoby wsiadają do samochodów i z dużą prędkością jadą naprzeciwko siebie – ten, kto pierwszy zahamuje lub zjedzie z trasy (skręt w prawo) jest "cykorem" (ang. chicken) i przegrywa. Ten który skręci ratuje życie, ale traci prestiż, jadący do końca prosto wygrywa prestiżowo, jeśli jednak obydwaj zdecydują się jechać do końca – zginą. Różnica w stosunku do dylematu więźnia: najwięcej można zyskać lub stracić wybierając konfrontację. Strategia pokojowa chroni przed największą stratą, ale nie przynosi żadnej nagrody. Najgorsza jest nie sytuacja asymetryczna (jeden jedzie, drugi ucieka), lecz symetryczna (obaj jadą na siebie) – jeśli koszty honorowe byłyby większe od kosztów wypadku gra zmienia się w zwykły dylemat więźnia. Sytuacje rzeczywiste: najbardziej opłacalna jest "strategia szaleńca" – trzeba przekonać przeciwnika, że nie myśli się racjonalnie i zamierza jechać bez względu na okoliczności. Lub inaczej: jeśli masz powód, by sądzić, że Twój przeciwnik stchórzy, jedź, ale jeśli masz powód, by sądzić, że Twój przeciwnik nie skręci, to skręć VIII. Notacja i formalna definicja Gra strategiczna (ang. strategic game) składa się ze zbioru graczy (ang. players), zbioru akcji dla każdego gracza, oraz relacji preferencji dla profilu akcji Gracze: i∈{1,...,n} Strategie, akcje: każdy gracz i ma zbiór Ai możliwych akcji Profil strategii (akcji): a = (a1, a2,..., an) dla graczy 1, 2,...,n ((ang. strategy profile) zbiór zawierający jako elementy strategie, po jednej dla każdego gracza. Profil strategii pozwala wyznaczyć ruch każdego gracza w każdej sytuacji, a zatem w pełni określa całkowity przebieg gry) Preferencje: reprezentowane jako użyteczności ui: A1 … x An → R (a-i, ai') – profil akcji taki jak a z wyjątkiem tego, że gracz i wybiera ai' zamiast ai Czysta równowaga Nasha to profil akcji a taki, że ui(a) ≥ ui(a-i, ai') dla każdego gracza i oraz dla każdej akcji ai' gracza i. Przykład notacji: a = (zeznaje, zeznaje) - gracz 1 i 2 zeznają, b = (a-1, nie zeznaje) - profil taki jak a z tą różnicą, że gracz 1 (a-1) zmienia strategię z "zeznaje" na "nie zeznaje"; pozostali gracze nie zmieniają swojej strategii, czyli b = (nie zeznaje, zeznaje); c = (a-2, nie zeznaje) = (zeznaje, nie zeznaje) u1(a)=2, u2(a)=2, u1(a-1, nie zeznaje)= u1(b)=0, u2(a-2, nie zeznaje)= u2(c)=0, itd. Obserwacje: • Istnieją gry bez czystych równowag Nasha • Na razie tylko porządek użyteczności ma znaczenia (intensywność czy też różnica nie) • Modelujemy pojedyncze decyzje. W niektórych sytuacjach mamy do czynienia z sekwencją decyzji – jedna następuje po drugiej (patrz extensive games) IX. Konkurs (gazetowy) Scenariusz: Każdy czytelnik może zaproponować (rzeczywistą) liczbę z zakresu 0 do 100. Zwycięzcą będzie ten gracz, czyjego liczba będzie najbliższa 2/3 średniej wszystkich zgłoszeń (w przypadku remis nagroda zostanie podzielona równo między najlepszych graczy) A. Bosch-Dom`enech, J.G. Montalvo, R. Nagel, and A. Satorra. One, Two, (Three), Infinity, . . . : Newspaper and Lab Beauty-Contest Experiments. American Economic Review, 92(5):1687–1701, 2002. Jaki numer zgłosisz (i dlaczego)? Średnia z Waszych 29 propozycji: 29.029, Wynik:19.352 Wygrywa: 2 pkt - Mateusz Ledzianowski (19.18), 1 pkt - Jakub Kwiatkowski (20), Maciej Dąbrowski (20), Grzegorz Spychała (20), Sebastian Pawlak (0) Równowaga Nasha? Jak muszą postępować wszyscy gracze, by żaden z nich nie miał żadnego argumentu, by odejść od przyjętej strategii (tj. uzyskać lepszy wynik) Co jeśli mogą zgłaszać tylko liczby całkowite? Dochodzi jedna dodatkowa równowaga (razem są dwie) Co jeśli liczby całkowite i p=0.9, a nie p=2/3? Dochodzą kolejne trzy równowagi (razem pięć). X. Mieszana równowaga Nasha Strategia czysta (strategia prosta) - w teorii gier jest to strategia, w której każdy gracz dokonuje jednego wyboru z prawdopodobieństwem 1 i trwa przy nim. Jest szczególnym przypadkiem strategii mieszanej, w której gracze podejmują decyzje na podstawie rozkładu prawdopodobieństwa. Strategia czysta dostarcza kompletnej definicji na temat tego, jak gracze będą postępować w danej grze. W danej sytuacji ruch gracza jest zdeterminowany przez przyjętą definicję, np. jeśli gracz określi, że będzie wybierał reszkę przy rzucie monetą to będzie to robił zawsze. Na pierwszy rzut oka mogłoby się wydawać, że jeśli dla danej gry istnieje strategia optymalna, powinna nią być strategia czysta. Tak jednak nie jest. Rozpatrzmy następującą grę: dwaj gracze wybierają liczbę jeden lub dwa; jeśli wybiorą to samo wygrywa pierwszy gracz; jeśli wybiorą co innego wygrywa drugi gracz. Jeśli pierwszy gracz miałby optymalną strategię czystą "wybrać 1", drugi zawsze wybierałby 2, jeśli miałby optymalną strategię czystą "wybrać 2", drugi zawsze wybierałby 1. Jeśli drugi gracz miałby optymalną strategię czystą "wybrać 1", pierwszy zawsze wybierałby 1, jeśli zaś miałby optymalną strategię czystą "wybrać 2", pierwszy zawsze wybierałby 2. Przykład: gra bez czystej równowagi Nasha Obserwacja: Którąkolwiek akcje podejmie gracz z wiersza, gracz z kolumny może L R T 1/2 2/1 zareagować w ten sposób, że gracz z wiersza wybrałby inną akcję. I tak dalej... B 2/1 1/2 Pomysł: Wykorzystajmy rozkład prawdopod. dla wszystkich możliwych akcji jako strategię. Strategia mieszana: w jakiejkolwiek sytuacji decyzję jaki ruch wykonać gracz podejmuje losowo. Strategia mieszana zdefiniowana jest przy pomocy rozkładu prawdopodobieństwa na zbiorze strategii czystych. Definicja ta odzwierciedla fakt, że zamiast wybierać na pewno konkretny ruch, gracz może preferować w pewnych sytuacjach aby wybrać swój ruch losowo. Strategia mieszana pi gracza i to rozkład prawdopodobieństwa na zbiorze akcji Ai dostępnych dla gracza i. Przykład: Załóżmy, że gracz 1 może wykonać akcje: T, M oraz B. Wtedy strategia mieszana, by grać T z prawdopodobieństwem ½, M z prawdopodobieństwem 1/6 oraz B z prawdopodobieństwem 1/3 zapisuje się jako p1 =(1/2, 1/6, 1/3). Oczekiwany zysk (ang. expected payoff) gracza i dla profilu p strategii mieszanych oblicza się jako: Ei ( p) = ∑ a ∈ A1 × ... A n ⋅ u ( a ) p ( a ) i i i i∈{1,..., n } ∏ Suma po wszystkich możliwych profilach akcjI a ( zysk i-tego gracza ∙ iloczyn prawdopodobieństw wyboru a) Przykład obliczenia oczekiwanego zysku: I\II L (q=0.6) R (1-q=0.4) T (p=0.75) 1/2 3/1 B (1-p=0.25) 4/1 2/2 Dla strategii ((p,1-p),(q,1-q))=((0.75,0.25),(0.6,0.4)) oczekiwany zysk gracza I: E1((0.75,0.25),(0.6,0.4)) = = 0.75*0.6*1 + 0.75*0.4*2 + 0.25*0.6*4 + 0.25*0.4*2 Dyskusja: • Do tej pory rozważaliśmy preferencje porządkowe • W kontekście strategii mieszanych, korzystamy z liczb reprezentujących użyteczności i zakładamy, że preferencje graczy dla zbioru różnych profili mieszanych strategii są reprezentowane przez oczekiwany zysk (ang. expected payoff) względem tych funkcji użyteczności. Mieszana równowaga Nasha Oznaczenie: (s-i, si') -profil mieszanych strategii taki jak s z wyjątkiem tego, że gracz i wybiera si' zamiast si. Profil mieszanych strategii s taki, że: Ei(s) ≥ Ei(s-i,si') dla każdego gracza i oraz każdej możliwej strategii mieszanej si' dla gracza i. Nieformalnie: mieszana równowaga Nasha to zbiór mieszanych strategii, po jednej dla każdego gracza, takich że żaden gracz nie ma żadnego bodźca (motywacji), by samodzielnie odejść od przypisanej graczom strategii. Przykład interpretacji notacji i obliczenia oczekiwanych zysków: I\II L (q=0.5) R (1-q=0.5) T (p=0.5) 1/2 2/1 B (1-p=0.5) 2/1 1/2 Dla strategii s=((p,1-p),(q,1-q)) = ((0.5,0.5),(0.5,0.5)) : • E1((0.5,0.5),(0.5,0.5)) = 0.5*0.5*1 + 0.5*0.5*2 + 0.5*0.5*2 + 0.5*0.5*1=1.5 • E2((0.5,0.5),(0.5,0.5)) = 0.5*0.5*2 + 0.5*0.5*1 + 0.5*0.5*1 + 0.5*0.5*2=1.5 Dla (s-1, (0.75,0.25)) tylko gracz I zmienia swoją strategię mieszaną z (0.5,0.5) na (0.75,0.25), czyli profil mieszanych strategii wygląda następująco: ((0.75,0.25),(0.5,0.5)). Wtedy: • E1(s-1, (0.75,0.25))= E1((0.75,0.25),(0.5,0.5)) = 0.75*0.5*1 + 0.75*0.5*2 + 0.25*0.5*2 + 0.25*0.5*1=1.5 • E2(s-1, (0.75,0.25))= E2((0.75,0.25),(0.5,0.5)) = 0.75*0.5*2 + 0.75*0.5*1 + 0.25*0.5*1 + 0.25*0.5*2=1.5 Dla (s-2, (0.75,0.25)) tylko gracz II zmienia swoją strategię mieszaną z (0.5,0.5) na (0.75,0.25), czyli profil mieszanych strategii wygląda następująco: ((0.5,0.5), (0.75,0.25)). Wtedy: • E1(s-2, (0.75,0.25))= E1((0.5,0.5),(0.75,0.25)) = 0.5*0.75*1 + 0.5*0.75*2 + 0.5*0.25*2 + 0.5*0.25*1=1.5 • E2(s-2, (0.75,0.25))= E2((0.5,0.5),(0.75,0.25)) = 0.5*0.75*2 + 0.5*0.75*1 + 0.5*0.25*1 + 0.5*0.25*2=1.5 Jakkolwiek jednostronnie zmienić strategię gracza I lub II, nie mają oni z tego zysku, co potwierdza, że ((0.5,0.5),(0.5,0.5)) jest mieszaną równowagą Nasha. Dla porównania, rozważając strategię s=((p,1-p),(q,1-q)) = ((1,0),(1,0)): • E1((1,0),(1,0))= 1*1*1 + 1*0*2 + 0*1*2 + 0*0*1=1 • E2((1,0),(1,0))= 1*1*2 + 1*0*1 + 0*1*1 + 0*0*2=2 Zmieniając jednostronnie strategię z (1,0) na (0,1) gracz I może odnosi zysk: E1((0,1),(1,0))= 0*1*1 + 0*0*2 + 1*1*2 + 1*0*1=2, więc opłaca mu się odstąpić jednostronnie od strategii ((1,0),(1,0)). XI. Istnienie Mieszanych Równowag Nasha (Nash, 1950) Every finite strategic game has got at least one mixed Nash equilibrium. J.F. Nash. Equilibrium Points in n-Person Games. Proc. National Academy of Sciences of the United States of America, 36:48–49, 1950. XII. Obliczenie Równowag Nasha Pokazaliśmy ogólną metodę obliczenia wszystkich mieszanych równowag Nasha dla gry z dwójką graczy, z których każdy może podjąć dwie akcje: (1) Rozważamy oczekiwane zyski dla każdej akcji jednego z graczy przy założenie, że mieszana strategia drugiego gracza jest ustalona. (2) Na tej podstawie modelujemy najlepszą strategię (odpowiedź) gracza w zależności od strategii drugiego i przedstawiamy ją w postaci wykresu uzależniającego p (prawdopodobieństwo dla gracza I) od q (prawdopodobieństwo dla gracza II) i drugiego wykresy uzależniającego q od p. (3) Miejsca przycięcia wykresów identyfikują mieszane równowagi Nasha. W ogólności, obliczenie równowag Nasha to bardzo złożony problem. Jak trudny jest pytaniem otwartym? „ . . [this] is a most fundamental computational problem whose complexity is wide open.” Papadimitriou (2001) Algorithms, Games, and the Internet. Proc. STOC-2001 XIII. Nadracjonalność Dylemat podróżnika Scenariusz: Linia lotnicza zgubiła dwie walizki, należące do dwóch podróżnych. Walizki były identyczne i miały taką samą zawartość. Linia oferuje odszkodowanie za ich zgubienie, ale w kwocie nie większej niż $100. Aby określić wartość walizek, ich właściciele proszeni są niezależnie od siebie o napisanie kwoty jakiej oczekują – nie mniejszej niż $2 i nie większej niż $100. Jeśli napiszą taką samą kwotę, zostanie ona uznana za wiążącą i obaj otrzymają odszkodowanie tej wysokości. Jeśli napiszą różne kwoty, za wiążącą zostanie uznana niższa kwota. Dodatkowo, ten kto napisze niższą kwotę, dostanie bonus w wysokości $2, a ten kto napisze wyższą, straci $2 ze swojego odszkodowania. Jeśli przewidujemy że przeciwnik napisze wartość $100, najbardziej opłaca nam się napisać $99. Nasza nagroda wyniesie wtedy $101. Jeśli jednak przeciwnik przewidzi, że będziemy chcieli napisać $99, sam napisze $98 (jego nagroda wyniesie wtedy $100, a nasza $96). Kontynuując to rozumowanie, dojdziemy do wniosku że od każdej strategii $X lepsza jest strategia X-$1, z wyjątkiem $2, które są minimalną wartością. Zgodnie z teorią gier, napisanie $2 jest więc strategią dominującą i jedyną równowagą Nasha jest sytuacja, gdy obaj gracze dostają $2. Eksperymenty, w których gracze grają w tę grę na prawdziwe pieniądze, pokazują jednak że większość ludzi podaje kwoty bliskie $100. Co więcej, strategię taką stosują ludzie zarówno nie znający teorii gier jak i ci którzy ją znają. Dodatkowo, gracze grający w ten sposób zyskują znacznie więcej niż gdyby grali strategią optymalną według teorii. Oznacza to nie tylko że ludzie nie grają racjonalnie, ale też że zyskują więcej niż gdyby tak grali. Ten paradoks stanowi podstawę do opracowywania teorii konkurencyjnych do teorii racjonalnego wyboru. Przykładowo, strategia nadracjonalna w tej grze każe zawsze wybierać wartość $100, zakładając że przeciwnik dojdzie do tego samego wniosku. Macierz wypłat 100 99 98 97 . 3 2 100 100, 100 101, 97 100, 96 99, 95 . 5, 1 4, 0 99 97, 101 99, 99 100, 96 99, 95 . 5, 1 4, 0 98 96, 100 96, 100 98, 98 99, 95 . 5, 1 4, 0 97 95, 99 95, 99 95, 99 97, 97 . 5, 1 4, 0 . . . . . . . . 3 1, 5 1, 5 1, 5 1, 5 . 3, 3 4, 0 2 0, 4 0, 4 0, 4 0, 4 . 0, 4 2, 2 Bonus: Najlepsze średnie wyniki: 2pkt - Mateusz Sarbinowski (98), Mateusz Ledzianowski (98), Marek Rydlewski (98) Nadracjonalność: pojęcie wprowadzone do teorii gier przez Douglasa Hofstadtera w felietonach zebranych w książce Metamagical Themas. Polega na zakładaniu, że przeciwnik przeprowadza identyczne rozumowanie jak my i szukaniu strategii, która daje najlepsze wyniki przy tym założeniu. Przykład: dylemat więźnia W najbardziej klasycznej grze dla dwóch graczy, dylemacie więźnia, oszukanie przeciwnika daje zawsze lepszy wynik niż współpracowanie z nim, niezależnie od tego, jaką strategią posługuje się przeciwnik. Dlatego jedyną równowagą Nasha jest sytuacja, gdy obaj gracze zawsze oszukują. Gracz grający racjonalnie będzie zatem oszukiwał. Gracz nadracjonalny zakłada, że drugi gracz będzie stosował tę samą strategię co on. Ponieważ sumaryczny zysk dwóch graczy jest maksymalny, gdy obaj współpracują, współpracowanie daje też największy zysk dla gracza nadracjonalnego. W ten sposób dwaj gracze nadracjonalni będą zawsze współpracować, zyskując więcej niż dwaj racjonalni. XIV. Co powinieneś wiedzieć po tych zajęciach? • Strategie dominujące • Czyste i mieszane strategie równoważące • Obliczyć proste mieszane strategie Skupiliśmy się na: Gry niekooperacyjne (gracze dokonują wyborów we własnym interesie) Gry kooperacyjne (koalicyjne) zajmują się rywalizacją koalicji graczy, a nie pojedynczych graczy – jaki zysk może osiągnąć potencjalna grupa (koalicja) przez współpracę swoich członków (nie mówi się nic o tym, jak ta koalicja się formuje). np. partie w parlamencie; pod uwagę bierze się tu głównie ilość mocy posiadaną przez poszczególnych graczy Gry strategiczne (ang. strategic lub normal form) – określone strategie graczy oraz wyniki (outcomes) dla kombinacji poszczególnych wyborów Gry ekstensywne (extensive) modelują interakcje za pomocą drzew (dlatego też zwane są game tree) – bardziej szczegółowe niż gry strategiczne; kompletny opis tego, jak gra postępuje w czasie (kolejność, w jakiej graczy podejmują akcje, informacje którą wtedy posiadali i okresy, w których wyjaśniono jakiekolwiek niepewności) Gry z pełną informacją Gry z niepełną informacją modelują sytuacje, w których gracze nie znają nawzajem swoich preferencji. XV. Referencje: M.J. Osborne. An Introduction to Game Theory. OxfordUniversity Press, 2004. M.J. Osborne and A. Rubinstein. A Course in Game Theory. MIT Press, 1994. R.B. Myerson. Game Theory: Analysis of Conflict. Harvard University Press, 1991. K. Binmore. Fun and Games. Heath, 1992. XVI. Ciekawostki Historia • Jednym z pierwszych zastosowań teorii gier była strategia wojskowa podczas bitwy na Morzu Bismarcka pod koniec 1942r.. Było to starcie generała George'a Keeneya i japońskiego admirała Kimura Masatomi. Bitwa zakończyła się zwycięstwem USA i dała początek nowej doktrynie lotów rekonesansowych. • Gra wojenna (spowodowana zagrożeniem nuklearnym) stała się przykładem zastosowania teorii gier podczas zimnej wojny pomiędzy USA i ZSRR. Nie była grą o tzw. zerowej sumie (wygrana jednego jest taką samą przegraną drugiego), bo nie wszystkie przegrane ZSRR były wygranymi USA. • W pierwszych latach zimnej wojny John von Neumann, po przeanalizowaniu możliwych strategii, zaproponował serię wyprzedzających ataków nuklearnych na ZSRR. Rząd amerykański odrzucił propozycję ze względu na potencjalne poważne konsekwencje takiej akcji. • Neumann został uhonorowany Medalem Wolności (Medal of Freedom), które otrzymał za osiągnięcia w dziedzinach cywilnych i wojskowych oraz intensywną współpracę z armią USA. Sztuka powszechna • Życie ekonomisty i profesora na uniwersytecie w Princeton (New Jersey) Johna Forbesa Nasha stała się kanwą filmu "Piękny umysł". Nash otrzymał Nagrodę Nobla w 1994r. za analizę równowagi w teorii gier niekooperacyjnych. • W jednym z opowiadań Artura Conan Doyle'a matematyk prof. Moriarty i Shelock Holmes toczą ze sobą śmiertelną walkę. Opis złożony jest z epizodów (jak pościg w pociągu) oraz z intelektualnych scenariuszy, które dziś są uznane za przykłady teorii gier. Wyobraźnia autora o wiele lat wyprzedziła wiedzę matematyczną. • W filmie "Narzeczona księcia" ("The Princess Bride") nikczemny zakładnik Vizzini i heroiczny Westley walczą na śmierć i życie o księżniczkę. Mają wybrać między kielichem napełnionym trucizną a kielichem z nieszkodliwym napojem. Walka intelektualna pomiędzy bohaterami jest doskonałym przykładem zastosowanie teorii gier. XVII. Zadania - omówienie I. Dylemat więźnia - strategia dominująca • Umiejętność wypełnienia macierzy wypłat dla gry z dwoma graczami: dlaczego w komórce (A zeznaje, B zeznaje) jest (2/2)? Funkcję użyteczności obydwu graczy zdefiniowano jako U=5-lata w więzieniu. Zgodnie z zasadami gry, jeżeli gracze będę zeznawać odsiedzą w więzieniu po 3 lata, a więc dostaną 2 (=5-3) jednostki użyteczności. W przyjętej notacji w danej komórce liczba po lewej stronie jest wypłatą gracza z wiersza, po prawej - z kolumny. • Umiejętność identyfikacji strategii dominującej: zakładamy wybór jednego gracza za ustalony (np. B zeznaje) i sprawdzamy, co opłacałoby się zrobić drugiemu graczowi (w tym przypadku dla gracza A "zeznawać" (2) przeważa nad opcją "nie zeznawać" (0)). Okazuje się, że niezależnie od wyboru gracza B, A powinien zeznawać i vice versa. Istnieje zatem dla nich strategia dominująca, czyli zawsze nie gorsza od jakiejkolwiek innej strategii (prowadząca do niegorszego zysku). II. Bitwa płci • Nie istnieje strategia dominując: jeśli Robert idzie do teatru, to Ania powinna też iść do teatru, ale jeśli Robert idzie na mecz, to Ania też powinna to zrobić, itd. • Identyfikacja czystej równowagi Nasha, czyli takiego profilu akcji (deterministycznych = pewnych wyborów), że żadnemu z graczy nie opłaca się od niej jednostronnie odstąpić, bo na tym nie zyska, np. analiza dla (A: teatr, R: teatr) z wypłatą (2/1) wskazuje, że jeśli A jednostronnie od niej odstąpi (tj. pójdzie na mecz) będzie miała 0 zamiast 2 (a więc straci/nie zyska), jeśli R jednostronnie od niej odstąpi (pójdzie na mecz) będzie miał 0 zamiast 1 (a więc straci/nie zyska).Taką samą analizę można przeprowadzić dla profilu (A: mecz, R: mecz), natomiast w każdym innym przypadku (wybór asymetryczny), graczom opłaca się jednostronnie odstąpić od strategii, ponieważ zyskaliby na takim postępowaniu. III. Dylemat więźnia - równowaga Nasha Jedyną równowagą Nasha jest strategia (A: zeznaje, B: zeznaje) z wypłatą (2/2). Jednostronne odstąpienie od niej pogarsza wynik gracza z 2 na 0. Wydaje się to sprzeczne z intuicją, bo gracze zyskaliby więcej w przypadku obustronnego milczenia z wypłatą (4/4). W tym wypadku opłaca im się jednak jednostronnie odstąpić od takiej strategii, bo wypłata poprawia się z 4 na 5 (patrz nadracjonalność). IV. Gra w cykora • Schemat zbliżony do dylematu więźnia z tą różnicą, że najwięcej można stracić i zyskać, idąc na konfrontację (zdradzając = jadąc na wprost), tj. zysk 8 (największy) w przypadku gdy drugi gracz skręci, zysk 0 (najmniejszy) w przypadku gdy drugi gracz także pojedzie prosto. • W grze w cykora istnieją dwie czyste równowagi Nasha z wyborami asymetrycznymi (skręca, jedzie) lub (jedzie, skręca). W każdym z tych dwóch wypadków, jeśli gracz jednostronnie odstąpi od strategii, wynik mu się pogorszy (z 1 na 0 lub z 8 na 5). V. Identyfikacja czystych równowag Nasha: • macierz lewa: (T,L); • macierz środkowa: (T,L), (T,R), (B,L), (B,R) - w każdym wypadku jednostronne odstąpienie jakiegokolwiek gracza nie zwiększa mu wygranej (patrz defnicja: czysta równowaga Nasha to profil akcji a taki, że ui(a) ≥ ui(a-i, ai') dla każdego gracza i oraz dla każdej akcji ai' gracza i - kluczowy jest znak ≥, czyli wypłata większa równa, a nie ściśle większa; aby strategia nie była równowagą Nasha ktoś musi na tym zyskać, a nie tylko nie stracić, odstępując od niej). • macierz prawa: brak czystej równowagi Nasha - strzałki identyfikującej optymalną akcję jednego gracza przy ustalonej akcji drugiego biegną w tym samym kierunki (w tym wypadku - przeciwnie do ruchu wskazówek zegara). VI. Próba identyfikacji mieszanej strategii Nasha • Aby odpowiedzieć, z jakim prawdopodobieństwem q powinien wybierać swoje strategie gracz z kolumny, by gracz z wiersza był nierozróżnialny wobec swoich strategii, należy odwołać się do obliczeń oczekiwanego zysku gracza z wiersza (I) dla każdej akcji (T lub B) przy ustalonym prawdopodobieństwie q wyboru akcji przez gracza z kolumny (II): EI(T,q) =1q+2(1-q)=2-q, EI(B,q) =2q+1(1-q)=q+1, kiedy EI(T,q) = EI(B,q)? Dla q=0.5. Dla q=0.5 oczekiwany zysk dla każdej akcji wynosi 1.5. Jeśli więc gracz II wybierałby swoje akcje z prawdopodobieństwem q=0.5, to gracz I byłby nierozróżnialny wobec swoich akcji. Przez analogię można powiedzieć, że jeśli gracz I wybierałby swoje akcje z prawdopodobieństwem p=0.5, to gracz II byłby nierozróżnialny wobec swoich akcji. W takiej sytuacji, żaden z nich nie miałby powodu, by jednostronnie odstąpić od tej strategii, ponieważ nie zyskałby na tym, a jedynie prowokowałby drugiego gracza do zmiany strategii. VII. Obliczenie mieszanej równowagi Nasha. • Rozważmy strategię mieszaną ((p=½, ½), (q=½, ½) i oczekiwane zyski gracza I dla swoich akcji: EI(T,q=0.5) = 0.5*0 + 0.5*8 = 4 EI(B,q=0.5) = 0.5*1 + 0.5*5 = 3, czyli gracz I wybrałby akcję T (oferującą większy oczekiwany zysk), co implikuje, że gracz II nie może stosować strategii (q=½, ½). • W ogólnym wypadku, dla gracza I: EI(T,q) = q*0 + (1-q)*8 = 8-8q EI(B,q) = q*1 + (1-q)*5 = 5-4q Rozważamy akcje opłacalne dla gracza I dla poszczególnych wartości q: EI(T,q) > EI(B,q) gdy q < 0.75 - wtedy graczowi I opłaca się T, czyli powinien wybierać swoje akcje z p=1; EI(T,q) = EI(B,q), gdy q=0.75 - wtedy gracz I jest nierozróżnialny między swoimi akcjami, czyli może wybierać swoje akcje z dowolnym prawdopodobieństwem p; EI(T,q) < EI(B,q), gdy q > 0.75 - wtedy graczowi I opłaca się B, czyli powinien wybierać swoje akcje z p=0. XVIII. Zadania domowe - podpowiedzi I. Wybór jakości - istnieje strategia dominująca tylko dla jednego z graczy, istnieje tylko jedna równowaga Nasha (warto narysować wykres optymalnych akcji p vs. q dla graczy I i II, żeby zobaczyć, że jest tylko jeden punkt przecięcia między wykresami w (p,q)=(0,0); w szczególności - optymalnym wyborem gracza I będzie zawsze p=0 niezależnie od tego jakie q stosowałby gracz II). II. Równowagi Nasha - istnieją dwie czyste równowagi Nasha oraz jedna równowaga mieszana (warto narysować wykres optymalnych akcji p vs. q dla graczy I i II, żeby zobaczyć, że istnieją trzy punkty przecięcia między wykresami w (p,q) równym (1,1), (0,0) oraz (0.5, 0.5)). Zapis równowag: ((1,0),(1,0)), ((0,1),(0,1)), ((0.5, 0.5), (0.5,0.5)). III. Identyfikacja mieszanych równowag Nasha - istnieje tylko jeden taki profil stricte mieszany (brak czystej równowagi). Aby podać jego pełny zapis należy odwołać się do formuły ((p,1-p), (q,1-q)) z odpowiednimi wartościami p i q. IV. Papier-kamień-nożyczki: spośród 9 możliwych profili dla dwóch graczy po trzy są remisowe (0), zwycięskie (1) lub przegrane (-1) dla każdego z nich. W związku z tym, że jest to gra o sumie zerowej wystarczy w każdej komórce wpisać tylko jedną liczbę, np. dla (kamień, papier) wystarczy "-1", a nie "-1 / 1".