GRY DWUOSOBOWE O SUMIE NIEZEROWEJ Równowaga Nasha i rozwiązania niekooperacyjne. Dylemat więźnia. Piotr Włodarek, Piotr Stasiołek Matematyka finansowa studia niestacjonarne Gdy doczynienia mamy z grą dwuosobową o sumie niezerowej to aby ją opisać musimy podać wypłaty obu graczy. Niektóre gry o sumie niezerowej możemy przekształcić za pomocą liniowych przekształceń użyteczności graczy w gry o sumie zerowej. Gry, w których interesy obu graczy są dokładnie przeciwstawne, możemy analizować tymi samymi metodami, co gry o sumie zerowej. Dla gier o sumie niezerowej ogólnie przyjęte jest, że intencje obu graczy nie są ani dokładnie przeciwstawne, ani ze sobą zgodne. Tzn. zakładamy konkurencję pomiędzy uczestnikami gry nie wykluczając jednakże kooperacji w pewnych sytuacjach. Współpraca może polegać na wymianie informacji na temat strategii jaką gracz ma zamiar przyjąć. My jednakże zajmiemy się przypadkiem gry w której komunikacja pomiędzy uczestnikami jest niemożliwa, tzn. gracz będzie przyjmować swoją strategie nie znając strategii którą przyjął przeciwnik. Spójrzmy na grę z punktu widzenia Pana Wiersza. Zauważmy, że niezależnie od tego jaką strategię wybierze Pani Kolumna to Wiersz grając strategię A zawsze uzyska więcej, niż gdyby zagrał B. Strategia A Wiersza dominuje strategię B Wiersza. Możemy oczekiwać, że Wiersz zawsze będzie grał A. Zatem Kolumna powinna zagrać swoją strategię A , a wynikiem gry powinno być (2,3). Układ wartości wypłat przypisanym poszczególnym wynikom faworyzuje Panią Kolumnę. Jak widać, kryterium dominacji z teorii gier o sumie zerowej można stosować także do gier o sumie niezerowej. Pani Kolumna A B A (2,3) (3,2) B (1,0) (0,1) Pan Wiersz Wypłaty (Wiersz, Kolumna) Dla gier o sumie niezerowej mamy punkty równowagi, które odpowiadają punktom siodłowym dla gier o sumie zerowej. Dla gier o sumie niezerowej istnieją gry niemające równowag w strategiach czystych, które odpowiadają grom o sumie zerowej nieposiadającym punktów siodłowych. Pani Kolumna Pan Wiersz A A (2,4) B (1,0) B (3,1) (0,4) Gra równowagi w strategiach czystych W tej grze możemy zaobserwować, że punkty równowagi w strategiach czystych nie występują. Zastanówmy się czy w tej grze istnieją takie strategie mieszane, że jeśli oboje z graczy je zastosują to żaden z nich nic nie zyska, poprzez zmienienie swojej strategii na inną. Zbadajmy grę Kolumny (grę o sumie zerowej, w której wypłaty Kolumny odpowiadają jej wypłatom z gry 2.). W tej grze optymalną strategią Wiersza jest 3 4 (7 A,7 B) - jeśli Wiersz tak zagra, to Kolumna uzyska oczekiwaną wartość wypłaty 16 równą 7 , niezależnie od tego, jaką strategię sama wybierze. Strategię taką nazywamy strategią wyrównującą Wiersza. Strategia wyrównująca Kolumny to 1 1 3 (2 A , 2B) a wartość oczekiwana wynosi 2 . W przypadku gdy oboje z graczy wybiorą swoje strategię wyrównujące, wówczas żaden z nich nie będzie w stanie zyskać na zmianie swojej strategii. Sytuację taką nazywamy równowagą w strategiach mieszanych. Przez Johna Nasha zostało udowodnione, że każda dwuosobowa gra o sumie niezerowej ma co najmniej jedną równowagę, w strategiach czystych lub mieszanych. Równowagi w grach o sumie niezerowej nazywamy równowagami Nasha. W tej grze występują dwa punkty równowagi w strategiach czystych: AB oraz BA. W przypadku gier o sumach zerowych może być kilka punktów siodłowych, ale zawsze są one ekwiwalentne i wymierne. Wszystkie mają te same wartości, a jeśli obaj gracze wybierają strategie zawierające punkty siodłowe wówczas wynik gry będzie zawsze punktem siodłowym. Równowaga BA jest lepsza dla Wiersza, zaś równowaga AB – dla Kolumny w przypadku gdy oboje wybiorą strategie prowadzące do preferowanych przez nich równowag, wynikiem gry będzie BB – najgorszy dla obu graczy i nie będący równowagą. Jeżeli gra ma wiele niewymiennych i nieekwiwalentnych równowag Nasha, gracze mogą nie wiedzieć, do której powinni dążyć. Pani Kolumna A B A (1,1) (2,5) B (5,2) (-1,-1) Pan Wiersz Gra z dwiema nieekwiwalentnymi i niewymiernym równowagami Pani Kolumna Pan Wiersz A A (3,3) B (-1,5) B (5,-1) (0,0) Gra ta ma jedną równowagę Nasha (BB). Zauważmy, że startegia B Wiersza dominuje A Wiersza, zaś B Kolumny dominuje A Kolumny – tak więc jest to równowaga najmocniejszego typu. Nie jest to najszczęśliwsze rozwiązanie, ponieważ zarówno Wiersz jak i Kolumna wyszliby lepiej, grając AA i uzyskując wypłaty po 3, a nie po 0. Gra z jedną równowagą, nieoptymalną w sensie Pareto Definicja. Wynik gry jest nieoptymalny w sensie Pareto ( albo subparetooptymalny, lub nieefektywny Pareto), jeśli gra ma inny wynik, dający obu graczom wyższe wypłaty, lub jednemu z graczy taka samą, a drugiemu wyższą. Wynik jest paretooptymalny, jeśli takiego innego wyniku nie ma. Optymalny oznacza „ niebędący w sposób oczywisty gorszy niż jakiś inny”. Na ogół gry mają wiele czynników paretooptymalnych, a w przypadku gier o sumie zerowej wszystkie wyniki mają tę własność, ponieważ zysk dla jednego gracza zawsze oznacza stratę dla drugiego. W grze nr 4 paretooptymalne są wyniki AA, AB i BA. Jedynie BB jest subparetooptymalny, gdyż AA daje obu graczom wyższe wypłaty. KRYTERIUM PARETO: Tylko wynik optymalny w sensie Pareto może być akceptowany jako rozwiązanie gry. W celu sprawdzenia które z wyników są paretooptymalne należy umieścić na układzie współrzędnych wyniki graczy. Wypłatą Wiersza odpowiada oś odciętych, natomiast wypłatą Kolumny oś rzędnych. Gdy już wyznaczymy punkty odpowiadające wynikom w strategiach czystych, wynikom w strategiach mieszanych odpowiadają punkty należące do wieloboku ograniczonego łamaną łączącą wyniki w strategiach czystych. Wielobok ten nazywamy wielobokiem wypłat danej gry. Rys poniżej przedstawia wieloboki wypłat poprzednich gier. Wynikami paretooptymalnymi są te, które leżą na „północno- wschodnim” brzegu wieloboku wypłat. Na rys 1 zaznaczono je przerywana linią. Zauważmy, że wynikom paretooptymalnym może odpowiadać odcinek, kilka odcinków bądź też pojedynczy punkt. Równowaga Nasha w strategiach mieszanych nie jest zbyt dobrym rozwiązaniem gry nr 2. Jeżeli przyjrzymy się wielobokowi wypłat (rys2), łatwo przekonamy się dlaczego: równowaga ta nie jest paretooptymalna. „Czysty” wynik AA i oznacza część „mieszanek” AA i BA są dla obu graczy lepsze. Głównymi zaletami wyniku w równowadze jest stabilność oraz to ,że istnieje dla każdej gry. Z drugiej strony, gra może mieć liczne nieekwiwalentne i niewymienne równowagi, co z kolei może wywoływać problemy koordynacji. Nawet jeżeli punkt równowagi jest tylko jeden, może być on nieoptymalny w sensie Pareto. Biorąc to wszystko pod uwagę, niewykluczone, że powinniśmy poszukać innego pomysłu na rozwiązywanie gier o sumie niezerowej. W grach o sumie zerowej punkty równowagi były osiągane wtedy, gdy gracze wybierali bezpiecznie, minimaksowe strategie, maksymalizujące ich wypłaty w najgorszej możliwej sytuacji. Przykład 1. Znajdź w poniższej grze równowagii Nasha. Czy jest ona paretooptymalna? Pani Kolumna Pan Wiersz A A (3,2) B (2,1) B (4,3) (1,4) Dla podanej gry, rozważmy sytuację Wiersza. Najgorsza z sytuacji to taka gdyby Kolumna przyjęła strategię która miała by na celu zminimalizowanie wypłaty Wiersza. Wówczas strategia jaką miałby przyjąć Wiersz musiała by polegać na minimalizowaniu przypuszczalnych strat, czyli minimaksową strategię w grze Wiersza. Gra Wiersza posiada punkt siodłowy (AA), zatem lepszą strategią dla wiersza będzie strategia A, która gwarantuje mu wypłatę 1- wartość gry Wiersza. Pani Kolumna A B A (2,4) (1,0) B (3,1) (0,4) Pan Wiersz Gra bez równowagi w strategiach czystych Definicja. W grze o sumie niezerowej strategię optymalną Wiersza w grze Wiersza nazywamy strategią bezpieczeństwa Wiersza, zaś wartość gry Wiersza nazywamy poziomem bezpieczeństwa Wiersza. Wiersz grając swoją strategię bezpieczeństwa, gwarantuje sobie wypłatę co najmniej jego poziomowi bezpieczeństwa. Analogiczna definicję można sformułować do Kolumny, w grze obok jej strategia 4 3 16 bezpieczeństwa to ( A, B), a jej poziom bezpieczeństwa wynosi . 7 7 7 Jeśli oboje z graczy zagrają swoimi strategiami bezpieczeństwa 4 3 11 16 wówczas wynikiem tej gry będzie AA+ AB=( , ). Kolumna uzyskuje 7 7 7 7 wynik równy poziomowi jej bezpieczeństwa, natomiast Wiersz nieco większy. Zaznaczając ten wynik na wielokącie wypłat, widzimy że nie jest on paretooptymalny. Nie jest on również punktem równowagi . gdyby Kolumna przewidywała, iż Wiersz zagra swoją strategię bezpieczeństwa (A), sama zamiast swojej strategii Bezpieczeństwa 4 3 ( A, B) powinna także zagrać czystą strategię A. Analogicznie, jeśli 7 7 Wiersz przewiduje, że Kolumna zagra swoją mieszaną strategię bezpieczeństwa, to obliczając swoje oczekiwane wypłaty dla strategii 4 7 3 7 A Wiersza: x 2+ x 1= 11 7 4 7 3 7 B Wiersza: x 3+ x 0 = Pani Kolumna A B A (2,4) (1,0) B (3,1) (0,4) Pan Wiersz Gra bez równowagi w strategiach czystych 12 7 stwierdzi, że powinien zagrać B. Definicja. W grze o sumie niezerowej strategią kontrbezpieczną nazywamy strategię będącą najlepszą odpowiedzią na strategię bezpieczeństwa przeciwnika. Tabela zawiera możliwe wyniki dla różnych kombinacji strategii bezpieczeństwa i kontrbezpiecznych dla gry poniżej . Kolumna chciałaby, żeby Wiersz zagrał bezpiecznie i w związku z tym mogłaby zagrać swoją strategią kontrbezpieczną. Wiersz wolałby, aby oboje gracze zagrali kontrbezpiecznie. Struktura zależności jest skomplikowana i niestabilna. Ostrożna gra, która w przypadku gier o sumie zerowej generowała stabilne rozwiązania, w kontekście gier o sumie niezerowej zupełnie pod tym względem się nie sprawdza. Pani Kolumna A Strategia Wiersza A B (2,4) (1,0) Pan Wiersz B (3,1) (0,4) Gra równowagi w strategiach czystych Strategia Kolumny Wypłata Wiersza Wypłata Kolumny bezpieczeństwa bezpieczeństwa 1,57 2,29 bezpieczeństwa kontrbezpieczna 2,00 4,00 kontrbezpieczna bezpieczeństwa 1,71 2,29 kontrbezpieczna kontrbezpieczna 3,00 1,00 Strategia bezpieczeństwa Wiersza A Strategia bezpieczeństwa Kolumny 4 3 A, B 7 7 Strategia kontrbezpieczna Wiesza B Strategia kontrbezpieczna Kolumny A Wnioskiem z powyższego jest stwierdzenie , iż teorii rozwiązywania gier o sumie zerowej nie da się przenieść na gry o sumie niezerowej. Niestety nie ma uniwersalnego modelu rozwiązywania gier w których wykluczona jest komunikacja pomiędzy graczami. Definicja. Dwuosobowa gra jest rozwiązywalna w ścisłym sensie, jeżeli: ma co najmniej jedną równowagę optymalną w sensie Pareto jeżeli równowag takich jest więcej, to są one ekwiwalentne i wymienne. Dla gier rozwiązywalnych w ścisłym sensie jesteśmy wstanie wykazać jako rozwiązanie unikalną, paretooptymalną równowagę bądź też zbiór równowag wymiennych i ekwiwalentnych. Gra nr 1 jest rozwiązaniem w ścisłym sensie, ale gra nr 2, 3 i 4 już nie. Rozważmy grę przedstawioną na rysunku. Pan Wiersz A B C Pani Kolumna A B C (0,-1) (0,2) (2,3) (0,0) (2,1) (1,-1) (2,2) (1,4) (1,-1) W grze tej występują dwie równowagi BB i AC, ale na wieloboku wypłat widać, że równowaga BB nie jest paretooptymalna, zatem unikalną równowagą paretooptymalną jest AC. Tak więc gra jest rozwiązywalna w ścisłym sensie. Powiedzieć można, że Pan Wiersz powinien grać strategię A, a Pani Kolumna C. Przykład 2. Dla poniższej gry narysuj diagram przesunięć i wielobok wypłat oraz wyznacz wszystkie równowagi w strategiach czystych i wszystkie wyniki paretooptymalne. Pan Wiersz A B C Pani Kolumna A B C (3,0) (5,2) (0,4) (2,2) (1,1) (3,3) (4,1) (4,0) (1,0)