1 Analiza decyzji - tablica decyzyjna, klasyfika

advertisement
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier1
1
Analiza decyzji - tablica decyzyjna, klasyfikacja problemów
W celu formalizacji i klasyfikacji problemów decyzyjnych wprowadzimy tzw tablicę decyzyjną. Niech decydent (lub grupa decydentów) ma osiągnąć pewien cel (np.
zysk z uprawy swojego pola). Aby go osiągnąć podjmuje pewne działania, które
nazywamy strategiami, alternatywami decyzyjnymi lub decyzjami. Zakładamy,
że ilość tych działań jest m i działania te oznaczymy a1 , a2 , . . . , am . Podejmując
dane działanie jego wynik zależy od zewnętrznych dla decydenta n czynników,
które nazywamy stanami natury i oznaczamy przez θ1 , θ2 , . . . , θn . Pełny opis konsekwencji dla decydenta podjęcia działania ai w sytuacji, gdy wystąpi stan natury
θj oznaczać będziemy przez Xij i zapisuje się w postaci następującej tablicy decyzyjnej :
Alternatywy
decyzyjne
a1
a2
..
.
am
Stany natury
θ2
...
θ
X12 . . . X1n
X22 . . . X2n
..
..
...
.
.
Xm1 Xm2 . . . Xmn
θ1
X11
X21
..
.
Tab. 1: Ogólna postać tablicy decyzyjnej
Przykład 1. Rozważmy osobę, która ma przygotować omlet z 6 jajek. Właśnie
wbiła już do miski 5 jaj, które okazały się dobrymi i zastanawia się co zrobić z
szóstym jajkiem, które może być albo dobre albo zepsute. Tablica 2 podaje możliwe
sposoby działania i opis konsekwencji tych działań.
Alternatywy
decyzyjne
zbić jajko do miski
Stan natury
jajko zepsute
nie ma omletu
i 5 jajek zniszczonych
zbić jajko do
omlet z 6 jaj
omlet z 5 jajek
do innego naczynia i naczynie do umycia
i naczynie do umycia
wyrzucić jajko
omlet z 6 jajek
omlet z 5 jajek
i jedno jajko zniszczone
jajko dobre
omlet z 6 jaj
Tab. 2: Pełny opis konsekwencji problemu decyzyjnego przygotowanie omletu
W analizie decyzji stosuje się tablice decyzyjne w których zamiast pełnego
opisu konsekwencji Xij używa się miary wartości konsekwencji v(Xij ) oznaczanej
dalej przez vij dla i = 1, . . . , m; j = 1, . . . , n i nazywanej dalej użytecznością.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier2
Miara ta powinna spełniać warunek, że vij > vkl , gdy dla decydenta bardziej
sprzyjające są konsekwencje Xij niż konsekwencje Xkl (mówi się również, że decydent preferuje konsekwencje Xij w stosunku do konsekwencji Xkl ). Dlatego
dalej będą używane tablice decyzyjne w których konsekwencje zostaną zastąpione użytecznością. Postać taką podano w tablicy 3.
Alternatywy
decyzyjne
a1
a2
..
.
am
Stany natury
θ2 . . .
θ
v12 . . . v1n
v22 . . . v2n
..
..
...
.
.
vm1 vm2 . . . vmn
θ1
v11
v21
..
.
Tab. 3: Postać ogólna tablicy decyzyjnej, w której konsekwencje zastąpiono użytecznością
1.1
Typy problemów decyzyjnych
Wyróżnia się trzy typy problemów decyzyjnych:
Problemy decyzyjne w warunkach pewności. Występuje tylko jeden stan
natury, którego wystąpienie jest pewne - tablica decyzyjna ma tylko jedną
kolumnę.
Problemy decyzyjne w warunkach ryzyka. Znane jest prawdopodobieństwo wystąpienia każdego stanu natury. Dla dyskretnych stanów natury
θ1 , θ2 , . . . , θn prawdopodobieństwa ich wystąpienia oznaczamy przez P (θ1 ), P (θ2 ), . . . , P (θn ).
Problemy decyzyjne w warunkach niepewności. Znane są sposoby postępowania decydenta i potrafimy zidentyfikować wszystkie możliwe stany
natury ale nie wiemy nic o prawdziwym stanie natury.
W zależności od typu problemu decyzyjnego stosowane są różne kryteria wyboru
decyzji optymalnej (rozwiązania optymalnego).
1.2
Kryteria wyboru decyzji w warunkach pewności
W problemach w warunkach pewności decyzją optymalną jest alternatywa o najbardziej sprzyjającej dla decydenta wartości użyteczności (co sprowadza się do
wyboru elementu maksymalnego lub minimalnego w tablicy decyzyjnej o jednej
kolumnie).
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier3
1.3
Kryteria wyboru decyzji w problemach w warunkach
ryzyka
W problemach w warunkach ryzyka racjonalne kryterium wyboru optymalnej
decyzji polega na wyborze takiej alternatywy decyzyjnej ak , która maksymalizuje
(lub minimalizuje, gdy użyteczność jest kosztem) wartość średnią użyteczności tj.
n
X
m
P (θj )vkj = max
i=1
j=1
n
X
P (θj )vij
j=1
Przykład 2. Sprzedawca truskawek kupuje na plantacji koszyczek truskawek za
3zł. a sprzedaje za 8zł. Sprzedany koszyk przynosi mu zatem 5zł. zysku a nie
sprzedany stratę 3zł. Z doświadczenia wie, że dzienny popyt może wynosić 10,
11, 12 lub 13 koszyczków. Z 90 obserwacji, które zgromadził wie, że w 18 przypadkach dzienny popyt kształtował się na poziomie 10 , w 36 na poziomie 11, w
27 na poziomie 12 i w 9 na poziomie 13 koszyczków. Jeśli przez ai oznaczymy
alternatywę zakup na plantacji 10 + (i − 1) koszyczków truskawek, przez θi - popyt dzienny na poziomie 10 + (i − 1) (i = 1, 2, 3, 4) koszyczków a użytecznością
będzie dzienny zysk sprzedawcy, to tablicą decyzyjną jest tablica 4. W tej tablicy
Zysk
a1
a2
a3
a4
Rozkład
θ1
50
47
44
41
0.2
θ2
50
55
52
49
0.4
θ3
50
55
60
57
0.3
θ4
50
55
60
65
0.1
EV (ai )
50
53.4
53.6
51.4
Tab. 4: Tablica decyzyjna sprzedawcy truskawek
EV (ai ) oznacza wartość średnią użyteczności alternatywy ai . Decyzją optymalną jest wybór alternatywy a3 , która daje maksymalny oczekiwany zysk wynoszący
EV (a3 ) = 53.6.
Dla problemów decyzyjnych o dużej liczbie alternatyw i stanów natury wypisywanie całej tablicy decyzyjnej możne być uciążliwe. Można podać metodę
rekurencyjną wyznaczania wartości średniej użyteczności dla kolejnych alternatyw. Opiszemy jej idę i pokażemy jej zastosowanie dla rozpatrywanego przykładu.
Niech X będzie dyskretną zmienną losową rozkładu stanów natury (tj. wielkości popytu na truskawki w problemie sprzedawcy truskawek) przyjmującą wartości q, q + 1, . . . , Q o rozkładzie P (x) dla x = q, q + 1, . . . , Q i dystrybuancie
F (x) = P (X ≤ x). Wartość średnia użyteczności alternatywy ai , jest wartością
średnią funkcji zmiennej losowej X. Oznaczmy przez d(z), z = q, q + 1, . . . , Q
wartość średnią zysku sprzedawcy, gdy zakupił na plantacji z koszyczków truskawek(tj. EV (ai ) = d(z), gdzie z = 10+i−1, i = 1, 2, 3, 4 ). Oznaczmy przez a zysk
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier4
jaki osiąga sprzedawca z jednego sprzedanego koszyczka a przez b stratę na jednym nie sprzedanym koszyczku (dla rozpatrywanego przykładu a = 5, b = 3). Załóżmy, że sprzedawca zakupił z −1 koszyczków (jego średni zysk wynosi d(z −1)).
Dokupienie dodatkowo jednego koszyczka truskawek przyniesie stratę b jeśli popyt
x będzie x ≤ z − 1. Prawdopodobieństwo tego zdarzenia wynosi P (X ≤ z − 1).
Natomiast przyniesie zysk a jeśli popyt x będzie x > z − 1. To zdarzenie ma
prawdopodobieństwo 1 − F (z − 1). Mamy zatem rekurencyjny wzór:
d(z) = d(z − 1) + a[1 − F (z − 1)] − bF (z − 1)
= d(z − 1) + a − (a + b)F (z − 1) (z = q + 1, q + 2, . . . , Q.)
Dla z = q mamy d(q) = aq.
Dla sprzedawcy truskawek mamy:
EV (a1 ) = d(z = 10) = 5 ∗ 10 = 50
EV (a2 ) = d(11) = d(10) + 5 − (5 + 3)F (10) = 50 + 5 − 8
2
= 53.4
10
6
= 53.6
10
9
EV (a4 ) − d(13) = d(12) + 5 − 8F (12) = 58.6 − 8 = 51.4
10
EV (a3 ) = d(12) = d(11) + 5 − 8F (11) = 58.4 − 8
Optymalną strategię można również wyznaczyć wzorem analitycznym. Jeśli strategią optymalną jest wybór alternatywy polegającej na zakupie k ∗ koszyczków,
to z własności maksimum lokalnego mamy, że
d(k ∗ ) ≥ d(k ∗ − 1) ⇒ F (k ∗ − 1) ≤
d(k ∗ ) ≥ d(k ∗ + 1) ⇒
a
a+b
a
≤ F (k ∗ )
a+b
Stąd mamy
a
≤ F (k ∗ )
a+b
Wartość k ∗ spełniająca tę nierówność jest optymalną decyzją. Ten ostatni sposób wyznaczania alternatywy optymalnej jest najoszczędniejszy. Dla sprzedawcy
truskawek mamy
F (k ∗ − 1) ≤
5
a
=
= 0.425 i 0.4 = F (11) ≤ 0.425 ≤ F (12) = 0.9,
a+b
3+5
czyli optymalną alternatywą jest zakup 12 koszyczków (k ∗ = 12).
W problmach w warunkach ryzyka wprowadza się pojęcie oczekiwanej wartości pewnej informacji (EVPI). Sposób jej obliczania podamy na przykładzie
problemu sprzedawcy truskawek. Załóżmy, że sprzedawca może z całą pewnością
przewidzieć zajście danego stanu natury (ma pewną prognozę odnośnie stanów
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier5
natury). Wtedy powinien wybierać alterntywę a1 dla stanu θ1 , a2 dla θ2 , a3 dla θ3
i a4 dla θ4 . Ponieważ zna rozkład prawdopodobieństwa stanów natury, to wartość
oczekiwana użyteczności wyniesie wtedy:
50 ∗ 0.2 + 55 ∗ 0.4 + 60 ∗ 0.3 + 65 ∗ 0.1 = 56, 5.
Bez znajomości tej prognozy wartość oczekiwana zysku wynosi 53,6. Różnica
56.5-53.6=2.9 definiuje oczekiwaną wartość pewnej informacji, czyli EVPI=2.9.
Wartość tę możemy interpretować jako maksymalną kwotę, którą można wydać
za pewną prognozę.
1.4
Kryteria wyboru decyzji w warunkach niepewności
Dana jest tablica decyzyjna dla problemu z funkcją użyteczności vij (funkcją tą
może być zysk lub koszt).
Kryterium Walda - wybór alternatywy dla której najmniej sprzyjający rezultat jest dla decydenta najkorzystniejszy (maksymalizacja minimalnego zysku, gdy użyteczność vij jest zyskiem). Dla każdej alternatywy ai , i =
1, . . . , m wyznacza się dwie wielkości: najbardziej sprzyjający dla decydenta rezultat oi oraz najmniej sprzyjający rezultat si . Jeśli użyteczność vij
jest zyskiem , to
oi = max{vij } oraz si = min{vij }
j
j
natomiast, gdy użyteczność vij jest kosztem, to
oi = min{vij } oraz si = max{vij }.
j
j
Decyzją optymalną jest alternatywa ak taka, że
sk = max si = max min{vij } jeśli vij jest np. zyskiem
i
i
j
lub
sk = min si = min max{vij } jeśli vij jest np. kosztem
i
i
j
Kryterium to jest najbardziej konserwatywne - decydent wybiera alternatywę, w której najgorszy (najmniej sprzyjający) rezultat będzie dla niego
najkorzystniejszy spośród wszystkich alternatyw. Nie wszyscy decydenci
wykazują taką postawę względem ryzyka. Niektórzy decydenci mogą preferować alternatywy dla których najbardziej sprzyjający rezultat jest najkorzystniejszy tj, wybierać alternatywę ak dla której
ok = max oi = max max{vij }
i
i
j
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier6
Większość decydentów wykazuje mniej skrajne postawy. Kryterium następne (Hurwicza) zakłada, że postawę decydenta wykazywaną we wszystkich
problemach można scharakteryzować przez pewien współczynnik (nazywany współczynnikiem ostrożności).
Kryterium Hurwicza - wybór alternatywy o najkorzystniejszej dla decydenta
średniej ważonej z najmniej i najbardziej sprzyjającego rezultatu (maksymalizacja - gdy vij jest zyskiem - średniej ważonej z najmniej i najbardziej
sprzyjającego rezultatu). Jeśli vij jest zyskiem, to decyzją optymalną jest
alternatywa ak taka, że
αsk +(1−α)ok = max{αsi +(1−α)oi } = max{α min{vij }+(1−α) max{vij }},
i
i
j
j
gdzie α jest współczynnikiem charakteryzującym decydenta. Dla α = 1
kryterium jest identyczne z kryterium Walda, czyli jest najbardziej zachowawczym, dla α = 0 mamy najbardziej optymistyczne kryterium. Wartości
α z przedziału (0,1) pozwalają na modelowanie postaw pośrednich. Jeśli vij
jest kosztem, to decyzją optymalną jest alterntywa ak taka, że
αsk +(1−α)ok = min{αsi +(1−α)oi } = min{α max{vij }+(1−α) min{vij }}.
i
i
j
j
Kryterium Savage’a - minimalizacja maksymalnego ”żalu”. Na podstawie tablicy decyzyjnej [vij ] konstruuje się nową tablicę [rij ] następująco:
rij =
maxm
l=1 {vij } − vij
vij − minm
l=1 {vij }
jeśli vij jest zyskiem,
jeśli vij jest kosztem.
Element rij tej tablicy jest różnicą pomiędzy użytecznością najlepszej decyzji jaką należałoby podjąć przy wystąpieniu stanu θj a podjętą decyzją (dla
vij zysku) i może być interpretowany jako ”‘żal”’ z niepodjęcia najlepszej
decyzji. W tablicy rij do wyboru decyzji optymalnej stosuje się kryterium
Walda (dla kosztów). Decyzją optymalną jest ak takie, że
sk = min{si } = min{max{rij }}.
i
i
j
Kryterium Laplace’a(1825) - maksymalizacja (lub minimalizacja, gdy użyteczność jest kosztem) wartości średniej. Optymalną decyzją jest wybór
takiej alternatywy ak , że
n
n
X
X
1
1
m
vkj = max{
vij }.
i=1
n
n
j=1
j=1
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier7
Przykład 3. Ośrodek wczasowy przygotowuje zapasy żywności na nadchodzący
weekend. Możliwe stany natury θ1 , θ2 , θ3 , θ4 odpowiadają odpowiednio przyjazdowi
100, 150, 200 i 250 turystów. Alternatywy decyzyjnyme a1 , a2 , a3 , a4 to przygotowanie (zakup) zapasów dla odpowiednio 100, 150, 200 i 250 turystów. Użyteczność
vij będąca kosztem związanym z podjęciem alternatywy ai i wystąpieniem stanu θj
podana jest w tablicy 5. Optymalną decyzją stosując kryterium Walda jest wybór
vij
a1
a2
a3
a4
θ1 θ2 θ3 θ4
5 10 18 25
8 7 8 23
21 18 12 21
30 22 19 15
si oi
25 5
23 7
21 12
30 15
Tab. 5: Tablica decyzyjna dla ośrodka wczasowego
alternatywy a3 , dla kryterium Hurwicza, gdy współczynnik α = 0.5 alternatywą
optymalną jest a4 . Dla kryterium Savage’a musimy najpierw wyznaczyć tablicę
rij , którą podano w tablicy 6. Decyzją optymalną jest w tym przypadku wybór
rij
a1
a2
a3
a4
θ1
0
3
16
25
θ2 θ3 θ4
3 10 10
0 0 8
8 4 6
12 11 0
si
10
8
16
25
Tab. 6: Tablica wartości [rij ] dla ośrodka wczasowego
alternatywy a2 .
2
Drzewa decyzyjne
Do analizy problemów decyzyjnych szczególnie w sytuacjach, gdy mamy do czynienia z decyzjami wieloetapowymi szczególnie stosuje się tzw. drzewa decyzyjne.
Ich definicję i zastosowanie podamy na przykładzie.
Przykład 4. T.B. Inwestor Puckett nabył firmę produkującą materiały tekstylne.
Teraz zastanawia się nad przyszłością tej firmy. Rozważa trzy warianty decyzji:
1. Rozbudować fabrykę i produkować lekkie, trwałe materiały, przeznaczone na
rynek wojskowy, na którym nie ma dużej zagranicznej konkurencji.
2. Utrzymać ststus quo, nadal produkując materiały tekstylne, w której to branży istnieje ostra zagraniczna konkurencja.
3. Natychmiast sprzedać fabrykę.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier8
Stany natury
Dobre warunki na
Złe warunki na
Decyzja
rynku zagranicznym rynku zagranicznym
Rozbudować
800000zł.
500000zł.
Utrzymać stan obecny
1300000zł.
-150000zł.
Sprzedać natychmiast
320000zł.
320000zł.
Tab. 7: Tablica decyzyja firmy Puckett
W przypadku wyboru jednego z pierwszych dwóch wariantów decyzji fabryka zostanie sprzedana po roku. Zysk ze sprzedaży fabryki po roku zależy od warunków na
rynku zagranicznym i od losów ustawy o embargu handlowym. Sytuacja decyzyjna
jest przedstawiona w tabeli decyzyjnej 7.
Rozważany problem możemy zapisać w postaci drzewa decyzyjnego(Rys. 2),
w którym wyróżniamy węzły: decyzyjne (oznaczone kwadratem), losowe (oznaczone większymi kółkami) oraz końcowe(oznaczone małymi kólłkami). Z węzła
decyzyjnego 1 wychodzą 3 krawędzie do węzłów losowych 2, 3 i 4. Krawędzie
te oznaczają alternatywy decyzyjne. Z każdego węzła losowego wychodzą dwie
krawędzie odpowiadające możliwym stanom natury tj . dobrym z prawdopodobieństem 0.7 i złym z prawdopodobieństwem 0,3 warunkom na rynkach zagranicznych. Węzły końcowe mają przypisane wartości zysku odpowiadającego sytuacji,
gdy decydent podejmie jakąś decyzję i zajdzie określany stan natury. Liczby przy
węzłach losowych są wartościami oczekiwanymi zysku przy wyborze przez decydenta odpowiedniej decyzji. Z drzewa decyzyjnego możemy odczytać, że decyzją
optymalna dla pana Packetta jest wybór alternatywy ”zachować stan obecny”,
która daje mu oczekiwany zysk wynoszacy 865000zł.
Rozważymy teraz sytuację, gdy w problemie decyzyjnym oprócz danych prawdopodobieństw stanów, które nazywa się prawdopodobieństwami a priori dysponujemy dodatkowymi informacjami tzw. prawdopodobieństwami a posteriori. W
rozważanym poprzednio problemie załóżmy, że pan Packett wynajął firmę kosultingową do opracowania raportu o politycznej i rynkowej sytuacji w przyszłości.
Raport będzie albo pozytywny (P) albo negatywny (N), wskazując na dobre (g)
albo złe (p) przyszłe warunki na rynku zagranicznym. Warunkowe prawdopodobieństwa uzyskania każdej z ocen stanu rynku przy danych stanach natury są
następujące:
P r(P/g) = 0.7 P r(N/g) = 0.3; P r(P/p) = 0.2, P r(N/p) = 0.8.
Te prawdopodobieństwa warunkowe pozwalają wyznaczyć (korzystając ze wzoru
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier9
Dobre warunki(0.7)
800000zł.
710000zł.
2
Złe warunki(0.3)
500000zł.
Rozbudować
Dobre warunki(0.7)
1
1700000zł.
Status quo
3
865000zł.
-150000zł.
Złe warunki(0.3)
Sprzedać
Dobre warunki(0.7) 320000zł.
4
320000zł.
320000zł.
Złe warunki(0.3)
Rys. 1: Drzewo decyzyjne Puckett
Bayes’a) prawdopodobieństwa a posteriori.
P r(g/P ) =
=
=
P r(p/P ) =
P r(g/N ) =
=
=
P r(p/N ) =
P r(P/g)P r(g)
P r(P/g)P r(g) + P r(P/p)P r(p)
(0.7)(0.7)
(0.7)(0.7) + (0.2)(0.3)
0.891
0.109
P r(N/g)P r(g)
P r(N/g)P r(g) + P r(N/p)P r(p)
(0.3)(0.7)
(0.3)(0.7) + (0.8)(0.3)
0.467
0.533.
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
Znajomość tych prawdopodobieństw pozwala na skonstruowanie drzewa decyzyjnego z prawdopodobieństwami a posteriori i przeprowadzenie analizy w celu
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier10
wyznaczenia strategii optymalnej. Nowe drzewo decyzyjne ma węzeł początkowy (jest to węzeł losowy) 1, z którego wychodzą dwie krawędzie odpowiadającę
dwóm możliwym stanom natury (raport pozytywny lub negatywny). Następnie
mamy dwa węzły decyzyjne 2 i 3 z których wychodzą po trzy krawędzie odpowiadające decyzjom, jakie decydent może podjąc. Krawędzie te prowadzą do
węzłów losowych 4,5,6,7,8 i 9, z każego z nich wychodzą po dwie krawędzie (odpowiadające dwóm stanom natury) do węzłów końcowych. Drzewo decyzyjne wraz
wartościami oczekiwanych wypłat(zysku) dla węzłów podaje rys. 2.
767300
0.891
Pr(g/P)=
4
Pr(p/P)=0.109
wa
do
ozbu
500000
R
1141850
2
Status quo
Pr(g/P)=
0.891
1300000
Pr(p/P)=0.109
−150000
Pr(g/P)=0.891
320000
5
1141950
Pozytywny
Sprzedaz
6
Pr(P)=0.55
320000
1
800000
Pr(p/P)=0.109
320000
916117.5
Pr(N)=0.45
wa
do
zbu
Negatywny
7
0.46
/N)=
640000
Pr(g
7
Pr(p/N)=0.533
Ro
0.467
527150
640100
3
Pr(g/N)=
8
Status quo
Pr(p/N)=0.533
0.467
Pr(g/N)=
Sprzedaz
800000
500000
1300000
−150000
320000
9
320000zł.
Pr(p/N)=0.533
320000
Rys. 2: Drzewo decyzyjne z prawdopodobieństwami a posteriori
Z analizy dzrzewa możemy odczytać strategię optymalną. Jeśli raport będzie
pozytywny, to decydent powinien wybrać alternetywę ”‘Statu quo”’, która przyniesie mu największy oczekiwany zysk 1141950zł. Natomiast w przypadku otrzymania rapotru negatywnego powinien wybrać alternatywę ”‘Rozbudować”’, dla
której oczekiwany zysk wynosi 640100zł. Takie postępowanie jest optymalne, decydent w ten sposób zapewnia sobie oczekiwany zysk wynoszący 916117.5zł. Bez
dodatkowej informacji (znajomości prawdopodobieństw a posteriori ) jego oczekiwany zysk wynosi tylko 865000zł.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier11
3
Gry dwuosobowe o sumie zerowej
W poprzednio rozpatrywanych sytuacjach decyzyjnych na efekty działań decydenta miały wpływ stany natury. Obecnie zajmiemy się sytuacjami, gdy na działania decydenta ma wpływ nie natura, którą możemy traktować jako pasywnego
oponenta lecz inny racjonalnie działający decydent. W teorii gier obu decydentów nazywamy graczami. Zajmować się będziemy tylko grami dwuosobowymi
o sumie zerowej. W takich grach podejmowane przez obu graczy decyzje nazywane sa strategiami. Efekt (użyteczność) podjęcia strategii i przez jednego gracza, gdy drugi gracz wybrał strategię j nazywa się wypłatą i oznaczamy przez
[wij ], i = 1, . . . , m; j = 1, . . . , n. W grach o sumie zero wypłata (wygrana) dla
jednego gracza jest równa przegranej drugiego.
Przykład 5. Mamy dwóch graczy: gracza 1 i gracza 2. Każdy z nich dysponuje
trzema strategiami 1,2 i 3. Macierz wypłat podaje tabela 8
Strategie
1
Gracz 1 2
3
Macierz wypłat
Gracz 2
1 2
3
1 2
4
1 0
5
0 1
-1
Tab. 8: Macierz wypłat gry 1
Macierz wypłat tej gry jest dość specyficzna i rozwiązanie otrzymamy wykorzystując koncepcję strategii zdominowanych. Mówimy, że strategia i jest
zdominowana przez strategię k jeśli strategia k jest co najmniej tak dobra jak i(a
czasami lepsza), bez względu na to, co zrobi oponent (drugi gracz). Formalnie
strategię i będziemy nazywać strategią zdominowaną przez strategię k, jeśli
∀j=1,...,n wij ≤ wkj oraz ∃l wil < wkl .
Natomiast k nazywamy strategią dominującą, jeśli:
∀j=1,...,n wkj = max{wij }.
i
Strategie, które nie są zdominowane przez inne strategie nazywamy strategiami
niezdominowanymi. Racjonalnie działający decydent będzie dokonywał wyboru spośród strategii niezdominowanych. Strategia 3 jest dla gracza 1 zdominowaną
przez strategię 1, gdyż bez względu na to jaką strategię wybierze gracz 2 wypłata gracza 1 jest przy wyborze strategii 3 nie niższa niż wypłata przy wyborze
strategii 1. Zatem wiersz trzeci odpowiadający strategii zdominowanej możemy
skreślić z macierzy wypłat. Zredukowana macierz wypłat jest podana w tablicy 9.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier12
1
1 1
2 1
2
2
0
3
4
5
Tab. 9: Zredukowana macierz gry11
1 2
1 1 2
2 1 0
Tab. 10: Zredukowana macierz gry12
Ponieważ zakładamy racjonalność obu graczy, to gracz 2 też ma strategię zdominowaną 3. Jest ona zdominowana zarówno przez strategię 1 jak i przez strategię
2. Eliminujemy strategię 3 gracza 2 co daje macierz wypłat 10: Teraz strategia 2
dla gracza 1 jest zdominowana przez strategię 1. Eliminując zdominowaną strategię mamy macierz wypłat podaną w tablicy 11: Strategia 2 dla gracza 2 jet
1 2
1 1 2
Tab. 11: Zredukowana macierz gry13
zdominowana przez strategię 1 zatem powinna być wyeliminowana. Ostatecznie
obaj gracze powinni wybierać strategie 1. Gracz 1 otrzyma wtedy wypłatę 1, ta
wartość jest przegraną gracza 2. Jest to wartość gry. Jeśli wartość gry jest 0,
to nazywa się grą sprawiedliwą (rozważana gra nie jest grą sprawiedliwą, gdyż
jej wartość wynosi 1). Koncepcja zdominowanych strategii pozwala na redukcję
wymiaru macierzy wypłat i w niektórych przypadkach pozwala wyznaczyć rozwiązanie gry. Jednak w większości przypadków potrzebujemy innego podejścia,
które zaprezentjemy na dwu kolejnych przykładach.
Przykład 6. Rozpatrzymy teraz grę o macierzy wypłat podanej w tablicy 12
W tej grze gracz 1 stosując strategię 1 może wygrać 6 ale może również przegrać 3(wypłata -3). Stosując strategię 3 może wygrać 5 ale może przegrać 4. Natomiast w strategii 2 jego wygrana bez względu na to co zrobi gracz 2 będzie co
najmniej 0. Analizując strategie dla gracza 2 mamy, że w strategiach 1 i 3 jego
maksymalna przegrana wynosi odpowiednio 5 i 6. natomiast w strategii 2 tylko
zero. Obaj gracze powinni zatem wybrać strategię 2, gdyż każdemu z nich zapewnia ona w najgorszym przypadku najlepszy wynik. Jest to tzw. kryterium
minimaksowe standardowo proponowane w teorii gier do wyboru strategii optymalnej. Według tego kryterium gracz 1 powinien wybrać strategię ,dla której minimalna wypłata jest największa (tj. maxi minj {wij }) a gracz 2 strategię dla której maksymalna wypłata gracza 1 jest jest najmniejsza (tj. mini maxj {wij }). W
analizowanym przykładzie strategią max min jest strategia 2 gracza 1 a strategią
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier13
Strategie
1
Gracz 1 2
3
Maximum
Macierz wypłat
Gracz 2
1
2
3
-3 -2
6
2
0
2
5
-2
-4
5
0
6
↑
min
Minimum
-3
0← max
-4
Tab. 12: Macierz wypłat gry 2
Strategie
1
Gracz 1 2
3
Maximum
Macierz wypłat
Gracz 2
1 2
3
0 -2
2
5 4
-3
2 3
-4
5 4
2
↑
min
Minimum
-2← max
-3
-4
Tab. 13: Gra 3 - nie ma punktu siodłowego
min max jest strategia 2 dla gracza 2.Wartość gry jest równa 0, czyli jest to gra
sprawiedliwa. W tej grze ten sam element macierzy wypłat(w22 = 0) jest jednocześnie wartością max min i wartością min max, czyli mamy element, który jest
najmniejszy w wierzsu i jednocześnie największy w kolumnie. Taki punkt, jesli
istnieje, nazywa się punktem siodłowym. Jesli gra ma punkt siodłowy, to obaj
gracza powinni do wyboru strategii optymalnej stosować odpowiednio max min i
min max strategie. Jednak nie każda gra posiada punkt siodłowy - taką jest np.
gra 3.
W rozważanej poprzednio grze wartości maxi minj wij = −2 6= 2 = mini maxj wij
nie są równe co oznacza, że gra nie posiada punktu siodłowego. W tej grze informacja o tym jaką strategię wybierze jeden z graczy pozwala drugiemu poprawić
swoją pozycję. Koncepcja rozwiazania optymalnego w tego typu grach oparta
jest na pojęciu strategii miesznych, które charakteryzują się tym, że żaden z
graczy nie może wydedukować jaką strategię użyje oponent.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier14
3.1
Strategie mieszane dla gry bez punktu siodłowego
Dla gier nie posiadających punktu siodłowego dla każdego z graczy wyznacza się
rozkłady prawdopodobieństwa na zbiorach ich strategii. Niech:
xi = prawdopodobieństwo, że gracz 1 użyje strategii i (i = 1, . . . , m),
yj = prawdopodobieństwo, że gracz 2 użyje strategii j (j = 1, . . . , n),
P
Pn
gdzie m
i=1 xi = 1,
j=1 yj = 1. Wartości xi , i = 1, . . . , m oraz yj , j = 1 . . . , n
nazywamy strategiami mieszanymi natomiast oryginalne strategie strategiami czystymi. W trakcie gry każdy z graczy wybiera strategię czystą jednak powinien wybierać ją w pewien losowy sposób zgodny z rozkładem (x1 , x2 , . . . , xm ) dla
gracza 1 i rozkładem (y1 , y2 , . . . , yn ) dla gracza 2. Np. jesli (x1 , x2 , x3 ) = ( 12 , 12 , 0)
a (y1 , y2 , y3 ) = (0, 12 , 21 ), to gracz 1 nie powinien wybierać strategii czystej 3 a
wybór strategii 2 lub 3 rozstrzygnąć rzucając monetą. Analogicznie gracz 2 nie
powinien wybierać czystej strategii 1 a wybór pomiędzy strategiami 2 i 3 rozstrzygnąć rzucając monetą. Przy stosowaniu strategii mieszanych przez każdego
z graczy oczekiwaną wygraną gracza 1 jest
Oczekiwana wypłata gracza 1 =
m X
n
X
wij xi yj ,
i=1 j=1
gdzie wij jest wypłatą jeśli gracz 1 używa czystej strategii i a gracz 2 używa
czystej strategii j. W rozpatrywanej poprzednio grze 3 jeśli gracze 1 i 2 stosują odpowiednio strategie mieszane (x1 , x2 , x3 ) = ( 12 , 21 , 0) i (y1 , y2 , y3 ) = (0, 21 , 21 )
to oczekiwana wypłata gracza 1 wynosi 14 (−2 + 2 + 4 − 3) = 41 . Minimaksowe
(min max) ktyterium dla strategii mieszanych mówi, że gracz powinien wybierać strategię mieszaną, która minimalizuje jego maksymalne oczekiwane straty.
Równoważnie, jeśli rozważamy wygraną gracza 1 (a nie przegraną gracza 2 co jest
równoważne) to kryterium to jest maksyminowe (max min), tj. maksymalizuje się
minimalną oczekiwaną wypłatę gracza 1. Przez minimalną oczekiwaną wypłatę
rozumie się najmniejszą możliwą wypłatę, którę można uzyskać przy dowolnej
strategii miesznej, podjętej przez oponenta. Zatem mieszna strategia dla gracza
1 jest optymalną, jeśli minimalna oczekiwana wypłata jest maksymalna. Wartość
tą oznaczamy przez w. Dla gracza 2 podobnie optymalną strategią mieszaną jest
strategia, która minimalizuje maksymalną oczekiwaną wartość przegranej. Wartość tę oznacza się przez w. Dla gier nie posiadających punktu siodłowego jeśli
tylko rozpatruje się czyste strategie, to nie ma rozwiązania stabilnego. Zachodzi
wtedy nierówność w < w i gracze mogą zmieniać strategie, aby poprawić swoją
pozycję. Dla strategii mieszanych koniecznym warunkiem, aby rozwiązanie optymalne było stabilne jest równość w = w. W grach o sumie zerowej ten warunek
jest zawsze spełniony.
Twierdzenie 1. Para strategii miesznych dla graczy jest optymalną dając stabilne rozwiązanie przy kryterium minimaksowym, (min max), gdy w = w = w.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier15
Stosując te strategie żaden z graczy nie może poprawić swojej pozycji zmieniając
jednostronnie swoją strategię.
3.2
Zastosowanie programowania liniowego do wyznaczenia rozwiazania gry
Rozwiązanie dowolnej gry w strategiach miesznych można wyznaczyć rozwiazując
pewne zagadnienie programowania liniowego. Rozważymy najpierw jak wyznaczyć optymalną strategię mieszaną gracza 1.
Oczekiwana wypłata gracza 1 =
m X
n
X
wij xi yj ,
i=1 j=1
i strategia (x1 , x1 , . . . , xm ) jest optymalną jeśli
m X
n
X
wij xi yj ≥ w = w
i=1 j=1
dla każdej strategii (y1 , y2 , . . . , yn ) gracza 2. Ta nierówność musi również zachodzić
dla czystych strategii tj. (y1 , y2 , . . . , yn ) takich, że jedna współrzędna yj = 1 a
reszta jest zerami. Zatem mamy:
m
X
wij xi ≥ w dla j = 1, . . . , n.
i=1
Co więcej ten zbiór nierówności implikuje wyjściową nierówność:
n
X
j=1
m
n
X
X
yj (
wij xi ) ≥
yj w = w,
i=1
i=1
P
ponieważ nj=1 yj = 1. Spełnienie tych n nierówności jest równoważne spełnieniu
wyjściowej nierówności dla każdej strategii y1 , y2 , . . . , yn . Wyznaczenie optymalnej
strategii może być zatem sprowadzone do rozwiązania następującego zagadnienia
programowania liniowego:
xm+1 → max
w11 x1 + w21 x2 + · · · , +wm1 xm − xm+1 ≥ 0
w12 x1 + w22 x2 + · · · , +wm2 xm − xm+1 ≥ 0
··· ··· ···
w1n x1 + w2n x2 + · · · , +wmn xm − xm+1 ≥ 0
x1 + x2 + · · · + xm = 1
xi ≥ 0, dla i = 1, 2, . . . , m.
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier16
Zmienna xm+1 zastępuje nieznaną wartość w i w rozwiązaniu optymalnym będzie
jej równa. Jednak na tę zmienną nie jest nałożony warunek nieujemności. Analogiczne rozumowanie prowadzi do następującego modelu wyznaczania optymalnej
strategii gracza2:
yn+1 → max
w11 y1 + w12 y2 + · · · , +w1n yn − yn+1 ≤ 0
w21 y1 + w22 y2 + · · · , +w2n yn − yn+1 ≤ 0
··· ··· ···
wm1 y1 + wm2 y2 + · · · , +wmn yn − yn+1 ≤ 0
y1 + y2 + · · · + yn = 1
yi ≥ 0, dla i = 1, 2, . . . , n.
Problem wyznaczenia optymalnej strategii mieszanej dla gracza 1 jest dualnym
do problemu wyznaczania strategii opotymalnej gracza 2. Z twierdzeń o dualności
∗
wiemy, że dla optymalnych rozwiązań x∗m+1 oraz yn+1
tych zagadnień mamy, że
∗
∗
−x∗m+1 = −yn+1
czyli x∗m+1 = yn+1
.
∗
= w skąd otrzymujemy równość
Z okreslenia w i w mamy, że w = x∗m+1 oraz yn+1
w = w.
Pozostaje jeszcze jeden element do rozpatrzenia. W podanych modelach li∗
niowych zmienne x∗m+1 , yn+1
nie są nieujemne. Jeśli jest oczywiste, że w ≥ 0, to
można stosować sympleks. Jeśli tak nie jest należy zastosować jedną z następujących modyfikacji:
• zamienić zmienną dowolną różnicą dwu zmiennych nieujemnych,
• zamienić rolami graczy tak, aby wypłata gracza 1 była nieujemna,
• dodać do macierzy wypłat pewną stałą (równą np. maksymalnej wartości
modułów ujemnych wartości macierzy wypłat), tak aby wartość gry w była
nieujemną - dodanie stałej nie może zmienić optymalnych strategii, a po
rozwiązaniu gry modyfikujemy jej wartość o tę wielkość.
Ostatni sposób jast najczęściej stosowany. Zastosujmy teraz programowanie liniowe do wyznaczenia optymalnych strategii mieszanych dla gry 3. Przyjmiemy,
że wartość gry jest nieujemna tj. w ≥ 0 (okaże się że tak rzeczywiście jest) czyli
nie będziemy stosować modyfikacji macierzy wypłat.
Przykład 7. W tej grze strategia 3 dla gracza 1 jest zdominowaną zatem powinna
być wyeliminowana. Macierz wypłat po usunieciu strategii 3 gracza 1 jest podana
w tablicy 14 Modele liniowe dla gracza 1 i gracza 2 są następujące:
A. Kasperski, M. Kulej BO - Analiza decyzji, drzewa decyzyjnie, elementy teorii gier17
Macierz wypłat
Gracz 2
Strategie 1 2
3
1 0 -2
2
Gracz 1 2 5 4
-3
Tab. 14: Gra 3 po wyeliminowaniu zdominowanej strategii 3.
x3
5x2 − x3
−2x1 + 4x2 − x3
2x1 − 3x2 − x3
x1 + x2
x1 , x2
→
≥
≥
≥
=
≥
max
0
0
0
1
0.
y4
−2y2 + 2y3 − y4
5y1 + 4y2 − 3y3 − y4
y1 + y2 + y3
y1 , y2 , y3
→
≤
≤
=
≥
min
0
0
1
0.
Rozwiązując te modele otrzymujemy dla bgracza 1 optymalne strategie mieszane
7
4
2
x∗1 = 11
, x∗2 = 11
i wartość gry w = x∗3 = 11
. Dla gracza 2 mamy y1∗ = 0, y2∗ =
5
6
2
, y3∗ = 11 oraz w = y4∗ = 11 . To rozwiązanie można otrzymać z rozwiązania
11
modelu dla gracza 1 dlatego wystarcza rozwiązać tylko jeden z tych modeli, aby
otrzymać strategie optymalne dla obu graczy. Rozwiązania zostały otrzymane przy
założeniu,że w ≥ 0. Jeśli nie jest spełnione to założenie, to model może nie mieć
rozwiązania dopuszczalnego. Aby tego uniknąć dodajemy do macierzy wypłat stałą
3 i odpowiednio modyfikujemy ograniczaenia. Po rozwiązaniu tylko wartość gry
zmnieszamy o 3.
Download