Slajd 1

advertisement
Stochastyczne modele
gier ewolucyjnych
Jacek Miękisz
Instytut Matematyki Stosowanej i Mechaniki
Uniwersytet Warszawski
Princeton meeting 1949
John von Neumann 1903-1957
John Forbes Nash 1928-
Jak grać?
Równowaga Nasha
Przypisanie graczom strategii, tak iż żadnemu z graczy,
przy ustalonych strategiach wszystkich innych graczy,
nie opłaca się zmienić swojej strategii
Formalnie
gra w jelenia i zająca
(St,St)
równowaga efektywna
(H,H)
równowaga bezpieczna
średnia St - 5/2
Średnia H - 3
problem wyboru równowagi
Dynamika populacji
czas
A i B - dwa możliwe zachowania,
fenotypy, strategie osobników
Prosty model ewolucji
Selekcja
osobnicy oddziałują w parach – grają w gry
uzyskują wypłaty = liczba potomstwa
Fenotypy są dziedziczone
Potomstwo może mutować
Dobór osobników do gry
każdy gra z każdym
losowe spotkania graczy
gry na grafach,
populacje ze strukturą przestrzenną
Stochastyczna dynamika skończonych populacji
n - liczba osobników
zt - liczba osobników grających A w czasie t
Ω ={0,…,n} - przestrzeń stanów
selekcja
zt+1 > zt jeśli „średnia” z A > „średnia z B
mutacje
Każdy osobnik może zmienić swoją strategię
z prawdopodobieństwem ε
Łańcuch Markowa z jedyną miarą stacjonarną μεn
Klasyczne wyniki
Każdy gra z każdym, Kandori-Mailath-Rob 1993
A
B
A
a
c
B
b
d
a>c i d>b,
(A,A) i (B,B) – równowagi Nasha
A jest stategią efektywną, a>d
B jest strategią dominującą ze względu na ryzyko
c+d>a+b
Losowy dobór graczy, Robson - Vega Redondo, 1996
pt
liczba krzyżowych spotkań
JM J. Theor. Biol, 2005
Twierdzenie
Lemat drzewny (Freidlin and Wentzell)
ergodyczny łańcuch Markowa ze skończona przestrzenią Ω,
macierzą przejścia Pε , i jedyną miarą stacjonarną με
z2
z1
z3
Pε (z4|z1)
z4
z5
x
Gry przestrzenne z lokalnymi oddziaływaniami
Dynamika deterministyczna
reguła najlepszej odpowiedzi
i
Br(St,St)=St
Br(H,H)=H
Br(H,St)=Br(St,H)=H
Dynamika stochastyczna
a) zaburzona najlepsza odpowiedź
z prawdopodobieństwem
, 1-ε
z prawdopodobieństwem ε
b) reguła log-linear
gracz wybiera najlepszą odpowiedź
gracz myli się
Jeleń i zając na Z, z oddziaływaniem najbliższych
sąsiadów i zaburzoną najlepszą odpowiedzią
liczenie błędów
Otwarty problem
konstrukcja gry przestrzennej
z jedyną miarą stacjonarną μεΛ
która ma następujące własności
Dylemat Więźnia na grafach losowych
wspólna praca z Bartoszem Sułkowskim
C
D
C
3
0
D
5
1
(D,D) jest jedyną równowagą Nasha
Grafy Poissona
Każdą parę wierzchołków łączymy krawędzią z prawdopodobieństwem p
Rozkład stopni wierzchołków jest rozkładem Poissona
Bezskalowe grafy typu Barabasi-Alberty
Reguła preferencyjnego linkowania
Rozkład stopni wierzchołków ~ k-λ
dynamika imitacji
C
C
D
C
C
D
C
3
0
D
5
1
C
D
C
2
-1
D
4
0
gracze z lewej dostają 3
środkowy gracz
6
prawy gracz dostaje
5
gracze z lewej dostają 2
środkowy gracz
3
prawy gracz dostaje
4
D zmienia się w C
środkowe C zmienia się w D
C
D
C
1
0
D
T
0
C
D
C
1-γ
-γ
D
T-γ
-γ
γ
-
koszt połączenia
dynamika imitacji najlepszej strategii z otoczenia
średni poziom współpracy w stanie stacjonarnym
Co dalej?
gry na grafach losowych
koewolucja sieci powiązań i strategii
Deterministyczna dynamika replikatorowa
A
B
A
a
b
B
c
d
U=
pA(t) – liczba osobników grających A w czasie t
pB(t) – liczba osobników grających B w czasie t
UA = ax + b(1-x)
UB = cx + d(1-x)
Uav = xUA +(1-x)UB
Proponujemy
pA(t+ε)=(1-ε)pA(t) + εpA(t)UA(t)
pA(t+ε) = (1-ε)pA(t) + εpA(t)UA(t)
pB(t+ε) = (1-ε)pB(t) + εpB(t)UB(t)
p(t+ε) = (1-ε)p(t) + εp(t)Uav(t)
dx/dt = x(1-x)(UA – UB)
Jeleń - Zając
J
Z
J
5
0
∙←←←←←∙→→→∙
Z
3
3
0
3/ 5
1
mieszana równowaga jest niestabilna
Jastrząb - Gołąb
J
G
J
-1
2
G
0
1
∙→→→→∙←←←←∙
0
1/2
1
mieszana równowaga jest stabilna
Opóźnienia ( dla Jastrzębia i Gołębia)
→→→→x*←←←←
opóźnienie społeczne
Zakładamy, że osobnicy w czasie t naśladują strategie,
które miały większe wypłaty w czasie t- τ.
Proponujemy
odpowiednie równanie replikatorowe w czasie ciągłym ma postać
Twierdzenie (Jan Alboszta i JM, J. Theor. Biol. 231: 175-179, 2004)
x* jest asymptotycznie stabilny jeśli τ jest odpowiednio małe
x* jest niestabilny dla odpowiednio dużego τ
Biologiczne opóźnienie
Zakładamy,że osobnicy rodzą się τ czasu po tym jak ich
rodzice grali i uzyskali wypłaty.
Proponujemy
Twierdzenie (JA i JM, JTB 2004)
x* jest asymptotycznie stabilny dla każdego opóźnienia τ
Stochastyczna dynamika z opóźnieniem
na grafach
a) zaburzona najlepsza odpowiedź na stan w t-τ
,
z prawdopodobieństwem 1-ε
z prawdopodobieństwem ε
gracz wybiera najlepszą odpowiedź
gracz myli się
b) zaburzona imitacja stanu w t-τ
z prawdopodobieństwem 1-ε gracz imituje najlepszego gracza
z prawdopodobieństwem ε gracz myli się
Dziękuję za uwagę
www.mimuw.edu.pl/~miekisz
Download