Vězňovo dilema a evolučně stabilní strategie

Vězňovo dilema a evolučně stabilní strategie

VŠFS 3.3.2010Tomáš Kosička

Základní popis VD

Zřejmě nejznámějším příkladem z teorie her je tzv, „věznovo dilema“

Stručný popis:Policie zadržela dva podezřelé – Adama a Boba – a drží je

odděleně. Důkazy, které má policie, nejsou dostatečné pro usvědčení, takže se musí spoléhat na přiznání resp. udání.

Pokud se oba dva navzájem udají, budou odsouzeni na pět let. Pokud jeden udá druhého a druhý zůstane mlčet, bude udavač

volný a druhý odsouzen na plných dvacet let. Pokud oba dva zůstanou mlčet, odsoudí oba za drobnější

přestupky na jeden rok. Vzhledem k tomu, že ani jeden zadržený si nemůže být jistý, co

zvolí ten druhý, nastává dilema: mluvit nebo mlčet?

Rozpory teorie s experimenty

Ve vězňově dilematu mají oba hráči dvě možnosti – spolupracovat nebo zradit. Sobecká volba zradit vede k vyššímu zisku než spolupráce, pokud druhý hráč spolupracovat chtěl, ale k nižšímu, pokud také zradil.Racionálním chováním obou obviněných je udat svého spolupachatele, i když optimálním řešením je mlčení obou. Rozpor mezi Nashovou rovnováhou a Paretovským optimem.Tento výsledek, kdy zrada je tím správným rozhodnutím, vedl k mnoha diskuzím a pokusům o vysvětlení. Také bylo provedeno několik široce publikovaných experimentů. Zrada kooperace neznamé rozhodnutí

Shafir, Tversky (92) 97 84 63Li, Taplan (02) 83 66 60Busemeyer (06) 91 84 66

(čísla jsou procentuálním vyjádřením zrady, vynechal jsem Croson (99) )

Kvantování VD – 2 druhy – matematický pomocí unitárních transformací a popis systému vlnovou funkcí

Další experimenty ukázaly, že ochota zradit či kooperovat je do velké míry ovlivněna velikostí odměny (trestu)

Obecná forma vězňova dilematu

(Axelrod 1984)

podmínka T>R>P>SR odměna za spolupráci obouP odměna za zradu obouT odměna za zradu jednohoS „odměna“ za osamocenou spolupráci

C D

C R,R S,T

D T,S P,P

Indexy „krutosti“ výplatní matice:

(uvádím je čátečný výčet spíše pro ilustraci)i1 – Index soupeřivé výhody i1= S-T Při růstu i1 se zvyšuje ochota spolupráce, na zakladě experimentů Rapoport popsal i1= F(ω) , kde ω je procentuální úroven kooperacei2 – Index průměrné výhody soupeření i2 = (S+P)/2 – (R+T)/2růst i2 – pokles spoluprácei3 – Index průměrné výhry v jedné hře i3=(T+R+S+P)/4růst i3 – pokles spolupráce (nepotvrzeno experimentálně)δ1,δ2- Index poměrů hodnot dvou dvojicδ1 = (R-P)/(T-S) δ2= (R-S)/(T-S)roste–li δ1,δ2 stoupá úroven kooperacei4 – Index poměru sil pro volbu C a D i4= sqrt(T/(R-P))Zajímavost – tento index má průběh blížící se užitkové funkcii5 – Index logaritmického poměru rozdílů i5 = ln ((T-S)/(R-P)) zřejmě nejpopisnější – čím vyšší je zisk ze spolupráce v poměru k tomu, co se stane při oboustranném soupeření, tím je vyšší úroveň kooperace. Zároven platí, že podmínky spolupráce se výrazně zlepší snížením rozdílu mezi T a S.G - Index altruismu, který vyjadřuje úroven hráčova uspokojení ze soupeřovy (partnerovy) výhry

Opakované vězňovo dilema

Je stále zrada dominantní strategií?Různé strategie: Statické (nepodmíněné a podmíněné) a dynamické (diskrétní a kontinuální)

DDS – jednofázová – statická strategie, dvoufázová – předehra + interakce, třífázová – předehra, mezihra, interakcePro zajímavost srovnání (pokus na lidech) Strategie napraveného hříšníka (100D,100C, 7+TFT) a padlého světce (100C, 4+ TFT) (DDS) 47vs32%

Evoluce spolupráce

Axelroduv turnaj:matice 5,3,1,0, 15 strategií, 200 kolVelký vliv úvodního „tahu“Zajímavost – prvních 8 programů zahajuje spoluprací.

Poř pův.poř Strategie Výhry Remízy Prohry Celkem1 – 2 11 Feld 12 3 0 391 – 2 12 Joss 12 3 0 39

3 2 Tideman 11 2 2 354 6 Stein 9 2 4 295 7 Friedman 5 8 2 236 4 Grofman 5 6 4 21

7 – 8 10 Downing 6 2 7 207 – 8 13 Tullock 6 2 7 20

9 8 Davis 4 6 5 1810 5 Shubik 3 7 5 1611 9 Graaskamp 4 2 9 1412 14 NW 3 1 11 1013 3 Nydegger 1 6 8 914 1 TFT 0 8 7 815 15 Random 1 1 13 4

Jiný způsob hodnocení - „fotbalová tabulka“

Definice stabilní strategie: Strategie je evolučně stabilní, pokud populace jedinců užívajících tuto strategii nemůže být napadena řídce se vyskytující odlišnou mutantní strategií.

V případě jednokolového Věznova dilematu nemůže žádná strategie napadnout „Vždy zradit“V realitě dochází v mnoha případech ovšem k opakovanému setkání dvou jedinců (hráčů), přecházíme k opakovanému VD, kdy může hráč využít různé strategie a zkušeností z minulého setkání Konflikt s realitou - Známý vs. Neznámý počet setkání

Děkuji za pozornost

Vězňovo dilema a evolučně stabilní strategie

Documents

Transcript of Vězňovo dilema a evolučně stabilní strategie