Bayesove mreže i korisnost (engl. utility )
description
Transcript of Bayesove mreže i korisnost (engl. utility )
1
Bayesove mreže i korisnost (engl. utility)
Bayesove mreže mogu uključivati čvorove:
Slučajne varijable (promatrano ranije) Čvorove odluke Čvorove korisnosti (engl. utility)
Dio materijala preuzeto sa:Stanford University, CS 228, Knowledge Representation and Reasoning Under Uncertainty.
2
Teorija racionalnog odlučivanja
Primjer: agent želi održati domjenakMoguće akcije: vani ili u kućiStanje svijeta: suho (vjer. 0.7) ili kiša (vjer. 0.3), vjer =1Postoje 4 mogućnosti uz 4 ishoda (posljedice, zadovoljstva):4 mogućnosti = 2 akcije (kući/vani): 4 ishoda
(zadovoljstva):u kući i suho (0.7) C1: žali (što nije vani)u kući i kiša (0.3) C2: zadovoljan (nije
upropašten)Vani i suho (0.7) C3: superVani i kiša (0.3) C4: katastrofa
Jasno je da agent preferira ''super'' (C3) nego ''žali'' (C1), ali to nije dovoljno za racionalnu odluku.
Kako donijeti racionalnu odluku ?Vjerojatnosti definiraju samo izglednost svijeta.
3
Teorija racionalnog odlučivanja
Traži se mjera za poželjnost (korisnost) , (engl. utility) svake posljedice Ci , kako bi se mogla donijeti racionalna odluka, t.j. traži se funkcija koja preslikava posljedice (ishode, zadovoljstva) u realne brojeve U(Ci ).
U(Ci ) = funkcija korisnosti (engl. utility function)
Nakon što se nekako (?) odredi funkcija U(Ci ):
Agent treba izvesti akciju koja maksimizira očekivanu korisnost:
EU(akcija) = pi U(Ci )
To je princip maksimalne očekivane korisnosti – MEU(engl. maximum expected utility)
4
Teorija racionalnog odlučivanja
Neka u našem primjeru postoji funkcija korisnosti U(Ci ):
4 ishoda (zadovoljstva):C1:žali (što nije vani) 7C2:zadovoljan (nije upropašten) 8C3:super 10C4:katastrofa 0
Računamo maksimalnu očekivanu korisnost za dvije moguće akcije:
EU(u kući) = 0.7 x 7 + 0.3 x 8 = 7.3 treba odabratiEU(vani) = 0.7 x 10 + 0.3 x 0 = 7.0
Problemi:Uz koje uvjete uopće postoji funkcija U(Ci ) ?
Koja su obilježja funkcije U(Ci ) ?
5
Aksiomi teorije korisnosti
(Ramsey 1931, Von Neumann 1944, Morgenstern 1944)Uvodi se pojam složenog scenarija = lutrija.Npr. neka akcija rezultira s dva ishoda (posljedica, rezultata):Ishod A s vjerojatnošću p, ishod B s vjerojatnošću (1-p)Lutrija je: L = [A, p; B, (1-p)] za tu akciju.
Za više ishoda C = {C1, …, Cn} proširujemo:L = [C1, p(C1); … ; Cn, p(Cn) ], i p(Ci) = 1, (1 i n)Svaki zasebni Ci može biti atomički ili lutrija (složen).
Primjer domjenka:Svaka od dviju akcija ima dva moguća ishoda (akcija
odgovara lutriji).Treba se odlučiti između dvije lutrije:U kući: C1 s vjer. 0.7 i C2 s vjer. 0.3 L1 = [C1, 0.7; C2, 0.3]Vani: C3 s vjer. 0.7 i C4 s vjer. 0.3 L2 = [C3, 0.7; C4, 0.3]
6
Aksiomi teorije korisnosti
Oznake: * preferencija, ~ indiferentnost, , logičke vezice
Uređenost:Npr. za 2 lutrije L1, L2:(L1 * L2) (L2 * L1) (L1 ~ L2)
Agent mora znati što želi (jedno od 3 mogućnosti).Nije trivijalno, npr.:Dobitak 3 M kuna sa vjer. 0.25 ili 4 M kuna sa vjer. 0.2 ?
Tranzitivnost:(L1 * L2) (L2 * L3) (L1 * L3) ; inače iracionalno
Kontinuiranost:Ako L1 * L2 * L3 (t.j. L2 je po preferenciji između L1 i L3), postoji vjerojatnost p kod kojega je lutrija L2 ekvivalentna složenoj lutriji s dva ishoda L1 i L3:
p { L2 ~ [ L1, p; L3, (1-p) ]}
p - mjera vrijednosti L2 relativno prema L1 i L2.
7
Aksiomi teorije korisnosti
Oznake: * preferencija, ~ indiferentnost:
Zamjenljivost (supstitucija):L1 ~ L2 [ L1, p; L3, (1-p) ] ~ [ L2, p; L3, (1-p) ]
Ako je agent indiferentan prema L1 ili L2, također je indiferentan prema kompleksnim lutrijama (uz jednaku vjerojatnost p).
Monotonost:(L1 * L2), (p q) [ L1, p; L2, (1-p) ] * [ L1, q; L2, (1-q) ]
Ako agent preferira L1, tada preferira i lutriju s većim p za L1.Agent želi da se nešto dobro dogodi s većom vjerojatnosti.
Redukcija složenih lutrija (dekompozicija):[L1,p; [L2, q; L3, (1-q)] (1-p) ] ~ [L1, p; L2, (1-p)q; L3, (1-p)(1-q)]
Primjenom zakona vjerojatnosti složene lutrije se dekomponiraju na veći broj jednostavnijih.Aksiom govori da nema vrijednosti (korisnosti) u broju koraka u postizanju ishoda (samo su konačni ishodi važni) - "no fun in gambling"
8
Aksiomi i teorem teorije korisnosti
Oznake: * preferencija, ~ indiferentnost:Teorem:Ako agentove preferencije slijede navedene aksiome, postoji
funkcija U(C) koja preslikava ishode (posljedice) u realne brojeve takva da
za lutrijeL1 = [C1, p1; … ; Cn, pn] i pi = 1L2 = [D1, q1; … ; Dm, qm] j qj = 1
Slijedi L1 * L2, akko i pi U(Ci) > j qj U(Dj)Korisnost svake lutrije određena je korisnošću i vjerojatnošću
ishoda.
Dokaz:Odredi se najmanja i najveća preferencija ishoda Cmin i Cmax.Cmin se pridruži U(Cmin)=0Cmax se pridruži U(Cmax)=1Svaki drugi ishod C ekvivalentan je lutriji: [Cmin, p; Cmax, (1-p)]C ima korisnost p.
Primjena aksioma pokazuje da pridjeljivanje korisnosti pojedinim lutrijama prema maksimalnoj očekivanoj korisnosti rezultira u uređenju koje je konzistentno agentovim preferencijama.
9
Aksiomi i teorem teorije korisnosti
Pokazano je da uz aksiome teorije korisnosti postoji monotona funkcija U(C).
Kako izgraditi funkciju korisnosti U(C) (preslikavanje ishoda u realne brojeve) ?
Intuitivno:Funkcija korisnisti = funkcija vrijednosti novca (engl. utility of money).Obilježja tako definirane funkcije:monotonost preferencije (raste, "radije više nego manje").
Kakav oblik ima funkcija vrijednosti novca ?
Primjer:3 M kuna sigurno ili 4 M kuna s vjer. 0.8 ?Većina ljudi odabire prvu mogućnost.Vrijednost novca nije linearna !
10
Bernoulli (1738) St. Petersburg paradoks
Baca se nepristran novčić. Na stolu su 2 kune i ulog se udvostručuje svaki puta kada novčić padne na
PISMO. Kad padne prvi puta na GRB, igra je gotova i nakon n bacanja dobiva se 2n
kuna.Koliko kuna ( 2) valja ponuditi da se igra (npr. 100) ?Ishod: Novčana Vjerojatnost: Dobitak za uloženih 100
kuna: vrijednost (MV):G 2 1/2 2 – 100 = -98PG 4 1/4 4 – 100 = -96PPG 8 1/8 8 – 100 = -92PPPG 16 1/16 16 – 100 = -84…Očekivana monetarna vrijed. (EMV) cijele igre (nije EMU jer u igri novac):EMV(St.Pt.) = i pi (Grb) MVi (Grb) = i (1/2i ) 2i = 2/2 + 4/4 + … + = Agent bi mogao ponuditi svaku konačnu sumu da maksimira dobit.Nije sukladno intuiciji -> paradoks !
Paradoks u funkciji korisnosti 2i .Bernoulli predložio logaritamsku skalu korisnosti novca:U(Sn ) = log2 n (za n > 0)EMV(St.Pt.) = i (1/2i ) log2 2i = 1/2 + 2/4 + 3/8 +… + = 2Funkcija korisnosti (vrijednosti) novca je logaritamska !
11
Funkcija korisnosti
Empirički potvrđena logaritamska funkcija (Grayson 1960):
Oblik krivulje pokazuje kako se ljudi odnose prema riziku.Prvi zarađeni milijun ima znatno veći utjecaj nego naknadni !Linearna funkcija – neutralnost prema riziku. Funkcija korisnosti je lokalno linearna (za male inkrementalne
rizike i nagrade).Konveksan oblik – radije sigurna dobit nego lutrija.Konkavan oblik – radije lutrija nego sigurna dobit.
U
$
-150000
800000
12
Funkcija korisnosti
Iznos ''sigurnog novca'' koji ljudi žele zamijeniti za lutriju =ekvivalent izvjesnosti lutrije.
Npr.: koliko uložiti da se igra za 1000 kuna uz vjer. dobitka 0.5 ?EMV = 0 x 0.5 + 1000 x 0.5 = 500 Eksperimentalno utvrđeno: 400 (to je "ekvivalent izvjesnosti
lutrije").Razlika između ekvivalenta izvjesnosti i lutrije = "premija
osiguranja"
$reward
U
U(lottery)
$500$400
Premija osiguranja
13
Ljudi i racionalnost Preferencije ljudi su rijetko konzistentne čak i prema nekoj, po
volji odabranoj funkciji korisnosti. Teorija odlučivanja govori kako bi ljudi trebali donositi
racionalne odluke. Ne postoji teorija koja objašnjava proces stvarnog donošenja
odluka ljudi. To je predmet istraživanja eksperimentalne ekonomije (1960 –
danas).Npr:Izbor između A i B: A: 4000 s vjer. 0.8
B: 3000 sigurnoVećina ljudi odabire B:
Ako U(0) = 0, to bi impliciralo da je 0.8 x U(4000) < 1.0 x U(3000)
Izbor između C i D: C: 4000 s vjer. 0.2D: 3000 s vjer. 0.25Većina ljudi odabire C.
To bi impliciralo da je 0.2 x U(4000) > 0.25 x U(3000)Nema funkcije korisnosti koja je konzistentna s oba izbora !!
Zaključak: ljudi su iracionalni s obzirom na aksiome teorije korisnosti, jer su uključeni drugi čimbenici (odnos prema novcu, sklonost riziku, emocionalno stanje i sl.).
14
Mreže utjecaja i odlučivanja
Proširenje Bayesovih mreža: Mreže utjecaja (engl. influence
diagrams)Mreže odlučivanja (engl. decision networks)
Tri tipa čvorova: Čvorovi odluke (pravokutnici) - predstavljaju točke u
kojima agent ima izbor mogućih akcija. Čvorovi izglednosti (ovali) - predstavljaju slučajne
varijable (klasični čvorovi probabilističkih mreža). Roditelji ovih čvorova uz čvorove izglednosti, mogu biti i čvorovi odluke. Participiraju u tablici lokalnih vjerojatnosti na uobičajen način.
Čvorovi korisnosti ili vrijednosti (romboidi) - predstavljaju dijelove agentove funkcije korisnosti. Roditeljski čvorovi su svi koji utječu na korisnost. Tablica uz čvor daje korisnosti kao funkciju značajki koje ih određuju. Ovi čvorovi su krajnji (nemaju djece),
15
Mreže utjecaja i odlučivanja
Primjer 1:Poduzetnik treba odlučiti da li da buši u traženju nafte na određenom mjestu ili ne. Pretpostavljamo da je korisnost = novac.
Na tom mjestu postoje vjerojatnosti:Suho (nema nafte) o0 = 0.5Mokro (malo nafte) o1 = 0.3Razmočeno (mnogo nafte) o2 = 0.2
Tablica korisnosti U(Di) = novac :o0 o1 o2
D1 (bušiti): -70 50 200D2 (ne bušiti): 0 0 0 ; npr. u Mkuna
Maksimalna očekivana vrijednost/korisnost za svaku akciju: MEU = i pi U(Di )EU(ne bušiti) = 0EU(bušiti) = 0.5 x (-70) + 0.3 x 50 + 0.2 x 200 = 20
MEU = 20 , treba bušiti
Korisnost
Nafta Bušiti
Vrijednosti varijable:
[o0, o1, o2]
Čvor odluke
[DA, NE]
Izračun korisnosti
16
Mreže utjecaja i odlučivanja
Primjer 1a:Prije odluke o bušenju izvedu se seizmički testovi koji mogu biti:s0 - difuzni odziv, skoro sigurno nema naftes1 - otvorena refleksija, nešto naftes2 - zatvorena refleksija, ima nafteVjerojatnosna tablica (vjerojatnost ishoda testa uz stanje tla)
o0 o1 o2s0 0.6 0.3 0.1 = 1 ostaje po stupcus1 0.3 0.4 0.4s2 0.1 0.3 0.5
U času donošenja odluke poduzetnik zna rezultate seizmičkog testa.
Korisnost
Nafta BušitiSeizmika
[o0, o1, o2]
[s0, s1, s2]
[DA, NE]
Izračun korisnosti
17
Mreže utjecaja i odlučivanja
Primjer 1a - nastavak:Optimalna akcija za svaki test posebno:EU(akcija | test s0) = MEU = i pi U(Di ) = P(o0 | s0) U(o0, akcija)
+ + P(o1 | s0) U(o1, akcija) + P(o2 | s0) U(o2,
akcija)P(o0 | s0) = P(s0 | o0) P(o0) / P(s0) Bayes !
= 0.6 x 0.5 / (0.6 x 0.5 + 0.3 x 0.3 + 0.1 x 0.2) = 0.732
Na jednak način:P(o1 | s0) = 0.219P(o2 | s0) = 0.049 , pri tome i P(oi | s0) = 1EU(bušiti | s0) = 0.732 x (-70) + 0.219 x 50 + 0.049 x 200
= (- 51.24) + 10.95 + 9.8 = (- 30.49)Korisnost akcija bušiti (uz s0) je -30.49Korisnost akcije ne bušiti (uz s0) je 0.Najveća očekivana korist ako test s0: MEU(ne bušiti | s0) = 0.
Analogno za ostale ishode testova:MEU(bušiti | s1) = 32.9MEU(bušiti | s2) = 87.5 -- najveća vrijednost
18
Mreže utjecaja i odlučivanja
Primjer 1b:Banka treba odobriti novac PRIJE poznavanja testa.Znamo ako test: s0, tada ne bušiti, MEU(ne bušiti | s0) = 0
s1, tada bušiti, MEU(bušiti | s1) = 32.9s2, tada bušiti, MEU(bušiti | s2) = 87.5
Računamo apriorne vjerojatnosti testova (marginalna razdioba):P(s0) = 0.6 x 0.5 + 0.3 x 0.3 + 0.1 x 0.2 = 0.41P(s1) = 0.3 x 0.5 + 0.4 x 0.3 + 0.4 x 0.2 = 0.35P(s2) = 0.1 x 0.5 + 0.3 x 0.3 + 0.5 x 0.2 = 0.24
Apriorna očekivana korisnost poduzetnika:MEU(racionalna_akcija) = i P(si ) MEU(akcija | si )
MEU = P(s0) MEU(akcija | s0) + P(s2) MEU(akcija | s2) + P(s3) MEU(akcija | s3) = 0.41 x 0 + 0.35 x 32.9 + 0.24 x 87.5 = 32.2
Zaključak: Ako je poduzetnik racionalan treba mu odobriti zajam.
19
Mreže utjecaja i odlučivanja
Primjer 1c:Poduzetnik ima opciju poduzeti ili ne seizmički test. Poduzimanje testa ima cijenu. Varijabla S ima dodatnu vrijednost: nepoznato (S poprima tu vrijednost s vjerojatnošću 1 u slučaju da se test ne poduzima).
Sekvencijsko donošenje odluka:Posebno se računa očekivana korisnost ako se ne poduzima test (Primjer 1, MEU=20), nakon toga se računa očekivana korisnost ako se poduzima test (Primjer 1b, MEU=32.2).
Zaključak: Test se treba poduzeti ako mu je cijena < 12.2.Umjesto dva čvora korisnosti moguće je koristiti jedan zajednički.
Korisnost
Nafta BušitiSeizmika
Test
Cijena
[o0, o1, o2]
[s0, s1, s2, nepoznato]
[DA, NE]
[DA, NE]
izračun
izračun
20
Mreže utjecaja i odlučivanja
Primjer 2:
Treba donijeti odluku o kupnji jednog od dva automobila C1 i C2 (uvjet je da se mora kupiti). Svaki auto može biti dobar (q1) ili loš (q2).
Prodavatelj traži:C1 = $1500
Može ga se poslije prodati za $2000. Ako je auto dobar (q1) - zarada je $500, a ako je loš (q2) popravak košta $700 - gubi se $200.
C2 = $1150Može ga se poslije prodati za $1400. Ako je auto dobar (q1) - zarada je $250, a ako je loš (q2) popravak košta $150 - zarada $100.
Moguće je provesti najviše 1 test po cijeni:t0 - bez testat1 - $50, test auta C1 (ishodi: prolazi, pada)t2 - $20, test auta C2 (ishodi: prolazi, pada)
21
Mreže utjecaja i odlučivanja
Primjer 2 - nastavak:Čvorovi mreže:Auti: Ci = [q1, q2] , vrijednost svake slučajne varijable Ci je q1 ili
q2.Odluka o kupnji: D = [kupi_1, kupi_2] , mora se odlučitiOdluka o testu: T = [t0, t1, t2] , bez testa, test za C1, test za C2Test za svaki auto s ishodima dobar ili loš: ti = [prolazi, pada]
Potrebno je poznavati vjerojatnosti (iz iskustva):
Kakav je auto:p(C1 = q1) = 0.7, vjerojatnost da je C1 dobar (vjer. da je C1 loš =
0.3).p(C2 = g1) = 0.8, vjerojatnost da je C2 dobar.
Kako su pouzdani testovi:p(t1 = prolazi | C1 = q1) = 0.90 ako C1 dobar, vjer. 0.9 da test
potvrdip(t1 = pada | C1 = q2) = 0.65 ako C1 loš, vjer. 0.65 da test
potvrdiP(t2 = prolazi | C2 = q1 ) = 0.25 ako C2 dobar, vjer. 0.25 da test
potvrdiP(t2 = pada | C2 = q2 ) = 0.70 ako C2 loš, vjer. 0.7 da test
potvrdi
22
Mreže utjecaja i odlučivanja
Primjer 2 - nastavak:Odluka bez testiranja:EMU (C1) = (0.7 x 500) + (0.3 x -200) = 290, treba kupiti C1EMU (C2) = (0.8 x 250) + (0.2 x 100) = 220
Odluka s testiranjem – preko mreže:
Za svaku vrijednost čvora odluke postavi čvor u to stanje izračunaj vjerojatnosti izračunaj korisnost akcije
Vrati akciju s najvećom korisnosti
Rezultat:Investiraj $50 u test 1 (na auto 1).Ako prolazi, kupi auto 1,inače kupi auto 2
T
D
C1
t1
C2
t2
V
[t0, t1, t2][q1, q2]
[q1, q2]
[kupi_1, kupi_2]
[izračun]
[prolazi, pada] [prolazi, pada]