Bayesove mreže i korisnost (engl. utility )

1

Bayesove mreže i korisnost (engl. utility)

Bayesove mreže mogu uključivati čvorove:

Slučajne varijable (promatrano ranije) Čvorove odluke Čvorove korisnosti (engl. utility)

Dio materijala preuzeto sa:Stanford University, CS 228, Knowledge Representation and Reasoning Under Uncertainty.

2

Teorija racionalnog odlučivanja

Primjer: agent želi održati domjenakMoguće akcije: vani ili u kućiStanje svijeta: suho (vjer. 0.7) ili kiša (vjer. 0.3), vjer =1Postoje 4 mogućnosti uz 4 ishoda (posljedice, zadovoljstva):4 mogućnosti = 2 akcije (kući/vani): 4 ishoda

(zadovoljstva):u kući i suho (0.7) C1: žali (što nije vani)u kući i kiša (0.3) C2: zadovoljan (nije

upropašten)Vani i suho (0.7) C3: superVani i kiša (0.3) C4: katastrofa

Jasno je da agent preferira ''super'' (C3) nego ''žali'' (C1), ali to nije dovoljno za racionalnu odluku.

Kako donijeti racionalnu odluku ?Vjerojatnosti definiraju samo izglednost svijeta.

3


Traži se mjera za poželjnost (korisnost) , (engl. utility) svake posljedice Ci , kako bi se mogla donijeti racionalna odluka, t.j. traži se funkcija koja preslikava posljedice (ishode, zadovoljstva) u realne brojeve U(Ci ).

U(Ci ) = funkcija korisnosti (engl. utility function)

Nakon što se nekako (?) odredi funkcija U(Ci ):

Agent treba izvesti akciju koja maksimizira očekivanu korisnost:

EU(akcija) = pi U(Ci )

To je princip maksimalne očekivane korisnosti – MEU(engl. maximum expected utility)

4


Neka u našem primjeru postoji funkcija korisnosti U(Ci ):

4 ishoda (zadovoljstva):C1:žali (što nije vani) 7C2:zadovoljan (nije upropašten) 8C3:super 10C4:katastrofa 0

Računamo maksimalnu očekivanu korisnost za dvije moguće akcije:

EU(u kući) = 0.7 x 7 + 0.3 x 8 = 7.3 treba odabratiEU(vani) = 0.7 x 10 + 0.3 x 0 = 7.0

Problemi:Uz koje uvjete uopće postoji funkcija U(Ci ) ?

Koja su obilježja funkcije U(Ci ) ?

5

Aksiomi teorije korisnosti

(Ramsey 1931, Von Neumann 1944, Morgenstern 1944)Uvodi se pojam složenog scenarija = lutrija.Npr. neka akcija rezultira s dva ishoda (posljedica, rezultata):Ishod A s vjerojatnošću p, ishod B s vjerojatnošću (1-p)Lutrija je: L = [A, p; B, (1-p)] za tu akciju.

Za više ishoda C = {C1, …, Cn} proširujemo:L = [C1, p(C1); … ; Cn, p(Cn) ], i p(Ci) = 1, (1 i n)Svaki zasebni Ci može biti atomički ili lutrija (složen).

Primjer domjenka:Svaka od dviju akcija ima dva moguća ishoda (akcija

odgovara lutriji).Treba se odlučiti između dvije lutrije:U kući: C1 s vjer. 0.7 i C2 s vjer. 0.3 L1 = [C1, 0.7; C2, 0.3]Vani: C3 s vjer. 0.7 i C4 s vjer. 0.3 L2 = [C3, 0.7; C4, 0.3]

6


Oznake: * preferencija, ~ indiferentnost, , logičke vezice

Uređenost:Npr. za 2 lutrije L1, L2:(L1 * L2) (L2 * L1) (L1 ~ L2)

Agent mora znati što želi (jedno od 3 mogućnosti).Nije trivijalno, npr.:Dobitak 3 M kuna sa vjer. 0.25 ili 4 M kuna sa vjer. 0.2 ?

Tranzitivnost:(L1 * L2) (L2 * L3) (L1 * L3) ; inače iracionalno

Kontinuiranost:Ako L1 * L2 * L3 (t.j. L2 je po preferenciji između L1 i L3), postoji vjerojatnost p kod kojega je lutrija L2 ekvivalentna složenoj lutriji s dva ishoda L1 i L3:

p { L2 ~ [ L1, p; L3, (1-p) ]}

p - mjera vrijednosti L2 relativno prema L1 i L2.

7


Oznake: * preferencija, ~ indiferentnost:

Zamjenljivost (supstitucija):L1 ~ L2 [ L1, p; L3, (1-p) ] ~ [ L2, p; L3, (1-p) ]

Ako je agent indiferentan prema L1 ili L2, također je indiferentan prema kompleksnim lutrijama (uz jednaku vjerojatnost p).

Monotonost:(L1 * L2), (p q) [ L1, p; L2, (1-p) ] * [ L1, q; L2, (1-q) ]

Ako agent preferira L1, tada preferira i lutriju s većim p za L1.Agent želi da se nešto dobro dogodi s većom vjerojatnosti.

Redukcija složenih lutrija (dekompozicija):[L1,p; [L2, q; L3, (1-q)] (1-p) ] ~ [L1, p; L2, (1-p)q; L3, (1-p)(1-q)]

Primjenom zakona vjerojatnosti složene lutrije se dekomponiraju na veći broj jednostavnijih.Aksiom govori da nema vrijednosti (korisnosti) u broju koraka u postizanju ishoda (samo su konačni ishodi važni) - "no fun in gambling"

8

Aksiomi i teorem teorije korisnosti

Oznake: * preferencija, ~ indiferentnost:Teorem:Ako agentove preferencije slijede navedene aksiome, postoji

funkcija U(C) koja preslikava ishode (posljedice) u realne brojeve takva da

za lutrijeL1 = [C1, p1; … ; Cn, pn] i pi = 1L2 = [D1, q1; … ; Dm, qm] j qj = 1

Slijedi L1 * L2, akko i pi U(Ci) > j qj U(Dj)Korisnost svake lutrije određena je korisnošću i vjerojatnošću

ishoda.

Dokaz:Odredi se najmanja i najveća preferencija ishoda Cmin i Cmax.Cmin se pridruži U(Cmin)=0Cmax se pridruži U(Cmax)=1Svaki drugi ishod C ekvivalentan je lutriji: [Cmin, p; Cmax, (1-p)]C ima korisnost p.

Primjena aksioma pokazuje da pridjeljivanje korisnosti pojedinim lutrijama prema maksimalnoj očekivanoj korisnosti rezultira u uređenju koje je konzistentno agentovim preferencijama.

9

Aksiomi i teorem teorije korisnosti

Pokazano je da uz aksiome teorije korisnosti postoji monotona funkcija U(C).

Kako izgraditi funkciju korisnosti U(C) (preslikavanje ishoda u realne brojeve) ?

Intuitivno:Funkcija korisnisti = funkcija vrijednosti novca (engl. utility of money).Obilježja tako definirane funkcije:monotonost preferencije (raste, "radije više nego manje").

Kakav oblik ima funkcija vrijednosti novca ?

Primjer:3 M kuna sigurno ili 4 M kuna s vjer. 0.8 ?Većina ljudi odabire prvu mogućnost.Vrijednost novca nije linearna !

10

Bernoulli (1738) St. Petersburg paradoks

Baca se nepristran novčić. Na stolu su 2 kune i ulog se udvostručuje svaki puta kada novčić padne na

PISMO. Kad padne prvi puta na GRB, igra je gotova i nakon n bacanja dobiva se 2n

kuna.Koliko kuna ( 2) valja ponuditi da se igra (npr. 100) ?Ishod: Novčana Vjerojatnost: Dobitak za uloženih 100

kuna: vrijednost (MV):G 2 1/2 2 – 100 = -98PG 4 1/4 4 – 100 = -96PPG 8 1/8 8 – 100 = -92PPPG 16 1/16 16 – 100 = -84…Očekivana monetarna vrijed. (EMV) cijele igre (nije EMU jer u igri novac):EMV(St.Pt.) = i pi (Grb) MVi (Grb) = i (1/2i ) 2i = 2/2 + 4/4 + … + = Agent bi mogao ponuditi svaku konačnu sumu da maksimira dobit.Nije sukladno intuiciji -> paradoks !

Paradoks u funkciji korisnosti 2i .Bernoulli predložio logaritamsku skalu korisnosti novca:U(Sn ) = log2 n (za n > 0)EMV(St.Pt.) = i (1/2i ) log2 2i = 1/2 + 2/4 + 3/8 +… + = 2Funkcija korisnosti (vrijednosti) novca je logaritamska !

11

Funkcija korisnosti

Empirički potvrđena logaritamska funkcija (Grayson 1960):

Oblik krivulje pokazuje kako se ljudi odnose prema riziku.Prvi zarađeni milijun ima znatno veći utjecaj nego naknadni !Linearna funkcija – neutralnost prema riziku. Funkcija korisnosti je lokalno linearna (za male inkrementalne

rizike i nagrade).Konveksan oblik – radije sigurna dobit nego lutrija.Konkavan oblik – radije lutrija nego sigurna dobit.

U

$

-150000

800000

12

Funkcija korisnosti

Iznos ''sigurnog novca'' koji ljudi žele zamijeniti za lutriju =ekvivalent izvjesnosti lutrije.

Npr.: koliko uložiti da se igra za 1000 kuna uz vjer. dobitka 0.5 ?EMV = 0 x 0.5 + 1000 x 0.5 = 500 Eksperimentalno utvrđeno: 400 (to je "ekvivalent izvjesnosti

lutrije").Razlika između ekvivalenta izvjesnosti i lutrije = "premija

osiguranja"

$reward

U

U(lottery)

$500$400

Premija osiguranja

13

Ljudi i racionalnost Preferencije ljudi su rijetko konzistentne čak i prema nekoj, po

volji odabranoj funkciji korisnosti. Teorija odlučivanja govori kako bi ljudi trebali donositi

racionalne odluke. Ne postoji teorija koja objašnjava proces stvarnog donošenja

odluka ljudi. To je predmet istraživanja eksperimentalne ekonomije (1960 –

danas).Npr:Izbor između A i B: A: 4000 s vjer. 0.8

B: 3000 sigurnoVećina ljudi odabire B:

Ako U(0) = 0, to bi impliciralo da je 0.8 x U(4000) < 1.0 x U(3000)

Izbor između C i D: C: 4000 s vjer. 0.2D: 3000 s vjer. 0.25Većina ljudi odabire C.

To bi impliciralo da je 0.2 x U(4000) > 0.25 x U(3000)Nema funkcije korisnosti koja je konzistentna s oba izbora !!

Zaključak: ljudi su iracionalni s obzirom na aksiome teorije korisnosti, jer su uključeni drugi čimbenici (odnos prema novcu, sklonost riziku, emocionalno stanje i sl.).

14

Mreže utjecaja i odlučivanja

Proširenje Bayesovih mreža: Mreže utjecaja (engl. influence

diagrams)Mreže odlučivanja (engl. decision networks)

Tri tipa čvorova: Čvorovi odluke (pravokutnici) - predstavljaju točke u

kojima agent ima izbor mogućih akcija. Čvorovi izglednosti (ovali) - predstavljaju slučajne

varijable (klasični čvorovi probabilističkih mreža). Roditelji ovih čvorova uz čvorove izglednosti, mogu biti i čvorovi odluke. Participiraju u tablici lokalnih vjerojatnosti na uobičajen način.

Čvorovi korisnosti ili vrijednosti (romboidi) - predstavljaju dijelove agentove funkcije korisnosti. Roditeljski čvorovi su svi koji utječu na korisnost. Tablica uz čvor daje korisnosti kao funkciju značajki koje ih određuju. Ovi čvorovi su krajnji (nemaju djece),

15


Primjer 1:Poduzetnik treba odlučiti da li da buši u traženju nafte na određenom mjestu ili ne. Pretpostavljamo da je korisnost = novac.

Na tom mjestu postoje vjerojatnosti:Suho (nema nafte) o0 = 0.5Mokro (malo nafte) o1 = 0.3Razmočeno (mnogo nafte) o2 = 0.2

Tablica korisnosti U(Di) = novac :o0 o1 o2

D1 (bušiti): -70 50 200D2 (ne bušiti): 0 0 0 ; npr. u Mkuna

Maksimalna očekivana vrijednost/korisnost za svaku akciju: MEU = i pi U(Di )EU(ne bušiti) = 0EU(bušiti) = 0.5 x (-70) + 0.3 x 50 + 0.2 x 200 = 20

MEU = 20 , treba bušiti

Korisnost

Nafta Bušiti

Vrijednosti varijable:

[o0, o1, o2]

Čvor odluke

[DA, NE]

Izračun korisnosti

16


Primjer 1a:Prije odluke o bušenju izvedu se seizmički testovi koji mogu biti:s0 - difuzni odziv, skoro sigurno nema naftes1 - otvorena refleksija, nešto naftes2 - zatvorena refleksija, ima nafteVjerojatnosna tablica (vjerojatnost ishoda testa uz stanje tla)

o0 o1 o2s0 0.6 0.3 0.1 = 1 ostaje po stupcus1 0.3 0.4 0.4s2 0.1 0.3 0.5

U času donošenja odluke poduzetnik zna rezultate seizmičkog testa.

Korisnost

Nafta BušitiSeizmika

[o0, o1, o2]

[s0, s1, s2]

[DA, NE]

Izračun korisnosti

17


Primjer 1a - nastavak:Optimalna akcija za svaki test posebno:EU(akcija | test s0) = MEU = i pi U(Di ) = P(o0 | s0) U(o0, akcija)

+ + P(o1 | s0) U(o1, akcija) + P(o2 | s0) U(o2,

akcija)P(o0 | s0) = P(s0 | o0) P(o0) / P(s0) Bayes !

= 0.6 x 0.5 / (0.6 x 0.5 + 0.3 x 0.3 + 0.1 x 0.2) = 0.732

Na jednak način:P(o1 | s0) = 0.219P(o2 | s0) = 0.049 , pri tome i P(oi | s0) = 1EU(bušiti | s0) = 0.732 x (-70) + 0.219 x 50 + 0.049 x 200

= (- 51.24) + 10.95 + 9.8 = (- 30.49)Korisnost akcija bušiti (uz s0) je -30.49Korisnost akcije ne bušiti (uz s0) je 0.Najveća očekivana korist ako test s0: MEU(ne bušiti | s0) = 0.

Analogno za ostale ishode testova:MEU(bušiti | s1) = 32.9MEU(bušiti | s2) = 87.5 -- najveća vrijednost

18


Primjer 1b:Banka treba odobriti novac PRIJE poznavanja testa.Znamo ako test: s0, tada ne bušiti, MEU(ne bušiti | s0) = 0

s1, tada bušiti, MEU(bušiti | s1) = 32.9s2, tada bušiti, MEU(bušiti | s2) = 87.5

Računamo apriorne vjerojatnosti testova (marginalna razdioba):P(s0) = 0.6 x 0.5 + 0.3 x 0.3 + 0.1 x 0.2 = 0.41P(s1) = 0.3 x 0.5 + 0.4 x 0.3 + 0.4 x 0.2 = 0.35P(s2) = 0.1 x 0.5 + 0.3 x 0.3 + 0.5 x 0.2 = 0.24

Apriorna očekivana korisnost poduzetnika:MEU(racionalna_akcija) = i P(si ) MEU(akcija | si )

MEU = P(s0) MEU(akcija | s0) + P(s2) MEU(akcija | s2) + P(s3) MEU(akcija | s3) = 0.41 x 0 + 0.35 x 32.9 + 0.24 x 87.5 = 32.2

Zaključak: Ako je poduzetnik racionalan treba mu odobriti zajam.

19


Primjer 1c:Poduzetnik ima opciju poduzeti ili ne seizmički test. Poduzimanje testa ima cijenu. Varijabla S ima dodatnu vrijednost: nepoznato (S poprima tu vrijednost s vjerojatnošću 1 u slučaju da se test ne poduzima).

Sekvencijsko donošenje odluka:Posebno se računa očekivana korisnost ako se ne poduzima test (Primjer 1, MEU=20), nakon toga se računa očekivana korisnost ako se poduzima test (Primjer 1b, MEU=32.2).

Zaključak: Test se treba poduzeti ako mu je cijena < 12.2.Umjesto dva čvora korisnosti moguće je koristiti jedan zajednički.

Korisnost

Nafta BušitiSeizmika

Test

Cijena

[o0, o1, o2]

[s0, s1, s2, nepoznato]

[DA, NE]

[DA, NE]

izračun

izračun

20


Primjer 2:

Treba donijeti odluku o kupnji jednog od dva automobila C1 i C2 (uvjet je da se mora kupiti). Svaki auto može biti dobar (q1) ili loš (q2).

Prodavatelj traži:C1 = $1500

Može ga se poslije prodati za $2000. Ako je auto dobar (q1) - zarada je $500, a ako je loš (q2) popravak košta $700 - gubi se $200.

C2 = $1150Može ga se poslije prodati za $1400. Ako je auto dobar (q1) - zarada je $250, a ako je loš (q2) popravak košta $150 - zarada $100.

Moguće je provesti najviše 1 test po cijeni:t0 - bez testat1 - $50, test auta C1 (ishodi: prolazi, pada)t2 - $20, test auta C2 (ishodi: prolazi, pada)

21


Primjer 2 - nastavak:Čvorovi mreže:Auti: Ci = [q1, q2] , vrijednost svake slučajne varijable Ci je q1 ili

q2.Odluka o kupnji: D = [kupi_1, kupi_2] , mora se odlučitiOdluka o testu: T = [t0, t1, t2] , bez testa, test za C1, test za C2Test za svaki auto s ishodima dobar ili loš: ti = [prolazi, pada]

Potrebno je poznavati vjerojatnosti (iz iskustva):

Kakav je auto:p(C1 = q1) = 0.7, vjerojatnost da je C1 dobar (vjer. da je C1 loš =

0.3).p(C2 = g1) = 0.8, vjerojatnost da je C2 dobar.

Kako su pouzdani testovi:p(t1 = prolazi | C1 = q1) = 0.90 ako C1 dobar, vjer. 0.9 da test

potvrdip(t1 = pada | C1 = q2) = 0.65 ako C1 loš, vjer. 0.65 da test

potvrdiP(t2 = prolazi | C2 = q1 ) = 0.25 ako C2 dobar, vjer. 0.25 da test

potvrdiP(t2 = pada | C2 = q2 ) = 0.70 ako C2 loš, vjer. 0.7 da test

potvrdi

22


Primjer 2 - nastavak:Odluka bez testiranja:EMU (C1) = (0.7 x 500) + (0.3 x -200) = 290, treba kupiti C1EMU (C2) = (0.8 x 250) + (0.2 x 100) = 220

Odluka s testiranjem – preko mreže:

Za svaku vrijednost čvora odluke postavi čvor u to stanje izračunaj vjerojatnosti izračunaj korisnost akcije

Vrati akciju s najvećom korisnosti

Rezultat:Investiraj $50 u test 1 (na auto 1).Ako prolazi, kupi auto 1,inače kupi auto 2

T

D

C1

t1

C2

t2

V

[t0, t1, t2][q1, q2]

[q1, q2]

[kupi_1, kupi_2]

[izračun]

[prolazi, pada] [prolazi, pada]

Bayesove mreže i korisnost (engl. utility )

Documents

Transcript of Bayesove mreže i korisnost (engl. utility )