RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

48
Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI [email protected] www.sztaki.hu/~ szcsaba

description

RL Talk 2004 09 Alkmat

Transcript of RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

Page 1: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

Megerősítéses Tanulás=

Reinforcement Learning (RL)

Szepesvári Csaba

Gépi Tanulás és Ember-Gép Interfészek Csoport

MTA SZTAKI

[email protected]

www.sztaki.hu/~szcsaba

Page 2: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

2

Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004-

• Tanulás– Megerősítéses tanulás– Klasszifikáció– Jellegzetesség kivonás

• Alkalmazási területek– Kontroll, játékok– Beszéd– Természetes nyelv (NKFP projekt:

NYELVBÁNYÁSZ)– Pénzügyi mat. (portfólió opt.)

•Kocsis Levente, PhD

•Szepesvári Csaba, PhD

•Szamonek Zoltán, PhD hallg.

•„your name”?

Page 3: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

MA: Megerősítéses Tanulás

•Tartalom:

•Motiváció

•Algoritmusok, módszerek, eszközök

•Alkalmazások

Page 4: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

4

AI - „a nagy kép”

Intelligencia:- Tanulás„Programozói” lustaság + a feladatok komplexitásának kezelése:- Minél önállóbb tanulás

Page 5: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

5

PókerCélok: •mesterszintű játék•játék aspektusok•ellenfél modellezés

Hol tartunk? (MLHCI Csoport)

Autóverseny-szimulátorCélok: •Emberi teljesítmény mesteri reprodukciója•Autóvezetés forgalomban

Page 6: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

6

Mi a megerősítéses tanulás (RL) ?

• Nagyfokú önállóság a tanulásban• Információk:

– büntetés/jutalom alapján– megfigyelések a környezetről (állapotok)

• Cél: a jutalom egy függvényét maximalizálni!

s9s5s4s2

……

…s3

+50

-1-1

+3

r9r5r4r1

s1

a9a5a4a2 …a3a1

Page 7: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

7

A k-karú bandita probléma

Ágens

Akciók

Átlagos kifizetés (jutalom)

10

-5

100

0

0, 0, 5, 10, 35

5, 10, -15, -15, -10

Page 8: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

8

Markov Döntési Folyamatok ~ Markov Decision Processes

(MDPs)• Állapotok, véletlentől függő átmenetekkel• Átmenetvalószínűségek aktuális állapottól függnek

• Transition matrix P, and reward function

r = 2211r = 0a1

a2

Page 9: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

9

Hosszútávú jutalom

• Ágens politikája rögzített:

• Az Rt kifizetés a t pillanat utáni össz-jutalom

+50

-1-1

+3

r9r5r4r1

Page 10: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

10

Érték = Hasznosság = Várható kifizetés

• Rt valószínűségi változó

• Vehetjük a várható értékét! Politikától függ Rt !

• Feladat: találjuk meg azt a politikát amelyik a várható értéket maximalizálja, minden állapotban

Page 11: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

11

Az eddigi sztori..• RL feladatok részei:

– Több lépéses döntési feladatok

– Cél *-ot megtalálni

– Kritérium: Rövid távú Hosszú távú

rt+1 rt+2 rt+3

at at+1 at+2st st+1 st+2 st+3

Page 12: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

12

A Bellman egyenletek

• A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető:

ahol

és

Másképp:

s

4

3

5

(s)

V = TV vagy BV = 0

Page 13: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

13

Bellman egyenletek- optimális értékelő függvény

• Optimális értékelő függvény

• Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a)

• Ez optimális!!!• Politika javítás algoritmus: (kiértékel, javít)*

Page 14: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

14

„Bootstrapping” módszerek• P és R ismeretét feltételezve; Dinamikus Programozás

• Nem ismerjük P-t és R-et, mintavételezés;

„Temporal Difference learning”

s

4

3

5

(s)

st st+1rt+1

at = (st)

Page 15: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

15

TD(0) tanulás: Politikák kiértékelése

t:=0

is the policy to be evaluated

Initialise arbitrarily for all

Repeat

select an action at from (st)

observe the transition

update according to

t:=t+1

st st+1rt+1

at

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

ˆ ( )tV s s S

ˆ ( )tV s

Page 16: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

16

„On-” és „Off-” politika tanulás• „On politika”: az éppen követett politikát értékeljük pl. TD

tanulással

• „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk

• Pl. Q-tanulás:

st st+1rt+1

at

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

st+1

atst

rt+1

Page 17: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

17

„Off-politika” tanulás

• A Q-tanulás előnyei

– Az optimális politika értékét becsli

– miközben tetszőleges (felfedező) akciókat lehet végrehatjani

• -mohó felfedezés:

• Mohó akció valószínűséggel

• Véletlen akció 1-valószínűséggel

• Garantált konvergencia, ha kellően bejárjuk az MDP-t

• Meg lehet-e találni -ot „on-politika” algoritmussal?

Page 18: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

18

„On politika” tanulás: Sarsa

• Töröljük a „max” operátort!• Értékeljük a követett politikát:

• Fokozatosan, lassan változtassuk a politikát• Konvergál! (Jaakkola,Singh,Littman,Szepesvári)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

atst+1st

at+1

rt+1

Page 19: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

19

„On politika” tanulás: Sarsa

t:=0

Initialise arbitrarily for all

select an action at from explore( )

Repeat

observe the transition

select an action at+1 from explore( )

update according to

t:=t+1

atst+1st

rt+1

Page 20: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

20

Összefoglalás: TD, Q-learning, Sarsa • TD learning

• One step Q-learning

• Sarsa learning

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

strt+1

at

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

st+1

atst

rt+1

st+1

atst+1st

at+1

rt+1

Page 21: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

21

• Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”:

ahol

• Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:

2-es fokozat: „Eligibility traces”, TD( • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk:

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

1

1 if ( )

( ) otherwiset

tt

s se s

e s

0 1

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( )) ( )t t t t t t t tV s V s r V s V s e s

ˆ ( )tV s

at-2 at-1 at

rt-1 rt rt+1

st-2 st-1 st st+1

Page 22: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

22

„Eligibility trace” a Q-tanulásban: Q()

• Sokféleképpen lehet csinálni

• Pl. minden s,a párra:

• Nem-mohó akciónál is van információ visszaterjesztés

• Elvész a konvergencia garancia!

• Watkin’s megoldási javaslata: nem-mohó után e:=0

• Probléma: hatásfokot csökkenti

• “Bias variance” dilemma

rt+1

st+1rt

at-1 atat+1

st-1 st

agreedy

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , ) ( , )t t t t t t t t t

b AQ s a Q s a r Q s b Q s a e s a

Page 23: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

23

Sarsa()

• Másik megoldás: használjuk a Sarsa algoritmust!

• Minden s,a párra:

• Konvergencia tulajdonság megmarad(?)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , ) ( , )t t t t t t t t t tQ s a Q s a r Q s a Q s a e s a

at at+1 at+2

rt+1 rt+2

st st+1 st+2

Page 24: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

24

„Közelítő” RL

• Miért?

– Idő és tárkorlátok!

(Bellman: dimenzionalítás átka)

– Általánosítás új szituációkra (elégtelen mintavételezés)

• Megoldások

– Érték-függvény közelítése

– Politika térbeli keresés

– Közelítő modellek + tervezés

Page 25: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

25

Lineáris approximáció

• Egyszerű és hasznos!

• Vannak konvergencia eredmények

• Most: lineáris TD(

Súlyvektor a t. időpillanatban:

„Feature” vektor az s állapotra:

Becslés

Cél: minimalizálni..

1 , 2t t t t n

1 , 2s s s s n

t̂ t sV s

2ˆMSE ( )t t

s S

P s V s V s

Page 26: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

26

Értékfüggvény közelítés: approximátorok• Választások: pl. CMAC, RBF népszerűek

• CMAC: n db. cserépdarab

• „Features”

• Tulajdonságok– „Coarse coding”

– Szabályos fedés jó hatásfok

– Véletlen hash: memóriaigénycsökkenti

1 , 2s s s s n

1 or 0s i

Page 27: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

27

Lineáris közelítések

• Gradiens módszer -re

• TD egyenlet új alakja:

• Most az E.T. n-dimenziós vektor, amit így módosítunk:

• Konvergál -hoz

t

1 1ˆ ˆ

t t t t t t t tr V s V s e

1t t te e

*

Page 28: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

28

Újabb önreklám

• William D. Smart, Cs. Szepesvári, ICML’2004:

• Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva.

• Nem gradiens módszer.

• A megfelelő gradiens módszer konvergenciája nem ismert.

• Sejtés: ....

Konvergens?

Page 29: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

29

Egy különösen sikeres példa:TD-gammon

• TD() tanulás, 1 rejtett rétegű neuronháló, Backprop

• 1,500,000 játék (saját magával)

• A legjobb játékosokkal azonos képességek (világbajnok)

• Backgammon állapottere: ~1020 , DP nem megy!!

Page 30: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

30

Modell alapú RL: struktúrált modellek• Dinamikus Bayes háló a P állapotátmenetek reprezentációjára

(másképp: faktorizált MDP)

• V: fa

• Backup: „goal regression”

• Hasonlít a tervezési feladatokra

Page 31: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

31

RL: rejtett állapotok

• POMDP, k-Markov

• POMDP-ben a tervezés nem(sem) kivihető (intractable)

• Faktorizált POMDP-k: igéretes

• Politika keresés előnyös

at at+1 at+2

rt+1 rt+2

st st+1 st+2

ot ot+1 ot+2

Page 32: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

32

Politika keresés (direkt módszer)

• Módszerek– Gradiens– Evolúciós (egyéb local/global search)

Page 33: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

33

Alkalmazások

Page 34: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

34

Robot navigációs feladat

• Pavlov: Nomad 200 robot

• Nomad 200 simulator

Sridhar MahadevanUMass

Page 35: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

35

Hierarchikus modellek – térbeli modellezésre

575 states

1385 states

Corridorstate

Entireenvironment

Productionstate

Sridhar MahadevanUMass

Page 36: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

36

Hierarchikus modellek

abstract states

product states,which generate observations

entry states

exit states

verticaltransitions

horizontaltransitions

Page 37: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

37

Internet forgalom-szabályozás“Multi-protocol label switching”

Ingress router

ingress router egress router

egress router

Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolásvalószínűségét minimalizáljuk

(Yong Liu, Singapore)

Page 38: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

38

Robot foci: szimulációs liga

Situation (s) Action (a) Utility Q(s,a)

Ball kickable, goal near shoot 0.6

Ball kickable, goal far shoot 0.33

Ball kickable, goal far pass 0.4

… … …

Jeremy WyattYoshiyuki MatsumuraMatthew ToddUniversity of BirminghamSchool of Computer Science

Page 39: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

39

A k-lábú robot

Page 40: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

40

Egyidejű (konkurrens) akciók

Example: driving

Look in the mirror Look at the road Check the speed

Press brakes Accelerate Press brakes

Put on high gear Steer the wheelSteer the wheel

Right arm

Decision epochs

Head & eyes

Legs

Page 41: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

41

Alkalmazások (A-tól N-ig)

• Airline Meal Planning

• Behaviourial Ecology

• Capacity Expansion

• Decision Analysis

• Equipment Replacement

• Fisheries Management

• Gambling Systems

• Highway Pavement Repair

• Inventory Control

• Job Seeking Strategies

• Knapsack Problems

• Learning

• Medical Treatment

• Network Control

M.L.Puterman, 2002

Page 42: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

42

Alkalmazások (O-tól Z-ig)

• Option Pricing

• Project Selection

• Queueing System Control

• Robotic Motion

• Scheduling

• Tetris

• User Modeling

• Vision (Computer)

• Water Resources

• X-Ray Dosage

• Yield Management

• Zebra Hunting

M.L.Puterman, 2002

Page 43: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

43

Néhány további RL alkalmazás

• Liftek vezérlése (Barto & Crites)• Ütemezési feladatok, űrsikló pakolása (Zhang &

Dietterich)• Dinamikus csatorna kiosztás mobil hálózatokban (Singh

& Bertsekas)• Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni

tanulás, zsonglőrködés• Ragadozó-préda (PacMan)• Portfólió optimalizálás

Page 44: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

44

Aktív területek

• Optimális felfedező stratégiák

• Struktúrált modellek

• Relációs modellek

• Folytonos állapot és akció-terek

• Hierarchikus RL

• Állapotok és akciók absztrakciói (options, macros,..)

• Rejtett állapotok (eg. POMDPs)

• Prediktív állapot-reprezentáció

• Politika keresés

• Szignifikancia tesztek

Page 45: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

45

Reinforcement Learning: key papers

OverviewsR. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press,

1998.J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity

and Learning. Springer Verlag, 2003.L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal

of Artificial Intelligence Research, 4:237-285, 1996.

Value Function ApproximationD. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998.

Eligibility TracesS.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces.

Machine Learning, 22:123-158, 1996.

Page 46: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

46

Reinforcement Learning: key papers

Structured Models and Planning

C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999.

R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000.

B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001.

K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

Page 47: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

47

Reinforcement Learning: key papers

Policy SearchR. Williams. Simple statistical gradient algorithms for connectionist reinforcement

learning. Machine Learning, 8:229-256.R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for

Reinforcement Learning with Function Approximation. NIPS 12, 2000.

Hierarchical Reinforcement LearningR. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework

for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211.

R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998.

A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

Page 48: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat

48

Reinforcement Learning: key papers

Exploration

N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999.

J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001.

POMDPs

L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.