Kognitívna mapa bludiska - dai.fmph.uniba.sk · Preh©ad 1 U£enie posil¬ovaním Porovnanie s...

Kognitívna mapa bludiska

Michal Malý

KAI FMFI UK

24. február 2011

Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 1 / 25

Preh©ad

1 U£enie posil¬ovanímPorovnanie s ostatnými metódamiDe�níciaPríkladyMetódyVybraný podproblém: tvorba modeluPredo²lý výskumMôj prístup

2 Gramatická indukcia / Inferencia automatuFormálne jazyky � rýchly preh©adDe�nícia

3 Rie²enieMetódaSAT solverVýsledok�al²í výskum


U£enie posil¬ovaním Porovnanie s ostatnými metódami

Módy u£enia

na rozdiel od:

s u£ite©om [supervised] � �trénovanie� � ukazujeme pár (vstup, správnyvýstup)

samo-organizácia [unsupervised] � vznik ²truktúry napr. na základe²tatistických vlastností

rie²i u£enie posil¬ovaním úlohy, kde:

správny vstup nie je k dispozícii

niekedy sa nedá poveda´ ani, £i výstup akcia bola správna alebo nie


U£enie posil¬ovaním De�nícia

V²eobecná de�nícia

RL je u£enie £o robi´ � ako namapova´ akcie k situáciám � aby sa

maximalizoval vstupný signál. U£enému nie je povedané, aké akcie má

vykona´, ale miesto toho musí skú²aním zisti´, ktoré akcie priná²ajú

najvä£²iu odmenu. V najzaujímavej²ích a najnáro£nej²ích prípadoch akcia

nemusí ovplyvni´ len najbliº²iu odmenu, ale aj £asovo nasledujúcu situáciu

a cez ¬u v²etky nasledujúce odmeny. Tieto dve charakteristiky � u£enie cez

pokus a omyl, a oneskorená odmena, sú dve najdôleºitej²ie charakteristiky

RL. � R. S. Sutton and A. G. Barto.: Reinforcement Learning: AnIntroduction (aj onlinehttp://www.cs.ualberta.ca/~sutton/book/the-book.html)


http://www.cs.ualberta.ca/~sutton/book/the-book.html

U£enie posil¬ovaním Príklady

Príklady

obrátené kyvadlo [inverted pendulum]

balansovanie metly :) [pole balancing]

labyrint [maze]


U£enie posil¬ovaním Metódy

Ako to urobi´?

Hocijako, ale pouºíva sa napr.:

dynamické programovanie

Monte Carlo

Temporal Di�erence Learning

Q-Learning

SARSA


U£enie posil¬ovaním Metódy

Charakteristika

policy

reward function

value function

niekedy: model of environment


U£enie posil¬ovaním Vybraný podproblém: tvorba modelu

Môj vybraný podproblém � motivácia

mnohé metódy nepouºívajú model sveta (stotoº¬ujú moºné stavyprostredia s perceptuálnym priestorom)

ak pouºívajú, potrebujú ho ma´ daný

£o ke¤ model nemáme / nechceme da´?


U£enie posil¬ovaním Vybraný podproblém: tvorba modelu

Príklad: Bludisko

nepoznáme cesty

nechceme predde�nova´ agenta na konkrétne bludisko

podobnos´ so v²eobecným problémom modelovania sveta: kriºovatkysú situácie, smery sú rozhodnutia


U£enie posil¬ovaním Predo²lý výskum

Predo²lý výskum

perceptuálny aliasing (Whitehead, Ballard, 1992) → algoritmus Lion(detekcia nekonzitentnosti a reset hodnoty akcie na nulu)

�Uvaºujme úlohu balenia dar£eka, ktorá zah¯¬a 4 kroky: otvori´

krabicu, vloºi´ dar£ek, zatvori´ ju, a zalepi´. Agent, ktorý je vedený len

jeho aktuálnym vizuálnym vnemom nedokáºe úlohu splni´, pretoºe ak

má pred sebou zatvorenú krabicu, nevie, £i dar£ek je uº vo vnútri, a

teda sa nevie rozhodnú´, £i má krabicu zalepi´ alebo otvori´.� (Lin,Mitchell, 1992)

agregácia stavov (Singh, Jaakkola, 1995)

delenie stavov (McCallum, 1993)


U£enie posil¬ovaním Môj prístup

Môj prístup

minimálny model (princíp minimálnej popisnej d¨ºky (MDL) �Occamova britva)

gramatická indukcia (inferencia automatu)


Gramatická indukcia / Inferencia automatu Formálne jazyky � rýchly preh©ad

De�nícia (Abeceda)

Abeceda je kone£ná neprázdna mnoºina znakov (symbolov, tokenov).

De�nícia (Slovo)

Slovo je kone£ná postupnos´ symbolov z abecedy.

De�nícia (Jazyk)

Formálny jazyk je mnoºina slov.

Príklad:abeceda: Σ = {a, b}slová: abba,aaaabbbbjazyk: L = {ε, ab, ba, aabb, abba, baba, bbaa, ...} = tie slová, kde po£eta-£ok a b-£ok v slove je rovnaký



Kone£ný automat

Automat na delite©nos´ troma.Napr. �2047�: prejde stavmi: zv.0, zv.2, zv.2, zv.0, zv.1



Gramatika

De�nícia (Terminálny symbol)

Terminály � symboly, z ktorých sa skladajú slová (na výstupe).

De�nícia (neterminálny symbol)

Neterminály � pomocné symboly pri odvodzovaní, nesmú sa objavi´ na

výstupe.

De�nícia (Gramatika)

Gramatika je ur£ená mnoºinou neterminálov, mnoºinou terminálov,

mnoºinou odvodzovacích pravidiel a ²tartovacím symbolom.



Gramatika � príklad

terminály: T = {1, 2, 3, . . . 9, +,−, (, )}neterminály: N = {V ,C}²tartovací symbol: V

pravidlá:V → C

V → V + V

V → V − V

V → (V )C → 1, C → 2, . . ., C → 9

Vieme vyrobi´ slovo 1− (4 + 5) napríklad takto:V ⇒ V − V ⇒ C − V ⇒ C − (V )⇒ C − (V + V )⇒ C − (C + V )⇒C − (C + C )⇒ 1− (C + C )⇒ 1− (4 + C )⇒ 1− (4 + 5)



Chomského hierarchia

1 regulárne gramatiky ≡ kone£ný automat (nevedia anbn)2 bezkontextové gramatiky ≡ nedeterministický zásobníkový automat

(nevedia anbncn)3 kontextové gramatiky ≡ nedeterministický lineárny automat (nevie

EXPSPACE-hard problémy)4 frázové gramatiky (neobmedzené, typu 0) ≡ Turingov stroj (vie

v²etko, £o je �intuitívne vypo£ítate©né�)


Gramatická indukcia / Inferencia automatu De�nícia

Gramatická indukcia / Inferencia automatu

De�nícia

Gramatická indukcia je spôsob, ako odvodi´ formálnu gramatiku z mnoºiny

vzoriek � pozorovaní.

De�nícia

Inferencia automatu je spôsob, ako odvodi´ automat z mnoºiny vzoriek �

pozorovaní.

Príklad: daná mnoºina {27264, 4491, 23022, 18066, 3822, 7758, 14178, ...}.�o to je?


Rie²enie Metóda

Pouºitá metóda: inferencia minimálneho kone£néhoautomatu/modelu

kone£ný po£et stavov, prechody, pozorovanie v stave

sp¨¬a doteraj²ie pozorovania (skúsenos´)

minimálny po£et stavov


Rie²enie SAT solver

Metóda: SAT solver

logický výraz s mnoºstvom neznámych premenných(a ∨ b ∨ ¬c) ∧ (¬a ∨ b ∨ c)

je splnite©ná? (je moºné také dosadenie hodnôt premenným, abylogická hodnota výrazu true)

aké dosadenie hodnôt ju sp¨¬a?



Pouºitie SAT solvera na nájdenie min. automatu

automat zade�nujeme cez logické predikáty

zapí²eme obmedzenia dané pozorovaniami ako sériu logických výrazov

zapí²eme v²eobecné obmedzenia

prevedieme predikáty na premenné a do formátu súboru pre SAT solver



Formalizácia

v stave s dostáva agent pozorovanie o = obs(o, s)

na akciu a sa zo stavu s dostaneme do s ′ = tr(s, a, s ′)

v £ase t sme boli v stave s = pos(t, s)

Obmedzenia:

v jednom stave máme najviac jedno pozorovanie:∀s ∈ S : ∀o, o ′ ∈ O, o 6= o ′ : ¬obs(o, s) ∨ ¬obs(o, s ′)

a aspo¬ jedno: ∀s ∈ S :∨

o∈O obs(o, s)

Podobne pre predikát tr :∀s, s ′, s ′′ ∈ S, a ∈ A, s ′ 6= s ′′ : ¬tr(s, a, s ′) ∨ ¬tr(s, a, s ′′) a tieº∀s ∈ S, a ∈ A :

∨s′∈S tr(s, a, s ′)

a pre predikát pos: ∀0 ≤ t ≤ T , s, s ′ ∈ S : ¬pos(t, s) ∨ ¬pos(t, s ′)a∀0 ≤ t ≤ T :

∨s∈S pos(t, s)



Formalizácia (pokr.)

Obmedzenie, ºe model vyhovuje pozorovaniam:

∀0 ≤ t ≤ T , s ∈ S : obs(s, ot) ∨ ¬pos(t, s)

∀0 ≤ t ≤ T − 1, s, s ′ ∈ S : tr(s, at , s′) ∨ ¬pos(t, s) ∨ ¬pos(t + 1, s ′)


Rie²enie Výsledok

Výsledok

8 3

16

1

8

2 12

0

3

1

16

2

4

0

0

1

3

16

2

0

1

3

8

2

10 2 3

18

1

0

0

1

2

3

2

0 3

1

3

0

1 2

31

0 2

0

2

1

3

10 8 8 8 12 1418 16 16 16 4 6

6 610 8 8 24 4 62 16 20 22 66 618 24 24 24 24 24 20

0 0


Rie²enie �al²í výskum

Moºné roz²írenia

silnej²í formalizmus

online budovanie modelu (nie nutne minimálne)

²trukturované pozorovanie (-tica)


Rie²enie �al²í výskum

Koniec

Otázky?


Kognitívna mapa bludiska - dai.fmph.uniba.sk · Preh©ad 1 U£enie posil¬ovaním Porovnanie s...

Documents

Transcript of Kognitívna mapa bludiska - dai.fmph.uniba.sk · Preh©ad 1 U£enie posil¬ovaním Porovnanie s...