Kognitívna mapa bludiska - dai.fmph.uniba.sk · Preh©ad 1 U£enie posil¬ovaním Porovnanie s...
Transcript of Kognitívna mapa bludiska - dai.fmph.uniba.sk · Preh©ad 1 U£enie posil¬ovaním Porovnanie s...
Kognitívna mapa bludiska
Michal Malý
KAI FMFI UK
24. február 2011
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 1 / 25
Preh©ad
1 U£enie posil¬ovanímPorovnanie s ostatnými metódamiDe�níciaPríkladyMetódyVybraný podproblém: tvorba modeluPredo²lý výskumMôj prístup
2 Gramatická indukcia / Inferencia automatuFormálne jazyky � rýchly preh©adDe�nícia
3 Rie²enieMetódaSAT solverVýsledok�al²í výskum
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 2 / 25
U£enie posil¬ovaním Porovnanie s ostatnými metódami
Módy u£enia
na rozdiel od:
s u£ite©om [supervised] � �trénovanie� � ukazujeme pár (vstup, správnyvýstup)
samo-organizácia [unsupervised] � vznik ²truktúry napr. na základe²tatistických vlastností
rie²i u£enie posil¬ovaním úlohy, kde:
správny vstup nie je k dispozícii
niekedy sa nedá poveda´ ani, £i výstup akcia bola správna alebo nie
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 3 / 25
U£enie posil¬ovaním De�nícia
V²eobecná de�nícia
RL je u£enie £o robi´ � ako namapova´ akcie k situáciám � aby sa
maximalizoval vstupný signál. U£enému nie je povedané, aké akcie má
vykona´, ale miesto toho musí skú²aním zisti´, ktoré akcie priná²ajú
najv䣲iu odmenu. V najzaujímavej²ích a najnáro£nej²ích prípadoch akcia
nemusí ovplyvni´ len najbliº²iu odmenu, ale aj £asovo nasledujúcu situáciu
a cez ¬u v²etky nasledujúce odmeny. Tieto dve charakteristiky � u£enie cez
pokus a omyl, a oneskorená odmena, sú dve najdôleºitej²ie charakteristiky
RL. � R. S. Sutton and A. G. Barto.: Reinforcement Learning: AnIntroduction (aj onlinehttp://www.cs.ualberta.ca/~sutton/book/the-book.html)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 4 / 25
U£enie posil¬ovaním Príklady
Príklady
obrátené kyvadlo [inverted pendulum]
balansovanie metly :) [pole balancing]
labyrint [maze]
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 5 / 25
U£enie posil¬ovaním Metódy
Ako to urobi´?
Hocijako, ale pouºíva sa napr.:
dynamické programovanie
Monte Carlo
Temporal Di�erence Learning
Q-Learning
SARSA
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 6 / 25
U£enie posil¬ovaním Metódy
Charakteristika
policy
reward function
value function
niekedy: model of environment
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 7 / 25
U£enie posil¬ovaním Vybraný podproblém: tvorba modelu
Môj vybraný podproblém � motivácia
mnohé metódy nepouºívajú model sveta (stotoº¬ujú moºné stavyprostredia s perceptuálnym priestorom)
ak pouºívajú, potrebujú ho ma´ daný
£o ke¤ model nemáme / nechceme da´?
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 8 / 25
U£enie posil¬ovaním Vybraný podproblém: tvorba modelu
Príklad: Bludisko
nepoznáme cesty
nechceme predde�nova´ agenta na konkrétne bludisko
podobnos´ so v²eobecným problémom modelovania sveta: kriºovatkysú situácie, smery sú rozhodnutia
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 9 / 25
U£enie posil¬ovaním Predo²lý výskum
Predo²lý výskum
perceptuálny aliasing (Whitehead, Ballard, 1992) → algoritmus Lion(detekcia nekonzitentnosti a reset hodnoty akcie na nulu)
�Uvaºujme úlohu balenia dar£eka, ktorá zah¯¬a 4 kroky: otvori´
krabicu, vloºi´ dar£ek, zatvori´ ju, a zalepi´. Agent, ktorý je vedený len
jeho aktuálnym vizuálnym vnemom nedokáºe úlohu splni´, pretoºe ak
má pred sebou zatvorenú krabicu, nevie, £i dar£ek je uº vo vnútri, a
teda sa nevie rozhodnú´, £i má krabicu zalepi´ alebo otvori´.� (Lin,Mitchell, 1992)
agregácia stavov (Singh, Jaakkola, 1995)
delenie stavov (McCallum, 1993)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 10 / 25
U£enie posil¬ovaním Môj prístup
Môj prístup
minimálny model (princíp minimálnej popisnej d¨ºky (MDL) �Occamova britva)
gramatická indukcia (inferencia automatu)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 11 / 25
Gramatická indukcia / Inferencia automatu Formálne jazyky � rýchly preh©ad
De�nícia (Abeceda)
Abeceda je kone£ná neprázdna mnoºina znakov (symbolov, tokenov).
De�nícia (Slovo)
Slovo je kone£ná postupnos´ symbolov z abecedy.
De�nícia (Jazyk)
Formálny jazyk je mnoºina slov.
Príklad:abeceda: Σ = {a, b}slová: abba,aaaabbbbjazyk: L = {ε, ab, ba, aabb, abba, baba, bbaa, ...} = tie slová, kde po£eta-£ok a b-£ok v slove je rovnaký
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 12 / 25
Gramatická indukcia / Inferencia automatu Formálne jazyky � rýchly preh©ad
Kone£ný automat
Automat na delite©nos´ troma.Napr. �2047�: prejde stavmi: zv.0, zv.2, zv.2, zv.0, zv.1
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 13 / 25
Gramatická indukcia / Inferencia automatu Formálne jazyky � rýchly preh©ad
Gramatika
De�nícia (Terminálny symbol)
Terminály � symboly, z ktorých sa skladajú slová (na výstupe).
De�nícia (neterminálny symbol)
Neterminály � pomocné symboly pri odvodzovaní, nesmú sa objavi´ na
výstupe.
De�nícia (Gramatika)
Gramatika je ur£ená mnoºinou neterminálov, mnoºinou terminálov,
mnoºinou odvodzovacích pravidiel a ²tartovacím symbolom.
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 14 / 25
Gramatická indukcia / Inferencia automatu Formálne jazyky � rýchly preh©ad
Gramatika � príklad
terminály: T = {1, 2, 3, . . . 9, +,−, (, )}neterminály: N = {V ,C}²tartovací symbol: V
pravidlá:V → C
V → V + V
V → V − V
V → (V )C → 1, C → 2, . . ., C → 9
Vieme vyrobi´ slovo 1− (4 + 5) napríklad takto:V ⇒ V − V ⇒ C − V ⇒ C − (V )⇒ C − (V + V )⇒ C − (C + V )⇒C − (C + C )⇒ 1− (C + C )⇒ 1− (4 + C )⇒ 1− (4 + 5)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 15 / 25
Gramatická indukcia / Inferencia automatu Formálne jazyky � rýchly preh©ad
Chomského hierarchia
1 regulárne gramatiky ≡ kone£ný automat (nevedia anbn)2 bezkontextové gramatiky ≡ nedeterministický zásobníkový automat
(nevedia anbncn)3 kontextové gramatiky ≡ nedeterministický lineárny automat (nevie
EXPSPACE-hard problémy)4 frázové gramatiky (neobmedzené, typu 0) ≡ Turingov stroj (vie
v²etko, £o je �intuitívne vypo£ítate©né�)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 16 / 25
Gramatická indukcia / Inferencia automatu De�nícia
Gramatická indukcia / Inferencia automatu
De�nícia
Gramatická indukcia je spôsob, ako odvodi´ formálnu gramatiku z mnoºiny
vzoriek � pozorovaní.
De�nícia
Inferencia automatu je spôsob, ako odvodi´ automat z mnoºiny vzoriek �
pozorovaní.
Príklad: daná mnoºina {27264, 4491, 23022, 18066, 3822, 7758, 14178, ...}.�o to je?
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 17 / 25
Rie²enie Metóda
Pouºitá metóda: inferencia minimálneho kone£néhoautomatu/modelu
kone£ný po£et stavov, prechody, pozorovanie v stave
sp¨¬a doteraj²ie pozorovania (skúsenos´)
minimálny po£et stavov
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 18 / 25
Rie²enie SAT solver
Metóda: SAT solver
logický výraz s mnoºstvom neznámych premenných(a ∨ b ∨ ¬c) ∧ (¬a ∨ b ∨ c)
je splnite©ná? (je moºné také dosadenie hodnôt premenným, abylogická hodnota výrazu true)
aké dosadenie hodnôt ju sp¨¬a?
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 19 / 25
Rie²enie SAT solver
Pouºitie SAT solvera na nájdenie min. automatu
automat zade�nujeme cez logické predikáty
zapí²eme obmedzenia dané pozorovaniami ako sériu logických výrazov
zapí²eme v²eobecné obmedzenia
prevedieme predikáty na premenné a do formátu súboru pre SAT solver
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 20 / 25
Rie²enie SAT solver
Formalizácia
v stave s dostáva agent pozorovanie o = obs(o, s)
na akciu a sa zo stavu s dostaneme do s ′ = tr(s, a, s ′)
v £ase t sme boli v stave s = pos(t, s)
Obmedzenia:
v jednom stave máme najviac jedno pozorovanie:∀s ∈ S : ∀o, o ′ ∈ O, o 6= o ′ : ¬obs(o, s) ∨ ¬obs(o, s ′)
a aspo¬ jedno: ∀s ∈ S :∨
o∈O obs(o, s)
Podobne pre predikát tr :∀s, s ′, s ′′ ∈ S, a ∈ A, s ′ 6= s ′′ : ¬tr(s, a, s ′) ∨ ¬tr(s, a, s ′′) a tieº∀s ∈ S, a ∈ A :
∨s′∈S tr(s, a, s ′)
a pre predikát pos: ∀0 ≤ t ≤ T , s, s ′ ∈ S : ¬pos(t, s) ∨ ¬pos(t, s ′)a∀0 ≤ t ≤ T :
∨s∈S pos(t, s)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 21 / 25
Rie²enie SAT solver
Formalizácia (pokr.)
Obmedzenie, ºe model vyhovuje pozorovaniam:
∀0 ≤ t ≤ T , s ∈ S : obs(s, ot) ∨ ¬pos(t, s)
∀0 ≤ t ≤ T − 1, s, s ′ ∈ S : tr(s, at , s′) ∨ ¬pos(t, s) ∨ ¬pos(t + 1, s ′)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 22 / 25
Rie²enie Výsledok
Výsledok
8 3
16
1
8
2 12
0
3
1
16
2
4
0
0
1
3
16
2
0
1
3
8
2
10 2 3
18
1
0
0
1
2
3
2
0 3
1
3
0
1 2
31
0 2
0
2
1
3
10 8 8 8 12 1418 16 16 16 4 6
6 610 8 8 24 4 62 16 20 22 66 618 24 24 24 24 24 20
0 0
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 23 / 25
Rie²enie �al²í výskum
Moºné roz²írenia
silnej²í formalizmus
online budovanie modelu (nie nutne minimálne)
²trukturované pozorovanie (-tica)
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 24 / 25
Rie²enie �al²í výskum
Koniec
Otázky?
Michal Malý (KAI FMFI UK) Kognitívna mapa bludiska 24. február 2011 25 / 25