Post on 10-Jan-2017
1
Reinforcement Learning in The Grid World problem
AuthorAlireza Andalib
Learning Machine
ارایه عنوان
2
3
تقویتی یادگیری
4
تقویتی یادگیری
5
تقویتی مقایسه با یادگیریناظر با یادگیری
6
Supervised Learning:
Example Class
Reinforcement Learning:
Situation Reward Situation Reward…
ناظر با یادگیری با RL مقایسه
ناظر با یادگیری
Supervised Learning SystemInputs Outputs
Training Info = desired (target) outputs
Error = (target output – actual output)
7
تقویتی یادگیری
RLSystemInputs Outputs (“actions”)
Training Info = evaluations (“rewards” / “penalties”)
8
یادگیری اصلی های مشخصهتقویتی
9
یادگیری مسئله کلی ساختارتقویتی
سیاست10 }|Pr{),( ssaaas ttt
11
سیاست مشی خط
سیاست یادگیری یا مشی خط
13
بهینه سیاست آوردن بدست
14
محیط
15
محیط
16
مارکوف خاصیت
17
Markov Decision Processes
18
مشبک جهان مسئله تعریفGrid World
A B
B’
A’
19
مشبک جهان مسئله تعریف
20
مشبک جهان مسئله تعریف
Bellmanالگوریتم
22
بلمن الگوریتم نهایی جوابحل :25معادله 25با میرسیم زیر مقادیر به مجهول
1.7120 9.7461 3.1311 5.4209 1.0036
0.7994 2.9233 2.3299 1.9586 0.4665
0.0023 0.7899 07355 0.4364 0.2287-
0.7664- 0.8488- 0.0076 0.1855- 0.9621-
0.9949- 1.3554- 1.0946- 1.4766- 2.0021-
23
IPEالگوریتم
24
الگوریتم نهایی IPEجواب) 100مثال( Kبا تکرار بار تا i,jبار میشود روز به خانه هر صفر مقادیر
: میرسیم زیر مقادیر به که جایی
1.4008 9.5698 3.1841 5.4309 0.8827
0.6503 2.9231 1.9576 1.8581 0.3910
0.0303- 0.8137 0.7354 0.4787 0.2830-
0.4062- 0.0118- 0.0183 0.1828- 0.7333-
0.6535- 0.4780- 0.4594- 0.5763- 0.9488-
25
PIالگوریتم
26
الگوریتم نهایی PIجواببا را عامل که هست قطع<یی سیاستی آمده دست به انتها در که نتایجی
.شروع Stateهر میدهد سوق< ها امتیاز بیشترین آوری جمع سمت به
Go Right Jump Go Left Jump Go Left
Go Up Go Up Go Left Go Up Go Left
Go Up Go Up Go Up Go Up Go Left
Go Up Go Up Go Up Go Up Go Left
Go Up Go Up Go Up Go Up Go Left
27
گیری نتیجه
28
منابع Horstmann, Cay. "GridWorld". horstmann.com.
Accessed September 15, 2008 www.inf.ed.ac.uk/teaching/courses/rl www.math-info.univ-paris5.fr/~bouzy/Doc/AA2/Rein
forcementLearning2 www.cs.berkeley.edu/~pabbeel/cs287-fa12 courses.cs.washington.edu/courses/cse473/12sp/
slides/16-mdp.pdf
29
THANKS FOR YOUR ATTENTION