Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in...
-
date post
21-Dec-2015 -
Category
Documents
-
view
218 -
download
1
Transcript of Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in...
Partially Observable Markov Decision Processes (POMDP)
תומר באום
Based on ch. 15 in “Probabilistic Robotics”by Thrun et al.
ב"ה
מוטיבציה
אנו מחפשים תהליכים שבוחרים את הפעולות •הנכונות. כאשר המצב נצפה בצורה חלקית ולא
מלאה.
דוגמא )המשך מהתרגול הקודם(:•
רובוט שרודף אחרי מטרה שעלולה להעלם •יכול לבחור בין תנועה לעבר המטרה לבין
תנועה לכיוון פינה של האוביקט המסתיר )כדי שהמטרה לא תעלם(. המטרה נעה ללא ידיעה
שרודפים אחריה.
Value iterationתזכורת:
:Vאנו מנסים למקסם את התועלת הצפויה •:1עבור אופק תכנון •
:Tעבור אופק תכנון • '),|'()'(),(maxarg)( 1 dxxuxpxVuxrx T
uT
),(maxarg)(1 uxrxu
),(max)(1 uxrxVu
'),|'()'(),(max)( 1 dxxuxpxVuxrxV Tu
T
?מה נשתנההרעיון בתרגול הקודם היה שאנו רוצים לעבור למצב בעל •
הערך הגבוה ביותר. אבל במקרה שלנו אנו לא יודעים באיזה מצב הרובוט. אלא אנחנו מעריכים מה המצב :
. beliefפונקציה זו נקראת אמונה •
),|()( :1:1 tttt uzxpbxbel
Value iterationבחזרה ל
:Vאנו מנסים למקסם את התועלת הצפויה •:Tעבור אופק תכנון
בעיה: אוסף ההיפוטזות באינטגרל הוא אינסופי!
'),|'()'(),(maxarg)( 1 dbbubpbVubrb Tu
T
'),|'()'(),(max)( 1 dxbubpbVubrbV Tu
T
:דוגמא
50),(100),(
100),(100),(
2221
1211
uxruxr
uxruxr
התועלת במצבים השונים עם תכסיסים שמסימים את המשחק )שני סיומים אפשריים(:
1),(),( 3231 uxruxr
תכסיס שלישי יאמר שאנו לא מסיימים את המשחק:
הוא בהסתברות גבוהה מחליף את המצב•
ובשאר המצבים:
התכסיס
2.0),|'(8.0),|'(
8.0),|'(2.0),|'(
322321
312311
uxxpuxxp
uxxpuxxp
3u
3u2.0),|'(),)(|)1(( 311311 uxxpuSxtXxtXp
:תצפיות ומדיניות
המדיניות מתאימה לכל ו •
תכסיס.
7.0)|(3.0)|(
3.0)|(7.0)|(
2221
1211
xzpxzp
xzpxzp
u]1;0[:
11)( pxb 122 1)( ppxb
מה התועלת הצפויה מתכסיס מסוים?
),( 21 ppb
),(),()],([),( 2211 uxrpuxrpuxrEubr x
)1(100100100100),( 11211 ppppubr
האמונה היא:
התועלת הצפויה מתכסיס מסוים היא:
)1(50100),( 112 ppubr
כעת נעבור למערכת שמבצעת תצפיות:
)(
7.0
)(
)()|()|('
1
1
1
111111 zp
p
zp
xpxzpzxpp
)(
)1(3.0'
1
12 zp
pp
)1(3.07.0)|()|()( 112211111 pppxzPpxzPzp
),('),('),'( 2211 uxrpuxrpubr
שלנו יהיה:beliefנניח שזוהתה התצפית . אז ה
כאשר:
ותועלת חדשה:
1z
אם עלינו לתת ערך לפני התצפית ניתן:•
במקרה שלנו:•
))|(()(
)|()(
)|()()]|([)(
111
2
1
111
2
1
1
2
111
pxzpVzp
pxzpVzp
zbVzpZbVEbV
iii
i
ii
ii
iZ
)1(3530
)1(7030max
)1(1570
)1(3070max)(
11
11
11
111
pp
pp
pp
ppbV
:שלב החיזוי
כעת עלינו לחזות מה יהיו התוצאות של פעולה •:beliefאפשרית, נעדכן את ה
אם היינו יודעים שאנו במצב אז לפי הנתון:•
ובאופן כללי:•
2.0),|'(' 3111 uxxpp
1x
2
131311 ),|'()],|'(['
iii puxxpuXxpEp
חיזוי הערך
הערך הצפוי מפעולה מתקבל מהצבת • החדש בנוסחא: beliefה
במקרה שלנו: •
3u
)')|(()'( 111
2
1
1 pxzpVbV ii
)1(7020
)1(4352
)1(6060
max)|(
11
11
11
31
pp
pp
pp
ubV
2אופק תכנון :
אפשר לעשות אחת משתי פעולות הסיום •)שמפיקות תשלום( או את פעולת המעבר בין
-:1מצבים שלה יש הפסד בטוח
)1(6921
)1(4251
)1(6159
)1(50100
)1(100100
max)(
11
11
11
11
11
2
pp
pp
pp
pp
pp
bV
3u
:קצת תורת המשחקים
משחק בצורה אסטרטגית:דוגמא "דילמת האסיר":•
צמד אסטרטגיות )אחת לכל שחקן( שבהינתן שיווי משקל נאש: •שאחד השחקנים לא משנה אסטרטגיה גם לשני לא כדאי לשנות
את האסטרטגיה שבחר.אסטרטגיות מעורבות: השחקנים יכולים לבחור הסתברויות לכל •
מהלך.
לא מודה2שחקן מודה2שחקן
מודה1שחקן
לא מודה1שחקן
)2,2(
)1,1(
)5,0(
)0,5(
תועלת לשחקן תועלת לשחקן 2
1
:קצת תורת המשחקים
משחק בצורה רחבה: דוגמא פשוטה וסופית:•
שני שחקנים, לכל שחקן בתורו יש אפשרות לאחד משני תכסיסים אז אפשר לייצג את
המשחק ע"י עץ בינארי. כאשר כל זוגיות עומק בעץ תקבע תור מי לקחת החלטה.
משחק חוזר הוא משחק שחוזר על עצמו •פעמים רבות ומאפשר למידה והתאמה
לתוצאות.
אפשר להסתכל על משחק כעל תהליך בזמן •שתלוי במצבים בהם השחקנים נמצאים. אם
נניח שהפרשי הזמן קטנים אפשר להגדיר נגזרות של המשחק.
במקרה שלנו הגיוני להגדיר משחק גזיר •בצורה רחבה ולנתח אותו הסתכלו ב:
• http://www.cs.ubc.ca/~emtiyaz/Writings/EMTgame.pdf