הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה
description
Transcript of הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה
חשמל להנדסת הפקולטהורובוטיקה לבקרה המעבדה
לומדות מערכות
המשחק לומד סוכן מימושפקמןמגישים:
שגיב דימינטשטיין משה רועי
מנחה:לוי כפיר
המצגת מבנה
הנושא • הצגתהאלגוריתמים • מימוש•/ פחדן אמיץ סוכןהתוכנה•הדגמה •ומסקנות • תוצאותבפיתוח • שלבים
הנושא הצגת
• " חיזוקים י ע למידהבנושא • קודמות עבודותמוטיבציה•
" חיזוקים י ע למידה
•? " חיזוקים י ע למידה מהיהמודל • הצגת
– , , פונקצית אפשריות פעולות אפשריים מצבים. רווח, ופונקצית מדיניות פונקצית מעבר
בנושא קודמות עבודות
Sarsaאלגוריתם •תוחלות – חישוב על מתבסס
CVaRאלגוריתם •המשוואה – פיתוחבמקום – הסתברות צפיפות פונקצית משערך
תוחלת:actor-criticגישת •
1 1
1 1 1 1 1 1( | , ) ( | , ) ( | ) | , ( | , , )t t
E T t t t E t t R ts S a A r R
rP s a p s s a a s P s a dP r s a s
מוטיבציה
בין • - Sarsaהשוואה CvaRל •/ פחדן אמיץ סוכן יצירת
האלגוריתמים - Sarsaמימוש
•: על במבט האלגוריתםאקראית – ממדיניות מתחיליםפונקצית – לפי הנוכחי למצב פעולה בוחרים
המדיניות– , שהתקבל ) הבא המצב התצפית בערכי צופים
.)' וכד הרווחהתגמול , – פונקצית ופעולה, Qעדכון המצב עבור
: הנוסחא לפי1 1 1( , ) (1 ) ( , ) [ ( , )]t t t t t t t t t t t tQ s a Q s a r Q s a
האלגוריתמים - Sarsaמימוש
•Bellman error – " את " לעדכן ויש מספיק למד הסוכן למתי מדד
המדיניות.
1 2 1 1
( | ) ( | ) ( )
( ) ( | ) ( , )
( ) ( , ) ( , )
1 1[ ... ]
1 1
a
t t t t t t
T T t t t
Q s a r s a V s
V s a s Q s a
V s r s a Q s a
tM M M
T t t
האלגוריתמים - Sarsaמימוש
המניבה: – דרך מוצא הפקמן בו מצב נניח בעיה , הדרך איננה היא אך מאוד חיוביים רווחים
נקרא. זה מצב exploitationהאופטימאלית
ובכך: – הפעולה לבחירת אקראיות נוסיף פתרון. explorationנאפשר
greedy
האלגוריתם - CVaRמימוש
ההסתברות • צפיפות פונקצית שערוך–Particles
צפיפות – בין התלות את המראה המאמר לפי פיתוחהמצבים של לזו הנוכחי המצב של ההסתברות
האחרים.– - ב לשערוך particlesשימוש
האלגוריתם - CVaRמימוש
על • במבט האלגוריתםפעולה – מצב כל עבור K particlesמאתחלים
בגובה יוניפורמית מידע ) K/1מפולגים בידינו איןעדיין(.
פונקצית – לפי פעולה בוחרים הנוכחי המצב עבורהמדיניות.
–.) הבא ) והמצב הרווח התצפית בערכי צופיםמספר – :particlesמזיזים הנוסחא לפי מראש קבוע
שני p , qכאשר -particlesמייצגים ו vאקראיים. מיקומם את מיצג
, 1, , ,t t p t ts a t s a qv r v
האלגוריתם - CVaRמימוש
לשגיאת • דואלי bellmanמדדשל – הסתברות צפיפות פונקציות על מיצוע יצירת
נסמן הבא והמצב הנוכחי .f , gהמצב– : מצטברת הסתברות פונקציות .F, Gיצירת–: ש מכך
צריך ) הנוכחי המצב של המצטבר המהוון הרווח
.) " הבא " המצב של לזה קרוב להיותהבא – שהביטוי נקבל
קטן להיות צריך
( | ) ( | ) ( )
( ) ( | ) ( , )a
Q s a r s a V s
V s a s Q s a
1( ) ( )
b
a
x rF x G dx
b a
/ פחדן אמיץ סוכן
• / מפונקצית פחדנית אמיצה התנהגות גזירתההסתברות
מצטברת – הסתברות פונקצית יצירת– / ההסברות פונקצית של תחתון עליון חלק שערוך
/ פחדן אמיץ סוכן
להצליח: " • רוצה אני אז מצליח אני אם אמיץ" שאפשר הרבה הכי
•" פחות: " אפול אז נפלתי כבר אם פחדן
התוכנה
בשפת • מונחה – Javaפותחה תכנות מבוססתעצמים.
היורש • כאובייקט מומש אלגוריתם כל ( " מוח " הנקרא אבסטרקטי Brainמאובייקט
בתוכנה(" reuseמאפשרת • " אחרים מוחות ל והרחבההאלגוריתמים • מימוש בין מלאה הפרדה
. עצמו למשחק• – " קונבנציות י עפ javadocתיעוד•UML
התוכנה
UML – Class Diagram
הדגמה
ומסקנות תוצאות
איסוף • על מתבססים ההשוואה קריטריוני( אונליין נתונים הרווח) של ריצה כדי תוך
. שונות דגימה בנקודות המהווןנותחו • אלו .matlabבעזרת אופליין נתונים• , מהווים האופייניים לגרפים פרט הגרפים כל
של , 10אינטרפולציה המשחק של הרצות. שעה כחצי של למידה היא הרצה כל כאשר
–!!! קשה: עבד הפקמן מסקנה
אופייניים גרפים
אופייניים גרפים
אופייניים גרפים
אומץ מדד
פחדנות מדד
פחדנות מדד
ממוצע מדד
לבגרות מינקות הפקמן
של • ראשונית – Sarsaהרצה– , מפלצת ללא גדול מסךבקירות – נתקע הפקמן
מצב על עונש .standהוספתמספר • כעבור לפני ) עדכון צעדים של קבוע
bellman error )מהירים – , עדכונים נמנע קצר מסלול לומד
. " מהר" יותר שיגעון מ–.".. , לומד: " הוא לומד הוא רועי
• " קרוב " שהוא ברגע המטרה על התבייתות ישאקראי נראה המצב המקומות בשאר אליה
) גדול) עדיין המסך–" למידה: " פה יש משה
• , כל בין הזמן הגדלת אקראיות הוספת) קבוע ) עדיין עדכון
יותר – נחלץ הוא אקראיות הרבה יש כאשר." " שטויות מ מהר
מסקנה: •מהירים – מהירה עדכונים יותר התחלתית למידהארוכים – יותר טובה עדכונים יותר התכנסות
כאשר " • סטירות לו לתת אקראיות צריך תמיד." נתקע הוא
הזמן: • ועם רבה אקראיות עם להתחיל רעיון. אותה להקטין
בלמן • שגיאת הוספתמסך • הקטנתמצב • fast forwardהוספת
התכנסות + • למידה ישמפלצת • הוספנו
!!!!!!!!!!"רועי: • עובד" זה
שאלות???
!!! ההקשבה על תודה