A d aB o o st B ag g i n g an d - 5 1*'=?

1

Bagging and - 5 תרגול

AdaBoost

SlidesSlides PDFPDF

תקציר התיאוריהתקציר התיאוריה

Bagging ו Boosting הן שיטות אשר עושות שימוש במכלול (ensemble) של חזאים בכדי לקבל חזאי עם ביצועים טובים

יותר.

BaggingBagging

Bagging (Bootstrap + Aggregating) הינה שיטה להקטין את ה variance (ובכך את ה overfitting) של חזאי על

ידי הרכבה של מספר חזאים אשר אומנו על מדגמים מעט שונים.

בשלב ה bootstraping נייצר את המדגמים ולכל מדגם נבנה חזאי ובשלב ה aggregation נאחד את כל החזאים לחזאי

יחיד.

Bootstraping

~

http://localhost:8000/tutorial05/slides/

http://localhost:8000/assets/tutorial05.pdf

2

ב Bootstraping נקח מדגם נתון בגודל ונייצר ממנו מדגמים בגודל על ידי הגרלה של ערכים מתוך המדגם עם

. חזרות (כך שניתן להגריל כל ערך מספר פעמים). ב bagging נבחר לרוב את להיות שווה ל

Aggregation

. בשלב השני נרכיב את כל החזאים בשלב הראשון נבנה באופן בלתי תלוי מתוך כל אחד מהמגדמים שייצרנו חזאי

שייצרנו לחזאי אחד כולל.

בעבור בעיות רגרסיה: נמצע את תוצאת החיזוי של כל החזאים:

בעבור בעיות סיווג: נבצע majority voting, זאת אומרת:

AdaBoostAdaBoost

AdaBoost (Adaptive Boosting) מתייחס לבעיות סיווג בינאריות, שיטה זו מנסה להקטין את ה bias (ובכך להקטין את ה

underfitting) של מסווג על ידי הרכבה של מסווגים שונים.

. ב AdaBoost נסמן את המחלקות ב

בהיתן אוסף של מסווגים בינארים, אלגוריתם ה AdaBoost מנסה לבחור סט של מסווגים ומקדמים ולבנות

קומבינציה לינארית שתמזער את בעיית האופטימיזציה הבאה:

) ועצירה האלגוריתם בונה את הקומבינציה הלינארית בצורה חמדנית על ידי הוספת איבר איבר לקומבינציה (והגדלה של

.validation set על ה overfitting כאשר ביצועי המסווג מספקים או שהאלגוריתם מתחיל לעשות

אלגוריתם

. ב נאתחל וקטור משקלים

בכל צעד נבצע את הפעולות הבאות:

1. נבחר את המסווג אשר ממזער את ה misclassification rate הממושקל:

2. נחשב את המקדם של המסווג:

3. נעדכן את וקטור המשקלים:

המסווג הסופי

הסיווג הסופי נעשה על ידי קומבינציה לינארית של כל מסווגים והמשקל שלהם.

NpN~

N~

N

(x)h~i

h(x) = (x)p1 ∑i=1

ph~i

h(x) = majority({ (x), (x),…, (x)})h~1 h

~2 h

~p

y = ±1

t{α , }k h~k k=1

t

α (x)∑k=1t

kh~k

exp − α y (x ){α , }k h

~k k

arg minN

1

i=1

∑N

(k=1

∑t

k(i)h~k

(i) )

t

t = 0w =i

(t)N1

t

=h~t w I{y =

h~

arg mini=1

∑N

i(t−1) (i) (x )}h

~ (i)

αt+1

εt

αt

= w I{y = (x )}i=1

∑N

i(t−1) (i) h

~t

(i)

= ln21

(εt

1 − εt )

w~i(t)

wi(t)

= w exp −α y (x )i

(t−1) ( t(i)h~t

(i) )

=∑j=1

Nw~j(t)

w~i(t)

3

חסם

נסתכל על מסווג אשר התקבל מאלגוריתם AdaBoost שעבורו בכל צעד שגיאת ה misclassification error הממושקלת

. בעבור מסווג זה מתקיים ש: קטנה מ

תרגיל תרגיל 11.111.1: דוגמא חד מימדית: דוגמא חד מימדית

נתבונן בבעיית סיווג חד מימדית עבור סט דוגמאות האימון:

נרצה להשתמש במסווגים לינארים מסוג וב AdaBoost בכדי לבנות מסווג. רשמו את ארבעת

. האיטרציות הראשונות של האלגוריתם ואת החזאי המתקבל אחרי כל צעד. הניחו כי:

פתרון פתרון 11.111.1

נאתחל את וקטור המשקלים:

צעד 1

נבחר מבין המסווגים הנתונים את המסווג אשר ממזער את ה objective שהוא ה misclassification rate הממושקל.

: נבחן את שלושת הערכים האפשריים של

.misclassification rate במקרה זה עדיף לקחת את המסווג (עם סימון שלילי) בכדי למזער את

h(x) = sign α (x)(t=1

∑T

th~t )

t

−21 γt

I{h(x ) =N

1

i

∑ (i) y } ≤(i) exp − α y (x ) ≤N

1

i=1

∑N

(t=1

∑T

t(i)h~t

(i) ) exp −2 γ(t=1

∑T

t2)

D = {{1,−1}, {3, 1}, {5,−1}}.

(x) =h~ ±sign(x− b)

b ∈ {0, 2, 4}

w =(0) , ,[ 313131 ]⊤

w I{y =i=1

∑N

i(0) (i) (x )}h

~ (i)

b

b = 0

(x) =h~

−sign(x)

4

חזאי זה יטעה רק על הנקודה השניה ולכן נקבל:

.misclassification rate במקרה זה עדיף לקחת את המסווג (עם סימון חיובי) בכדי מזער את

חזאי זה יטעה רק על הנקודה השלישית ולכן נקבל:

.misclassification rate במקרה זה עדיף לקחת את המסווג (עם סימון שלילי) בכדי למזער את

חזאי זה יטעה רק על הנקודה השלישית ולכן נקבל:

i = 2

w I{y =i=1

∑N

i(0) (i) (x )} =h

~ (i) w =2(0)

31

b = 2

(x) =h~

sign(x− 2)

i = 3

w I{y =i=1

∑N

i(0) (i) (x )} =h

~ (i) w =3(0)

31

b = 4

(x) =h~

−sign(x− 4)

i = 1

w I{y =i=1

∑N

i(0) (i) (x )} =h

~ (i) w =1(0)

31

5

מכיוון שכל שלושת החזאים מניבים את אותו objective נבחר את אחד מהם באקראי. נבחר אם כן את המסווג הראשון של

. האלגוריתם להיות

: נחשב את

נעדכן את וקטור המשקלים:

אחרי הנרמול נקבל:

החזאי שקיבלנו עד כה הינו:

צעד 2

נמצא את החזאי האופטימאלי:

בעבור נקבל:



. המסווג השני והשלישי נותנים את אותם הביצועים נבחר באופן אקראי את המסווג השני

: נחשב את

=h~1 −sign(x)

α1

ε1

α1

= w I{y = (x )} =i=1

∑N

i

(0) (i) h~1

(i)

31

= ln = ln(2) = 0.34721

(ε1

1 − ε1)21

=w~ (1) =

⎣⎢⎢⎢⎢⎡ exp −α y (x )31 ( 1

(i)h~1

(i) )

exp −α y (x )31 ( 1

(i)h~1

(i) )

exp −α y (x )31 ( 1

(i)h~1

(i) )⎦⎥⎥⎥⎥⎤

=31

⎣⎢⎡ exp − ln(2) ⋅ 1( 2

1 )exp − ln(2) ⋅ (−1)( 2

1 )exp − ln(2) ⋅ 1( 2

1 ) ⎦⎥⎤

=31

⎣⎢⎡2

− 21

2 21

2− 21⎦⎥⎤

3 2

1

⎣⎢⎡121⎦⎥⎤

w =(1)

41

⎣⎢⎡121⎦⎥⎤

h(x) = sign α (x)( 1h~1 )

= sign −0.347sign(x)( )

= {sign(0.347)sign(−0.347)

x < 00 < x

= {1−1

x < 00 < x

(x) =h~

−sign(x)

w I{y =i=1

∑N

i

(0) (i) (x )} =h~ (i) w =2

(0)

42

(x) =h~

sign(x− 2)

w I{y =i=1

∑N

i(0) (i) (x )} =h

~ (i) w =3(0)

41

(x) =h~

−sign(x− 4)

w I{y =i=1

∑N

i

(0) (i) (x )} =h~ (i) w =1

(0)

41

=h~2 sign(x− 2)

α2

6




צעד 3





. המסווג השלישי הוא בעל הביצועים הטובים ביותר ולכן נבחר

: נחשב את



ε2

α2

=41

= ln = ln(3) = 0.54921

(ε2

1 − ε2)21

=w~ (2) =41

⎣⎢⎢⎢⎢⎡ exp −α y (x )( 2

(i)h~2

(i) )

2 exp −α y (x )( 2(i)h~2

(i) )

exp −α y (x )( 2(i)h~2

(i) ) ⎦⎥⎥⎥⎥⎤

=⎣⎢⎡ exp − ln(3) ⋅ 1( 2

1 )2 exp − ln(3) ⋅ 1( 2

1 )exp − ln(3) ⋅ (−1)( 2

1 )⎦⎥⎤

=41

⎣⎢⎡ 3− 2

1

2 ⋅ 3− 21

3 21 ⎦

⎥⎤

4 3

1

⎣⎢⎡123⎦⎥⎤

w =(2)

61

⎣⎢⎡123⎦⎥⎤

h(x) = sign α (x) + α (x)( 1h~1 2h

~2 )

= sign −0.347sign(x) + 0.549sign(x− 2)( )

=⎩⎪⎪⎨⎪⎪⎧sign(−0.203)sign(−0.896)sign(0.203)

x < 00 < x < 22 < x

= {−11

x < 22 < x

(x) =h~ −sign(x)w =2

(0)62

(x) =h~

sign(x− 2)w =3(0)

63

(x) =h~

−sign(x− 4)w =1(0)

61

=h~3 −sign(x− 4)

α3

ε3

α3

=61

= ln = ln(5) = 0.80521

(ε3

1 − ε3)21

=w~ (3) =61

⎣⎢⎢⎢⎢⎡ exp −α y (x )( 3

(i)h~3

(i) )

2 exp −α y (x )( 3(i)h~3

(i) )

3 exp −α y (x )( 3(i)h~3

(i) )⎦⎥⎥⎥⎥⎤

=61

⎣⎢⎡ 5 2

1

2 ⋅ 5− 21

3 ⋅ 5− 21 ⎦⎥⎤

6 5

1

⎣⎢⎡523⎦⎥⎤

7


נשים לב שבשלב זה כבר קיבלנו סיווג מושלם

צעד 4





. המסווג השני הוא בעל הביצועים הטובים ביותר ולכן נבחר

: נחשב את




w =(3)

101

⎣⎢⎡523⎦⎥⎤

h(x) = sign α h (x) + α (x) + α (x)( 1 1 2h~2 3h

~3 )

= sign −0.347sign(x) + 0.549sign(x− 2) − 0.805sign(x− 4)( )

=

⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧sign(0.602)sign(−0.091)sign(1.007)sign(−0.602)

x < 00 < x < 22 < x < 44 < x

=

⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧1−11−1

x < 00 < x < 22 < x < 44 < x

(x) =h~

−sign(x)w =2(0)

102

(x) =h~

sign(x− 2)w =3(0)

103

(x) =h~

−sign(x− 4)w =1(0)

105

=h~4 −sign(x)

α4

ε4

α4

=102

= ln = ln(4) = 0.69321

(ε4

1 − ε4)21

=w~ (4) =101

⎣⎢⎢⎢⎢⎡5 exp −α y (x )( 4

(i)h~4

(i) )

2 exp −α y (x )( 4(i)h~4

(i) )

3 exp −α y (x )( 4(i)h~4

(i) )⎦⎥⎥⎥⎥⎤

=101

⎣⎢⎡5 ⋅ 4

− 21

2 ⋅ 4 21

3 ⋅ 4− 21 ⎦⎥⎤

201

⎣⎢⎡583⎦⎥⎤

w =(4)

161

⎣⎢⎡583⎦⎥⎤

8

הסיווג אומנם לא השתנה, אך ככל שנריץ עוד צעדים של האלגוריתם הוא ימשיך לנסות למזער את

. במקרים רבים כאשר נמשיך להריץ את האלגוריתם יכולת ההכללה של

האלגוריתם תמשיך להשתפר גם אחרי שהאלגוריתם מתכנס לסיווג מושלם על ה train set. (זה לא יקרה במקרה המנוון

הזה).

תרגיל תרגיל 11.211.2 - שאלות תיאורטיות - שאלות תיאורטיות

מלבד סעיפים 3 ו 4 שתלויים אחד בשני, הסעיפים הבאות לא תלויים אחד בשני.

1) מדוע נעדיף ב AdaBoost להשתמש במסווגים בעלי יכולת ביטוי חלשה? לדוגמא מדוע נעדיף להשתמש בעצים בעומק 1

מאשר עצים מאד עמוקים?

, מובטח לנו שבאלגוריתם ה AdaBoost נוכל תמיד למצוא מסווג כזה אשר יתן לנו 2) נניח כי בעבור מדגם כל שהוא בגודל

. מצאו חסם עליון על כמות הצעדים של AdaBoost שיש לבצע בכדי לקבל שגיאת misclassification rate קטנה מ

סיווג מושלם.

רמז: מהי השגיאת ה misclassification rate (הלא ממושקל) במצב בו המסווג טועה רק על דגימה אחת?

3) הראו שאם באלגוריתם AdaBoost ננסה להשתמש באותו המסווג בשני צעדים רצופים בצעד השני נקבל

misclassification rate ממושקל ששווה לחצי.

הדרכה (תחת הסימונים שמופיעים בתחילת התרגול)

. 1. הראו ש:

. 2. הראו שקבוע הנרמול של המשקלים נתון על ידי:

). עשו זאת על ידי הצבה של 3. חשבו את ה misclassification rate הממושקל עם משקלים והחזאי (מהצעד ה

ושל קבוע הנרמול שלו.

פתרון פתרון 11.211.2

(1

underfitting מגדיל את ההתאמה של חזאי למדגם על ידי בניית קומבינציה של חזאים. האלגוריתם מקטין את ה AdaBoost

על חשבון ה overfitting. אם נתחיל עם מודלים בעלי יכולת ביטוי גדולה מידי המודלים יעשו overfitting ואותו האלגוריתם

לא יוכל להקטין.

בפועל מה שיקרה אם ניקח מודלים בעלי יכולת ביטוי גדולה הוא שנמצא בצעד הראשון מודל שיסווג בצורה טובה את המדגם

(אך גם כנראה יעשה הרבה overfitting) לו הוא יתן את מרבית המשקל.

(2

. נמצא בעזרת בעבור מדגם בגודל וחזאי עם שגיאת חיזוי אחת על המדגם נקבל שגיאת misclassification rate של

החסם את כמות הצעדים שיש לעשות בכדי להגיע לשגיאה קטנה מזו. על פי החסם על השגיאה של AdaBoost אנו יודעים כי:

h(x) = sign α (x) + α (x) + α (x) + α (x)( 1h~1 2h

~2 3h

~3 4h

~4 )

= sign −1.04sign(x) + 0.549sign(x− 2) − 0.805sign(x− 4)( )

=

⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧sign(1.295)sign(−0.784)sign(0.314)sign(−1.295)

x < 00 < x < 22 < x < 44 < x

=

⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧1−11−1

x < 00 < x < 22 < x < 44 < x

exp − α y (x )N1 ∑i=1

N ( ∑t=1T

t(i)h~t

(i) )

N

−21 γ

exp −α y (x ) =( t(i)h~t

(i) ) (1−εtεt )

y (x )21 (i)h

~t

(i)

=∑i=1N

w~i(t) 2 ε (1 − ε )t t

wth~tt

wi

(t)

NN1

9

נמצא את מספר הצעדים המינימאלי אשר מקיים:

, זאת אומרת שיש מכאן שבעבור מובטח לנו שנקבל שגיאת misclassification rate קטנה מ

אפס שגיאות סיווג.

(3

נפעל על פי ההדרכה. נתחיל עם השלב הראשון. נשתמש בעובדה ש ונראה ש:

נמשיך ונחשב את קבוע הנרמול:

: . נציב את ההגדרה של נחשב את ה misclassification rate הממושקל

I{h(x ) =N

1

i

∑ (i) y } ≤(i) exp −2 γ =(t=1

∑T

2) exp −2Tγ( 2)

T

exp −2Tγ( 2)

⇔−2Tγ2

⇔ T

≤N

1

≤ ln(N

1)

≥ ln(N)2γ21

T = ln(N) +⌈ 2γ21 ⌉ 1N

1

α =t ln21 (

εt

1−εt )

exp −α y (x )( t(i)h~t

(i) ) = exp − ln y (x )(21

(εt

1 − εt) (i)h

~t

(i) )

= exp ln( (εt

1 − εt ))− y (x )21 (i)h

~t

(i)

= (1 − εt

εt )y (x )21 (i)h

~t

(i)

i=1

∑N

w~i(t) = w exp −α y (x )

i=1

∑N

i(t−1) ( t

(i)h~t

(i) )

= w

i=1

∑N

i(t−1) (

1 − εt

εt )y (x )21 (i)h

~t

(i)

= w I{y = (x )} + I{y = (x )}i=1

∑N

i(t−1) (

1 − εt

εt )y h (x )21 (i)

t(i)

( (i) h~t

(i) (i) h~t

(i) )

= w I{y = (x )} + w I{y = (x )}(1 − εt

εt )21

i=1

∑N

i(t−1) (i) h

~t

(i) (1 − εt

εt )− 21

i=1

∑N

i(t−1) (i) h

~t

(i)

= w 1 − I{y = (x )} + w I{y = (x )}1 − εt

εt

i=1

∑N

i(t−1) ( (i) h

~t

(i) )εt

1 − εt

i=1

∑N

i(t−1) (i) h

~t

(i)

= − +1 − εt

εt

⎝⎜⎜⎜⎜⎛

=1

w

i=1

∑N

i

(t−1)

=εt

w I{y = (x )}i=1

∑N

i

(t−1) (i) h~t

(i)

⎠⎟⎟⎟⎟⎞

εt

1 − εt

=εt

w I{y = (x )}i=1

∑N

i

(t−1) (i) h~t

(i)

= 1 − ε + ε1 − εt

εt ( t)εt

1 − εtt

= 2 ε (1 − ε )t t

w I{y =∑i=1N

i

(t) (i) (x )}h~t

(i)wi

(t)

10

שגיאת misclassification rate של חצי היא שקולה להטלת מטבע. מכאן שבחירה של אותו המסווג פעמים ברצף לא תשפר

את החיזוי ולכן אין טעם במהלך הריצה של האלגוריתם לעשות כן.

חלק מעשי - הטיטניקחלק מעשי - הטיטניק

CodeCode

w I{y = (x )}i=1

∑N

i(t) (i) h

~t

(i) = I{y = (x )}i=1

∑N

2 ε (1 − ε )t t

w~i(t)

(i) h~t

(i)

= I{y = (x )}i=1

∑N

2 ε (1 − ε )t t

w exp −α y (x )i

(t−1) ( t(i)h~t

(i) )(i) h

~t

(i)

= I{y = (x )}i=1

∑N

2 ε (1 − ε )t t

w exp αi

(t−1) ( t) (i) h~t

(i)

=2 ε (1 − ε )t t

exp α( t)

=εt

w I{y = (x )}i=1

∑N

i

(t−1) (i) h~t

(i)

= exp α2 ε (1 − ε )t t

εt ( t)

=21

1 − εt

εt

εt

1 − εt

=21

http://localhost:8000/tutorial05/example/

11

נחזור לבעיה מהתרגול על עצי החלטה של חיזוי אלו מהנוסעים על ספינת הטיטניק שרדו על פי הנתונים שלהם ברשימת

הנוסעים. המדגם נראה כך:

pclass survived name sex age sibsp parch ticket fare cabin embarked boat

0 1 1

Allen, Miss.

Elisabeth

Walton

female 29 0 0 24160 211.338 B5 S 2

1 1 0

Allison, Miss.

Helen

Loraine

female 2 1 2 113781 151.55C22

C26S nan

2 1 0

Allison, Mr.

Hudson

Joshua

Creighton

male 30 1 2 113781 151.55C22

C26S nan

3 1 0

Allison, Mrs.

Hudson J C

(Bessie

Waldo

Daniels)

female 25 1 2 113781 151.55C22

C26S nan

4 1 1Anderson,

Mr. Harrymale 48 0 0 19952 26.55 E12 S 3

5 1 1

Andrews,

Miss.

Kornelia

Theodosia

female 63 1 0 13502 77.9583 D7 S 10

6 1 0Andrews, Mr.

Thomas Jrmale 39 0 0 112050 0 A36 S nan

7 1 1

Appleton,

Mrs. Edward

Dale

(Charlotte

Lamson)

female 53 2 0 11769 51.4792 C101 S D

8 1 0Artagaveytia,

Mr. Ramonmale 71 0 0

PC

1760949.5042 nan C nan

9 1 0Astor, Col.

John Jacobmale 47 1 0

PC

17757227.525

C62

C64C nan

השדותהשדות

בדומה למקרה של עצי ההחלטה נשתמש בשדות הבאים:

pclass: מחלקת הנוסע: 1, 2 או 3

sex: מין הנוסע

age: גיל הנוסע

sibsp: מס' של אחים ובני זוג של כל נוסע על האוניה

parch: מס' של ילדים או הורים של כל נוסע על האונייה

fare: המחיר שהנוסע שילם על הכרטיס

(C = Cherbourg; Q = Queenstown; S = Southampton) הנמל בו עלה הנוסע על האונייה :embarked

12

survived: התיוג, האם הנוסע שרד או לא

הפילוג של ערכיםהפילוג של ערכים

הפילוג של כל אחד מהשדות בעבור האנשים ששרדו והאנשים שלא:

StumpsStumps - סט המסווגים - סט המסווגים

המסווגים בהם נשתמש הינם stumps (עצים בעומק 1). למשתנים הקטגוריים נעבור על כל האפשרויות לחלק את

הקטגוריות.

בניית המסווגבניית המסווג

אחרי שנחלק את המדגם ל train-validation-test נשתמש ב train בשביל לבנות את הקומבינציה של המסווגים.

. גודל ה train set הוא 599. נאתחל את וקטור המשקלים להיות וקטור שמכיל את הערך

צעד צעד 11

stump הממושקל. נקבל שה misclassification rate האפשריים ונחפש את זה שממזער את ה stumps נעבור על כל ה

האופטימאלי הוא זה שמפצל לפי המגדר וחוזה שהנשים שרדו והגברים לא. המסווג שנקבל יהיה:

הציון על ה train set יהיה: 0.232

הציון על ה validation set יהיה: 0.226

צעד צעד 22

נצייר את הפילוג של הדגימות ממושקלות על ידי המשקלים המעודכנים:

w(0)5991

h(x) = sign 0.598 ⋅ I{sex = female}( )

13

ה stump האופטימאלי כעת יהיה זה שמפצל לפי המחלקה של הנוסעים וחוזה שנוסעים ממחלקה ראשונה שרדו והאחרים

לא. המסווג שנקבל יהיה:

הציון על ה train set וה validation set ישאר זהה.

צעד צעד 33

נצייר את הפילוג של הדגימות ממושקלות על ידי המשקלים המעודכנים:

ה stump האופטימאלי כעת יהיה זה שמפצל לפי הגיל וחוזה שנוסעים מתחת לגיל 35.5 שרדו. המסווג שנקבל יהיה:

הציון על ה train set וה validation set ישאר זהה.

h(x) = sign 0.598 ⋅ I{sex = female} + 0.31 ⋅ I{class = 1}( )

h(x) = sign 0.598 ⋅ I{sex = female} + 0.31 ⋅ I{class = 1} + 0.162 ⋅ I{age < 35.5}( )

14

המשךהמשך

אם נמשיך כך עוד 20 צעדים נקבל את המסווג הכולל אשר נותן את הביצועיים הבאים:

הציון על ה train set יהיה: 0.209

הציון על ה validation set יהיה: 0.201

הציון על ה test set יהיה: 0.189

(זה בהשוואה ל 0.205 שקיבלנו בעזרת עצי החלטה)

A d aB o o st B ag g i n g an d - 5 1*'=?

Documents

Transcript of A d aB o o st B ag g i n g an d - 5 1*'=?