يسيو يداه -...

53
سي وي هادي[email protected] تهراننشگاه دا- وين نونم و فنانشکده علو د

Transcript of يسيو يداه -...

Page 1: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

هادي ويسي[email protected]

دانشکده علوم و فنون نوين-دانشگاه تهران

Page 2: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

2Hadi Veisi ([email protected])

خوشه بندي روشK میانگین وK میانگینBisecting

الگوریتم و تحلیلمثال

روش های خوشه بندیمعیارهای ارزیابی

مدل هاي مخلوط(Mixture Model) متغیر مخفی(Latent) تخمین گر بیشینه شباهت(ML)

امید بیشینه(EM ) مدل مخلوط گاوسی(GMM) حالت کلی امید بیشینه(EM)

استفاده از الگوریتم کلی برای مدل مخلوط گاوسی

Page 3: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

3Hadi Veisi ([email protected])

خوشه بندي(Clustering) آموزش بدون نظارت(Unsupervised)داده های آموزش دارای برچسپ نیستند

بامعنيي (خوشه ها)گروه بندي داده ها در دسته ها بین داده ها شباهتیافتن

Page 4: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

4Hadi Veisi ([email protected])

چرا خوشه بندي؟. . .برچسپ گذاری داده ها بسیار زمان بر و پرهزینه است

و ( جمع سپاری)استفاده از اینترنت، شبکه های اجتماعی ...بازي:‌مثالESPگوگل‌براي‌برچسب‌گذاري‌عکس‌ها

وسط دو نفرنمایش یک تصویر به دو نفر و درخواست برای توصیف آن، ادامه تا تایپ دو شرح یکسان تvon Ahn, L., and Dabbish, L. Labeling Images with a Computer Game. In ACM CHI, 2004, pp 319-326

بازي‌:‌مثالVerbosityبراي‌حدس‌زدن‌‌پاسخ‌هاي‌عبارات‌منطقي‌

فر دومنمایش یک کلمه به نفر اول و درخواست از وی برای توصیف آن کلمه با جمالت مشخص برای نVon Ahn, Luis, Mihir Kedia, and Manuel Blum. "Verbosity: a game for collecting common-sense facts."

Proceedings of the SIGCHI conference on Human Factors in computing systems. ACM, 2006.

مثال‌:ReCAPTCHAبراي‌برچسب‌گذاري‌عکس‌هاي‌متون‌(براي‌‌OCR) نمایش تصاویر کلماتی که توسط دو سیستمOCR استفاده از یک تصویر )متفاوت تشخیص داده شده

(کمکی برای اطمینان از صحت جواب کاربرVon Ahn, Luis, et al. "recaptcha: Human-based character recognition via web security measures." Science

321.5895 (2008): 1465-1468.

Page 5: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

5Hadi Veisi ([email protected])

چرا خوشه بندي؟. . . توسعه آموزش برای حالت شبه نظارتی(semi-supervised)

های آموزش اولیه یک دسته بندی کننده با داده های برچسپ دار محدود و سپس ادامه آموزش با داده حجیم بدون برچسپ

(در بررسی های اولیه)اطالع یافتن از ساختار داده ها

یافتن ویژگی های مناسب برای دسته بندی

شناسایی تغییرات تدریجی الگوها در زمان

Page 6: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

6Hadi Veisi ([email protected])

؟(در متن)چرا خوشه بندي (به کاربرکمک به بهبود نمایش پاسخ)خوشه بندی پاسخ سیستم های بازیابی اطالعات

دسته بندی اخبار

افزایشRecall با در نظر گرفتن همه اسناد یک خوشه در جستجو ددارند هم به عنوان پاسخ برگردانده می شون« خودرو»، سندهایی که کلمه «ماشین»با جستجوی

افزایش سرعت جستجومقایسه پرسش با خوشه ها و جستجو در سندهای نزدیک ترین خوشه

Page 7: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

7Hadi Veisi ([email protected])

مسالهفرض کنید : داده هاN نمونهDبعدی داریم :{x1, x2, . . . , xN}

برای متن، هر سند می تواند با بردار ویژگی مربوطه مانندTFتعریف شود

خوشه بندی در : هدفK خوشه با مراکز{μ1, μ2, . . ., μK }

روشK میانگین(K-Means) (می تواند هوشمندانه هم باشد)مراکز خوشه ها را به صورت تصادفی مقداردهی کنیدتا زمانی که مقدار مراکز خوشه ها تغییر می کنند، مراحل زیر را تکرار کنید

دسی؛ فاصله اقلی)با مقادیر موجود برای مراکز خوشه ها، نزدیک ترین خوشه به هر نمونه را پیدا کن(E:Expectationمرحله )-( برای متن شباهت کسینوسی

(میانگین نمونه ها)با توجه به داده های هر خوشه، مراکز خوشه را دوباره محاسبه کن( M:Maximizationمرحله)

(EM)الگوریتم امید بیشینه Expectation- Maximization

Page 8: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

8Hadi Veisi ([email protected])

1مثال9 نمونه داده3خوشه

انتسابنمونه ها

زبه مراک

محاسبهمراکز خوشه ها

Page 9: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

9Hadi Veisi ([email protected])

( خطا)اندازه گیري اعوجاجداده ها :N نمونهDبعدی :{x1, x2, . . . , xN}

تعدادK خوشه با مراکز{μ1, μ2, . . ., μK }

مقدارJبیانگر مربعات فاصله نمونه داده ها از مراکز خوشه ها

يافتن مقاديري براي : هدف خوشه بنديrnk وμkکهJ را کمینه کند مقدار اولیه دادن به مراکز خوشه ها(μk) سپس، دو گام تکراری پشت سر هم برای یافتن مقادیرrnk وμk

ام به nعدم تعلق نمونه/بیانگر تعلق1یا 0ام، مقادیر kخوشه

Page 10: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

10Hadi Veisi ([email protected])

کمینه کردنJ با يافتن مقاديري برايrnk وμk

گام اول(E :) ثابت نگه داشتن مراکز خوشهμk و یافتن مقادیر بهینه برایrnk

نمونه ها مستقل هستند وJتابعی خطی است

گام دوم(M :) ثابت نگه داشتن مقدار محاسبه شده برایrnk و یافتن مراکز خوشهμk

مشتق گرفتن و برابر صفر قرار دادن

ه ها،برابر با میانگین نمونN=مخرج

Page 11: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

11Hadi Veisi ([email protected])

نکات تکمیلي در هر تکرار، مقدارJ کاهش می یابد

(به کمینه محلی)همگرایی

رزمان ب= در هر تکرار باید فاصله تمام نمونه ها با تمام مراکز خوشه ها محاسبه شودراه های کاهش محاسبات؟

مقدار اولیهK مرکز خوشه ها، می تواند برابر باKمقدار از نمونه های تصادفی باشد مقادیر مراکز خوشه بدست آمده باKمیانگین، مقدار اولیه پارامترهای سایر روش هاست به روز کردن برخط(online )مراکز خوشه ها

به روز کردن دسته ای = روش بیان شده تاکنون(Batch) پارامتر یادگیری =ηn

درK متعلق استفقط به یک خوشهمیانگین بیان شده، هر نمونه در هر تکرار رکدام با به ه)، یک نمونه ممکن است به بیش از یک خوشه (مانند پردازش تصویر)در برخی کاربردها

متعلق باشد( یک احتمال روشFuzzy C-means

ینوسیدر متن شباهت کس-(غیر از فاصله اقلیدسی)استفاده از معیارهای فاصله دیگر

E

M

Page 12: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

12Hadi Veisi ([email protected])

قطعه بندي و فشرده سازي تصوير -2مثال. . . بعدی مقادیر 3هر نمونه یک بردارRGBپیکسل ها

Page 13: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

13Hadi Veisi ([email protected])

قطعه بندي و فشرده سازي تصوير-2مثالفشرده سازی؟

به جای مقادیرRGBپیکسل ها، مراکز خوشه ها و شماره خوشه آن را نگه داریم

256*256حجم داده اصلی برای یک تصویر(N ) (بیتی8مقدار 3هر پیکسل )رنگی24N=3*8*256*256=1,572,864بیت

256*256حجم داده فشرده شده برای یک تصویر(N ) (شماره خوشه=هر پیکسل)رنگی برایK=2( بیت1= دوخوشه ) 24= مراکز خوشه هاK =48بیت شماره خوشه ها =N.Log2K=1*256*256=65,536بیت 65,584= کل حجم داده

برابر 24=1,572,864/65,584= نرخ فشرده سازی!

کوانتیزه کردن برداری = این روش فشرده سازی داده(vector quantization) بردارهای کتاب کد = مراکز خوشه ها(code-book vectors)

Page 14: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

14Hadi Veisi ([email protected])

معیارهاي داخلي(Internal Criterion)داده های داخل هر خوشه بیشترین شباهت را به هم داشته باشند(Intra-Cluster Similarity) داده های بین خوشه ها کمترین شباهت را به هم داشته باشند(Inter Cluster Similarity)

استفاده از معیارهای شباهت درون خوشه ای و بین خوشه ای

Inter-cluster distance/similarity

Intra-cluster distance/similarity

Page 15: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

15Hadi Veisi ([email protected])

معیارهاي خارجي(External Criterion) از یک مجموعه آزمون دارای برچسپ استفاده می کند(Gold Standard)

هر داده مشخص است( خوشه های)دسته های

هر دسته در یک خوشه قرار گرفته اند یا نهاینکه داده های ارزیابی بر اساس

استفاده از آنتروپی یا معیارهای ارزیابی دسته بندی( مانندF-Measure)

معیارهاي وابسته به کاربردده استاگر هدف خوشه بندی، بهبود سرعت جستجو است، چقدر برای این منظور موفق بو هزینه استپر

Page 16: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

16Hadi Veisi ([email protected])

شباهت درون خوشه اي(Intra-Cluster Similarity) باشندهم داشته شباهت بیشتری به داخل هر خوشه مطلوب آن است که داده های بیانگرCluster Cohesion

تابع شباهت(Similarity )می تواند هر معیاری باشد، مانند شباهت کسینوسی(فاصله‌کمتر=‌شباهت‌بيشتر‌)به‌جاي‌شباهت‌مي‌‌توان‌از‌تابع‌فاصله‌استفاده‌کرد‌

معیارSSE: Sum of Square Errorجمع مربعات فاصله بین همه نمونه های یک خوشه با مرکز آن خوشه هرچه( فاصلهSSE ) (.شباهت بیشتر)کمتر باشد، بهتر است

فاصله می تواند هر معیاری باشد، از جمله فاصله اقلیدسی

kCyx

k yxSimilrityCCohesion,

),()(

kCx

kk xDistCSSE2

),()(

نمونه های متعلق به یک خوشه

مرکز خوشه

K

k

C

i

ik

K

k

k

k

xDistCSSESSE1

||

1

2

1

),()(

تعداد نمونه ها= اندازه خوشه

Page 17: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

17Hadi Veisi ([email protected])

شباهت بین خوشه اي(Inter Cluster Similarity) شباهت کمتری داشته باشند، بهتر استبین خوشه ها هرچه داده های .

بیانگرCluster Separation

تابع شباهت(Similarity )می تواند هر معیاری باشد، مانند شباهت کسینوسی(بيشترفاصله‌=‌کمترشباهت‌)به‌جاي‌شباهت‌مي‌‌توان‌از‌تابع‌فاصله‌استفاده‌کرد‌

j

iCyCx

ji yxSimilarityCCSeparation,

),(),(

نمونه های متعلق به دو خوشه مختلف

Page 18: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

18Hadi Veisi ([email protected])

معیارTSS: Total Sum of Squares

( = مرکز مرکزها)محاسبه مرکز کلی خوشه ها!μ

بیانگر فاصله همه نقاط از مرکز کلی

معیارSSB: Sum of Square Between

(بزرگتر باشد بهتر است)فاصله مراکز خوشه ها از مرکز کلی

داريمTSS = SSE + SSB

،برای یک مجموعه دادهTSSثابت است اگرSSE(فاصله درون خوشه ای ) ،افزایش یابدSSB کاهش می یابد و برعکس

μμ1

μ2

μ3

N

i

ixDistTSS1

2),(

K

k

kk DistCSSB1

2),(||

Page 19: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

19Hadi Veisi ([email protected])

مثال4نمونه داده

با یک خوشه

3یک خوشه با مرکز

با دو خوشه

4.5و 1.5دو خوشه با مراکز 3= مرکز کلی

داریمTSS = SSE + SSB

1 2 3 4 5

9)35.4(2)5.13(2

1)5.45()5.44()5.12()5.11(

10)35()34()32()31(

22

2222

2222

SSB

SSE

TSS

0)33(4

10)35()34()23()13(

10)35()34()32()31(

2

2222

2222

SSB

SSE

TSS

1 2 3 4 μ1

μ2μ

1 2 3 4 5μ

Page 20: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

20Hadi Veisi ([email protected])

ضريب نیم رخ(Silhouette Coefficient)درون خوشه ای ترکیب شباهت(Cohesion ) و بین خوشه ای(Separation)

محاسبه برای یک نمونه داده مانندxi

محاسبه متوسط فاصله داده : 1گامxi از تمام داده های دیگر در خوشه خودش =ai

داده محاسبه متوسط فاصله : 2گامxi از تمام داده های دیگر درK-1 برای هر خوشه یک )خوشه دیگرمتوسط فاصله محاسبه شده را انتخاب K-1کمترین مقدار بدست آمده از بین (. مقدار بدست می آید

bi= کن

ضریب نیم رخ : 3گامsi=(bi-ai)/max(bi,ai)

1-داریم< si <1 (فاصله نمونه از سایر خوشه ها از خوشه خودش کمتر است)مقدار منفی حالت نامناسب استمقدار : حالت ایده آلai siو در نتیجه 0= =1

محاسبه متوسط : بررسی مناسب بودن یک روش خوشه بندیsiها برای کل داده ها

Page 21: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

21Hadi Veisi ([email protected])

معیارهاي ديگر همبستگی(Correlation)

درون خوشه ای ترکیب شباهت(Cohesion ) و بین خوشه ای(Separation) مقدارI(C)هرچقدر بیشتر باشد، بهتر است

Page 22: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

22Hadi Veisi ([email protected])

خالص بودن(Purity )خوشه هادسته های واقعی هر نمونه داده مشخص استین تعداد برچسپ دسته ای که بیشتر: بعد از خوشه بندی، به هر خوشه یک برچسپ بزن

داده از آن دسته در این خوشه قرار گرفته است

محاسبه درستی انتساب نمونه ها به خوشه ها محاسبه خالص بودن(Purity :) شمارش تعداد نمونه های درست هر دسته، جمع زدن آنها

(N)با هم و تقسیم بر تعداد کل نمونه ها

است( خوشه بندی بد)0و ( بهینهخوشه بندی )1مقدار خالص بودن بین (هر نمونه در یک خوشه)خوشه ها زیاد باشد، مقدار خلوص افزایش می باید وقتی تعداد

𝑃𝑢𝑟𝑖𝑡𝑦 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 =1

𝑁 𝑘=1

𝐾

max𝑗|𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗|

تعداد خوشه ها

Page 23: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

23Hadi Veisi ([email protected])

خالص بودن(Purity ) (مثال)خوشه ها17 نمونه داده داریم که متعلق به سه دسته(Class ) ، وهستند خوشه3خوشه بندی در

𝑃𝑢𝑟𝑖𝑡𝑦 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 = 𝑘=1

𝐾

max𝑗|𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗| =

1

𝑁5 + 4 + 3 = 0.71

max𝑗|𝐶𝑙𝑢𝑠𝑡𝑒𝑟1 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗| = 5 max

𝑗|𝐶𝑙𝑢𝑠𝑡𝑒𝑟1 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗| = 4 max

𝑗|𝐶𝑙𝑢𝑠𝑡𝑒𝑟1 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗| = 5

Page 24: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

24Hadi Veisi ([email protected])

اطالعات متقابل نرمال شده(Normalized Mutual Information. . . )

𝑁𝑀𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 =𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟) + 𝐻(𝐶𝑙𝑎𝑠𝑠 /2

𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 = 𝑘=1

𝐾

𝑗=1

𝐽

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘)𝑃(𝐶𝑙𝑎𝑠𝑠𝑗

= 𝑘=1

𝐾

𝑗=1

𝐽 |𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗|

𝑁𝑙𝑜𝑔𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗 𝑁

𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 |𝐶𝑙𝑎𝑠𝑠𝑗|

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 = − 𝑘=1

𝐾

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 = 𝑘=1

𝐾 |𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘|

𝑁𝑙𝑜𝑔|𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘|

𝑁

تعداد خوشه ها تعداد دسته ها

لاطالعات متقاب

آنتروپی

Page 25: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

25Hadi Veisi ([email protected])

اطالعات متقابل نرمال شده(Normalized Mutual Information. . . )

مقدار اطالعات متقابلI(قبل از نرمال کردن) بیانگر افزایش میزان اطالعات ما از دسته ها با دیدن خوشه هاعددی بین صفر و یک

دانستن‌خوشه‌کمکي‌به‌افزایش‌اطالعات‌ما‌از‌دسته‌نمي‌کند=‌خوشه‌بندي‌تصادفي‌=‌صفر‌

هر‌خوشه‌دقيقا‌بيانگر‌یک‌دسته‌باشد=یک

افزایش تعداد خوشه ها(هر نمونه یک خوشه :N=K ) مقدار یک می ماند اما این خوشه بندی مناسبنرمال کردن به مقادیر مخرجمعیار ارزیابی باید به تعداد خوشه ها حساس باشد نیست

مقدارتعداد‌خوشه‌ها‌با‌افزایش‌H(Cluster)زیاد‌مي‌شود‌مقدار‌NMIکاهش‌مي‌یابد

مقدارNMI :عددی بین صفر و یک

𝑁𝑀𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 =𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟) + 𝐻(𝐶𝑙𝑎𝑠𝑠 /2

Page 26: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

26Hadi Veisi ([email protected])

اطالعات متقابل نرمال شده(Normalized Mutual Information)-مثال17 نمونه داده داریم که متعلق به سه دسته(Class ) ، وهستند خوشه3خوشه بندی در

دسته دسته دسته P(Cluster)

1خوشه 5/17 0/17 1/17 6/17

2خوشه 1/17 1/17 4/17 6/17

3خوشه 2/17 3/17 0/17 5/17

P(Class) 8/17 4/17 5/17

Page 27: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

27Hadi Veisi ([email protected])

اطالعات متقابل نرمال شده(Normalized Mutual Information)-مثال

𝑁𝑀𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 =𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟) + 𝐻(𝐶𝑙𝑎𝑠𝑠 /2=

0.565

1.58 + 1.52 /2= 0.365

𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 = 𝑘=1

𝐾

𝑗=1

𝐽

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘)𝑃(𝐶𝑙𝑎𝑠𝑠𝑗

=5

17𝑙𝑜𝑔

517617 ∗817

+0

17𝑙𝑜𝑔

017617 ∗417

+ ⋯+3

17𝑙𝑜𝑔

317417 ∗517

+0

17𝑙𝑜𝑔

017517 ∗517

= 0.565

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 = − 𝑘=1

𝐾

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 = −6

17𝑙𝑜𝑔6

17+6

17𝑙𝑜𝑔6

17+5

17𝑙𝑜𝑔5

17= 1.58

دسته دسته دسته P(Cluster)

1خوشه 5/17 0/17 1/17 6/17

2خوشه 1/17 1/17 4/17 6/17

3خوشه 2/17 3/17 0/17 5/17

P(Class) 8/17 4/17 5/17

𝐻 𝐶𝑙𝑎𝑠𝑠 = − 𝑗=1

𝐽

𝑃 𝐶𝑙𝑎𝑠𝑠𝑗 𝑙𝑜𝑔𝑃 𝐶𝑙𝑎𝑠𝑠𝑗 = −8

17𝑙𝑜𝑔8

17+4

17𝑙𝑜𝑔4

17+5

17𝑙𝑜𝑔5

17= 1.52

Page 28: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

28Hadi Veisi ([email protected])

آنتروپي آنتروپی هر خوشهمحاسبه

همه خوشه هاآنتروپی سپس، میانگین گیری وزن دار روی

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 = − 𝑗=1

𝐽

𝑝𝑗𝑘𝑙𝑜𝑔𝑝𝑗𝑘

jبه دسته kاحتمال تعلق یک عضو خوشه

𝐻 = 𝑘=1

𝐾 |𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘|

𝑁𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘

Page 29: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

29Hadi Veisi ([email protected])

معیارRand Index وF-Measure

محاسبه با بدست آوردنTP : انتساب داده شده است( حاوی نمونه های مشابه)نمونه به خوشه خودشTN : استانتساب داده شده دو نمونه غیرمشابه به دو خوشه مختلفFP : استانتساب داده شده ( غیرمشابهحاوی نمونه های )دیگری نمونه به خوشهFN : داده شده استدو نمونه مشابه به دو خوشه مختلف انتساب

محاسبه دقت انتساب

انتساب درست نمونه ها به خوشه ها( دقت)درصد بیانگر

محاسبهF-Measure

ابتداPrecision وRecallمحاسبه می شوند

Page 30: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

30Hadi Veisi ([email protected])

در روشKمیانگین استاندارد، از ابتدا تعداد خوشه ها مشخص استدر بسیاری از مواقع اطالعی از اینکه تعداد بهینه خوشه ها چند است، نداریم روشBisecting :شروع از یک خوشه و افزایش تعداد آنها در زمان خوشه بندی

الگوريتمK میانگینBisecting

کل داده ها را در یک خوشه قرار بده: گام اولیک خوشه را برای جدا کردن : گام دوم(Split )انتخاب کن

بزرگ ترین خوشه، خوشه ای با شباهت داخلی کم و : استفاده از معیارهای مختلف...

گام سوم(Bisecting :) یافتن دو زیرخوشه با استفاده از روشKمیانگین استانداردکه گام سوم را به تعداد بارهای مشخصی تکرار کن و از میان آنها، دو خوشه ای: گام چهارم

منجر به شباهت کلی بیشینه می شوند، انتخاب کنمراحل دوم تا چهارم را تا رسیدن به تعداد مشخص خوشه تکرار کن: گام پنجم

روشK میانگینBisecting مي شودخوشه بندي سلسه مراتبي منجر به

Page 31: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

31Hadi Veisi ([email protected])

مدل هاي مخلوط(Mixture Model) چند مدل با همدیگر( خطی)ترکیب مدل مخلوط گاوسی (: گاوسی)برای توزیع نرمال(GMM: Gaussian Mixture Model)

از پرکاربردترین روش های مدل سازی

توزیع حاشیه ای

ضریب مخلوط

Page 32: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

32Hadi Veisi ([email protected])

تعريف متغیر مخفي(Latent). . . متغیر تصادفیK بعدیz 1و 0با مقادیر( فقط یکی ازK 0است، مابقی 1بعد)

توزیع حاشیه ایzکه و : بر حسب ضریب مخلوط

داریم و یا

بنابراین

هم نوشت و می توان به zتوزیع مخلوط گاوسی را می توان بر حسب متغیر مخفی : یعنی. استفاده کردp(x,z)از توزیع توام p(x)جای کار با توزیع حاشیه ای

کاربرد در الگوریتمEM

وط ها متغیر مخفی بیانگر مخلدر مدل های مخلوط هستند

Page 33: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

33Hadi Veisi ([email protected])

تعريف متغیر مخفي(Latent). . . محاسبه احتمال شرطیz به شرطx

استفاده از قانون بیز

نمونه برداري

zk=1احتمال پسین

πk=احتمال پیشین

zحالت برای 3مخلوط3معادل

“داده کامل”

با p(x)توزیع zصرفنظر کردن از

“داده غیرکامل”

Page 34: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

34Hadi Veisi ([email protected])

فرض کنید مي خواهیم مجموعهN دادهDبعديX={x1, x2,…, xN} را.با يک مخلوط گاوسي مدل کنیم

نحوه تخمین؟ تخمین گر بیشینه شباهت(ML)

Page 35: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

35Hadi Veisi ([email protected])

با فرضi.i.dبودن، داريم لگاريتم شباهت(Log-Likelihood)

(تابع یکنوای صعودی)عدم تغییر مساله (تبدیل ضرب به جمع)ساده کردن محاسبات و فرمول ها

هدف تخمین بیشینه شباهت(ML) را بیشینه کند( شباهت)=یافتن پارامترهایی که لگاریتم شباهت

p(x|)که دارای توزیع یکسان Ɗ={x1, x2,…, xn}می خواهیم از مجموعه نمونه داده های

.را تخمین بزنیمهستند، پارامترهای

Page 36: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

36Hadi Veisi ([email protected])

تخمین مدل مخلوط گاوسي براي دادهX={x1, x2,…, xN}

داده هاi.i.d(مستقل و دارای توزیع یکسان )هستندX یک ماتریسN×D

به ازای هر دادهxn یک متغیر پنهان ،znوجود داردZ یک ماتریسN×K

لگاريتم شباهت(Log-Likelihood)پارامترها

بردار میانگینμ

ماتریس کواریانسΣ

احتمال هر مخلوطπ

می شودمنجر به فرمول بسته و سرراست ن( صفر کردن مشتق)بهینه کردن این رابطهرابطه جمع در لگاریتم

حل؟ بهینه کردن مبتنی بر گرادیان یا روش امید بیشینه(EM)

Page 37: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

37Hadi Veisi ([email protected])

يافتن میانگین مشتق گیری برحسبμو برابر صفر قرار دادن

يافتن کواريانس مشتق گیری برحسبΣو صفر کردن

میانگین وزن دارکلیه نقاط

تعداد نقاط مربوطامkبه خوشه

ضرب طرفین Σمعکوس در

Page 38: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

38Hadi Veisi ([email protected])

يافتن ضريب مخلوط نیاز به شرط محدودیتاستفاده از ضریب الگرانژ

πkضرب طرفین در 1.

هاkجمع روی همه 2.

Page 39: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

39Hadi Veisi ([email protected])

پس. . .حل شد؟ تمام؟

هنوز حل نشده است! خیر! محاسبه مقادیر پارامترها به محاسبه مقدار احتمال پسینγ(znk) وابسته است که خود

. نیازمند مقادیر پارامترهاست

Page 40: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

40Hadi Veisi ([email protected])

الگوريتمEM (روشي تکراري براي محاسبه پارامترها)مقدار دهی اولیه پارامترها: گام اول امید ریاضی گام(E) : محاسبه مقدار احتمال پسینγ(znk)بر اساس مقادیر موجود پارامترها

گام بیشینه سازی(M :) محاسبه مقادیر پارامترها بر اساس مقدار محاسبه شده برایγ(znk)

اول محاسبه میانگینسپس محاسبه کواریانس

تکرار گام هایE وMتا همگرا شدن به مقادیر نهایی پارامترهابر اساس محاسبه مقدار لگاریتم شباهت

Page 41: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

41Hadi Veisi ([email protected])

دو مخلوط گاوسي : مثال. . .مقدارهای اولیه پارامترها: گام اول

( تصادفی)میانگین (1برابر با )انحراف معیار

گامE : محاسبه احتمال پسینمیزان تعلق هر نمونه داده به هر کدام از خوشه ها

گامM :محاسبه مقادیر جدید پارامترها

Page 42: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

42Hadi Veisi ([email protected])

دو مخلوط گاوسي: مثالبعد از دور دومبعد از دور پنجمبعد از دور بیستم

Page 43: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

43Hadi Veisi ([email protected])

مشکل نقاط تکین در تخمین بیشینه شباهت(MLE )مخلوط گاوسيفرض کنید، کواریانس یکی از مخلوط های گاوسی به صورت زیر است:حال فرض کنید مقدار میانگین این مخلوط برابر با مقدار یکی از نمونه ها باشد :آنگاه داریم:

که اگرσj0باشد، مقدار فوق به بی نهایت میل می کند

قطه از بیشینه کردن لگاریتم شباهت در مواردی که یکی از مخلوط های گاوسی در یک ننمونه داده ها بیافتد، به مشکل می خورد

این مشکل در حالت تک متغیره رخ نمی دهد

Page 44: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

44Hadi Veisi ([email protected])

مقايسهEM باK میانگین. . . سرعت همگراییEM (نیازمند تعداد دورهای بیشتر)کندتر بار محاسباتی بیشتر درEM

درK میانگین هر نمونه فقط به یک خوشه تعلق دارد اما درEM هر نمونه متناسب بابه هر خوشه ای متعلق استγ(znk)مقدار احتمال پسین

انتساب نمونه ها درK میانگین سخت(hard ) و درEM نرم(soft )استK میانگین حالت خاصی ازEMاست

درK ظر در ن( و ضریب مخلوط ها)میانگین فقط پارامتر میانگین تخمین زده می شود و کواریانسگرفته نمی شود

ها‌در‌حالت‌خاصي‌از‌مخلوط‌گاوسي‌که‌در‌آن‌انتساب‌نمونه‌ها‌سخت‌بوده‌و‌یک‌ماتریس‌کواریانس‌عمومي‌براي‌مخلوط‌.است(‌elliptical K-means)ميانگين‌بيضوي‌Kنظر‌گرفته‌مي‌شود،‌

Page 45: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

45Hadi Veisi ([email protected])

تحلیل روابط فرض کنید ماتریس کواریانس همه مخلوط ها برابر باشد باΣk=εIآنگاه داریم ،

εمقدار ثابتی است و تخمین زده نمی شود

با فرض فوق، مقدار احتمال های پسین به صورت زیر است باε0 مقدارγ(znk) 1به( برای عنصرkام ) همگرا می شود( برای سایر عناصر)و به صفر :rnkγ(znk)

میانگین مخلوط ها هم به میانگین حاصل ازKمیانگین همگرا می شود

امیدریاضی لگاریتم شباهت هم همین طور

Page 46: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

46Hadi Veisi ([email protected])

نکات ديگر استفاده ازKمیانگین برای مقداردهی اولیه پارامترهای میانگین

مقداردهی ضریب مخلوط ها متناسب با نمونه های متعلق به هر مخلوطمقداردهی ماتریس کواریانس متناسب با کواریانس نمونه های متعلق به هر مخلوط

الگوریتمEMممکن است پاسخ بهینه محلی را به جای بهینه عمومی پیدا کند

تخمین بیشینه شباهت(MLE ) در مواردی با مشکل نقاط تکین مواجه می شود که باید.مانع آن شد

Page 47: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

47Hadi Veisi ([email protected])

يافتن تخمین بیشینه شباهت براي مدل هايي با متغیر مخفي: هدف

جمع روی متغیرهای مخفی در داخل تابع لگاریتممانع بیشینه سازی مستقیم حتی در صورت نمایی بودن توزیع توامp(X,Z|θ) توزیع مرزی ،p(X|θ)نمایی نخواهد بود.

داده کامل(complete ) و غیرکامل(incomplete) اگر برای مشاهدهX متغیر پنهان معادل ،Zآن وجود داشته باشد، کامل است( :X,Z) اگر فقط مشاهدهXموجود باشد، غیرکامل است.

نمونه داده هایمتغیر مخف پارامترهای مدل

Page 48: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

48Hadi Veisi ([email protected])

داده کامل(complete ) و غیرکامل(incomplete)

در صورت کامل بودن داده، بیشینه کردنp(X,Z|θ)سرراست است. اما در عمل فقطX موجود است( وZمعادل آن را نداریم = )داده غیرکامل

نیاز به روشی برای در نظر گرفتن متغیرZاستفاده از توزیع پسین این متغیر : در محاسباتp(Z|X,θ)

(EMدر Eهمان گام )و محاسبه امید ریاضی لگاریتم شباهت داده کامل

zحالت برای 3مخلوط3معادل

“داده کامل”

با p(x)توزیع zصرفنظر کردن از

“داده غیرکامل”

Page 49: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

49Hadi Veisi ([email protected])

داده غیرکامل : الگوريتم(incomplete :)بیشینه کردن =هدفp(x|θ)

مقدار دهی اولیه پارامترهای مدل : گام اولθ0=θold

گام دوم(E :)ر پنهانو محاسبه توزیع پسین متغیاستفاده از مقدار فعلی پارامترهای مدل

گام سوم(M :)اریتم استفاده از توزیع پسین متغیر پنهان جهت محاسبه امید ریاضی لگ(θیافتن مقادیر جدید برای )θشباهت داده کامل و بیشینه کردن آن بر حسب

دوم و و تکرار گام های( لگاریتم شباهت یا مقدار پارامترها)بررسی همگرایی : گام چهارمسوم با

نلگاریتم روی خود توزیع نه جمع آ

γ(znk)معادل

Page 50: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

50Hadi Veisi ([email protected])

استفاده از الگوريتم کلي براي مدل مخلوط گاوسي . . .بیشینه کردن تابع شباهت: هدف

محاسبهp(X,Z|θ)

داریم و که و

پس

رمحاسبات ساده ت( = برعکس تابع اولیه)در این تابع، عبارت های لگاریتم جمع بسته می شوند

Page 51: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

51Hadi Veisi ([email protected])

استفاده از الگوريتم کلي براي مدل مخلوط گاوسي . . .

متغیرzn یک بردارK و 1بعدی است با یک مقدارK-1مقدار صفر لگاریتم تابع شباهت معادل جمعK است( هر کدام مربوط به یک مخلوط)مقدار مستقل

ین مقادیر برای بنابراین، یافتن میانگین و کواریانس بهینه برای هر مخلوط معادل با یافتن ا.استتوزیع گاوسی است اما تنها شامل برخی از نمونه های متعلق به آن مخلوطفقط یک

،(با در نظرگرفتن محدودیت جمع برابر با یک)یافتن مقدار برای ضریب مخلوط هانسبت تعداد نمونه های متعلق به خوشه به نسبت تعداد کل نمونه ها

اما در عمل، متغیر مخفی مشخص نیست و باید بدست آید

Page 52: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

52Hadi Veisi ([email protected])

استفاده از الگوريتم کلي براي مدل مخلوط گاوسياستفاده از توزیع پسین : یافتن متغیر مخفیp(Z|X,θ)و محاسبه امید ریاضی

داریم

پس، امید ریاضیznkمتغیر برابر است با

از این رو، امید ریاضی لگاریتم شباهت داده کامل برابر است با

بیشینه کردن تابع فوق( با ثابت گرفتنγ(znk))همان مقادیری قبلی را نتیجه می دهد ،.

اب همان احتمال پسین انتخxnام برای نمونه kخوشه

Page 53: يسيو يداه - dsp.ut.ac.irdsp.ut.ac.ir/en/wp-content/uploads/2015/09/StatNLP-Lecture5-Clustering.pdf · يدنبهشوخ:يعيبطنابزشزا{رپر{يرامآياهشور

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

53Hadi Veisi ([email protected])

نکات تکمیلي استفاده ازEM برای تخیمن بیشینه احتمال پسین(MAP: maximum a posteriori)

در نظر گرفتن توزیع پیشینp() (پارامترها متغیرهای تصادفی هستند)پارامترها برای هدف تخمینMAP : بیشینه کردنln p(x|).p()

درEM باید مقدار ،Q(θ,θold) در گامM باQ(θ,θold)+ln p()جایگزین شود.

روشEMی ویژگی ها/عالوه بر کاربرد در کار با متغیرهای مخفی، در برخورد با داده هانیز کاربرد دارد( missing)گم شده

ه و توزیع داده های موردنظر را می توان با در نظر گرفتن توزیع توام مقادیر مشاهده شده و گم شد.محاسبه توزیع حاشیه ای روی مقادیر گم شده بدست آورد

روشEMبدتضمین می کند که در هر تکرار الگوریتم، میزان شباهت افزایش می یا.

در مواردی ممکن است گامM( یاE ) رابطه سرراست نداشته باشد =Generalized EM

به جای بیشینه کردن شباهت در گامM کافیست مقدار شباهت افزایش یابد ،