يسيو يداه -...

هادي ويسي[email protected]

دانشکده علوم و فنون نوين-دانشگاه تهران

خوشه‌بندي:‌روش‌هاي‌آماري‌در‌پردازش‌زبان‌طبيعي

2Hadi Veisi ([email protected])

خوشه بندي روشK میانگین وK میانگینBisecting

الگوریتم و تحلیلمثال

روش های خوشه بندیمعیارهای ارزیابی

مدل هاي مخلوط(Mixture Model) متغیر مخفی(Latent) تخمین گر بیشینه شباهت(ML)

امید بیشینه(EM ) مدل مخلوط گاوسی(GMM) حالت کلی امید بیشینه(EM)

استفاده از الگوریتم کلی برای مدل مخلوط گاوسی



خوشه بندي(Clustering) آموزش بدون نظارت(Unsupervised)داده های آموزش دارای برچسپ نیستند

بامعنيي (خوشه ها)گروه بندي داده ها در دسته ها بین داده ها شباهتیافتن



چرا خوشه بندي؟. . .برچسپ گذاری داده ها بسیار زمان بر و پرهزینه است

و ( جمع سپاری)استفاده از اینترنت، شبکه های اجتماعی ...بازي:‌مثالESPگوگل‌براي‌برچسب‌گذاري‌عکس‌ها

وسط دو نفرنمایش یک تصویر به دو نفر و درخواست برای توصیف آن، ادامه تا تایپ دو شرح یکسان تvon Ahn, L., and Dabbish, L. Labeling Images with a Computer Game. In ACM CHI, 2004, pp 319-326

بازي‌:‌مثالVerbosityبراي‌حدس‌زدن‌‌پاسخ‌هاي‌عبارات‌منطقي‌

فر دومنمایش یک کلمه به نفر اول و درخواست از وی برای توصیف آن کلمه با جمالت مشخص برای نVon Ahn, Luis, Mihir Kedia, and Manuel Blum. "Verbosity: a game for collecting common-sense facts."

Proceedings of the SIGCHI conference on Human Factors in computing systems. ACM, 2006.

مثال‌:ReCAPTCHAبراي‌برچسب‌گذاري‌عکس‌هاي‌متون‌(براي‌‌OCR) نمایش تصاویر کلماتی که توسط دو سیستمOCR استفاده از یک تصویر )متفاوت تشخیص داده شده

(کمکی برای اطمینان از صحت جواب کاربرVon Ahn, Luis, et al. "recaptcha: Human-based character recognition via web security measures." Science

321.5895 (2008): 1465-1468.



چرا خوشه بندي؟. . . توسعه آموزش برای حالت شبه نظارتی(semi-supervised)

های آموزش اولیه یک دسته بندی کننده با داده های برچسپ دار محدود و سپس ادامه آموزش با داده حجیم بدون برچسپ

(در بررسی های اولیه)اطالع یافتن از ساختار داده ها

یافتن ویژگی های مناسب برای دسته بندی

شناسایی تغییرات تدریجی الگوها در زمان



؟(در متن)چرا خوشه بندي (به کاربرکمک به بهبود نمایش پاسخ)خوشه بندی پاسخ سیستم های بازیابی اطالعات

دسته بندی اخبار

افزایشRecall با در نظر گرفتن همه اسناد یک خوشه در جستجو ددارند هم به عنوان پاسخ برگردانده می شون« خودرو»، سندهایی که کلمه «ماشین»با جستجوی

افزایش سرعت جستجومقایسه پرسش با خوشه ها و جستجو در سندهای نزدیک ترین خوشه



مسالهفرض کنید : داده هاN نمونهDبعدی داریم :{x1, x2, . . . , xN}

برای متن، هر سند می تواند با بردار ویژگی مربوطه مانندTFتعریف شود

خوشه بندی در : هدفK خوشه با مراکز{μ1, μ2, . . ., μK }

روشK میانگین(K-Means) (می تواند هوشمندانه هم باشد)مراکز خوشه ها را به صورت تصادفی مقداردهی کنیدتا زمانی که مقدار مراکز خوشه ها تغییر می کنند، مراحل زیر را تکرار کنید

دسی؛ فاصله اقلی)با مقادیر موجود برای مراکز خوشه ها، نزدیک ترین خوشه به هر نمونه را پیدا کن(E:Expectationمرحله )-( برای متن شباهت کسینوسی

(میانگین نمونه ها)با توجه به داده های هر خوشه، مراکز خوشه را دوباره محاسبه کن( M:Maximizationمرحله)

(EM)الگوریتم امید بیشینه Expectation- Maximization



1مثال9 نمونه داده3خوشه

انتسابنمونه ها

زبه مراک

محاسبهمراکز خوشه ها



( خطا)اندازه گیري اعوجاجداده ها :N نمونهDبعدی :{x1, x2, . . . , xN}

تعدادK خوشه با مراکز{μ1, μ2, . . ., μK }

مقدارJبیانگر مربعات فاصله نمونه داده ها از مراکز خوشه ها

يافتن مقاديري براي : هدف خوشه بنديrnk وμkکهJ را کمینه کند مقدار اولیه دادن به مراکز خوشه ها(μk) سپس، دو گام تکراری پشت سر هم برای یافتن مقادیرrnk وμk

ام به nعدم تعلق نمونه/بیانگر تعلق1یا 0ام، مقادیر kخوشه



کمینه کردنJ با يافتن مقاديري برايrnk وμk

گام اول(E :) ثابت نگه داشتن مراکز خوشهμk و یافتن مقادیر بهینه برایrnk

نمونه ها مستقل هستند وJتابعی خطی است

گام دوم(M :) ثابت نگه داشتن مقدار محاسبه شده برایrnk و یافتن مراکز خوشهμk

مشتق گرفتن و برابر صفر قرار دادن

ه ها،برابر با میانگین نمونN=مخرج



نکات تکمیلي در هر تکرار، مقدارJ کاهش می یابد

(به کمینه محلی)همگرایی

رزمان ب= در هر تکرار باید فاصله تمام نمونه ها با تمام مراکز خوشه ها محاسبه شودراه های کاهش محاسبات؟

مقدار اولیهK مرکز خوشه ها، می تواند برابر باKمقدار از نمونه های تصادفی باشد مقادیر مراکز خوشه بدست آمده باKمیانگین، مقدار اولیه پارامترهای سایر روش هاست به روز کردن برخط(online )مراکز خوشه ها

به روز کردن دسته ای = روش بیان شده تاکنون(Batch) پارامتر یادگیری =ηn

درK متعلق استفقط به یک خوشهمیانگین بیان شده، هر نمونه در هر تکرار رکدام با به ه)، یک نمونه ممکن است به بیش از یک خوشه (مانند پردازش تصویر)در برخی کاربردها

متعلق باشد( یک احتمال روشFuzzy C-means

ینوسیدر متن شباهت کس-(غیر از فاصله اقلیدسی)استفاده از معیارهای فاصله دیگر

E

M



قطعه بندي و فشرده سازي تصوير -2مثال. . . بعدی مقادیر 3هر نمونه یک بردارRGBپیکسل ها



قطعه بندي و فشرده سازي تصوير-2مثالفشرده سازی؟

به جای مقادیرRGBپیکسل ها، مراکز خوشه ها و شماره خوشه آن را نگه داریم

256*256حجم داده اصلی برای یک تصویر(N ) (بیتی8مقدار 3هر پیکسل )رنگی24N=3*8*256*256=1,572,864بیت

256*256حجم داده فشرده شده برای یک تصویر(N ) (شماره خوشه=هر پیکسل)رنگی برایK=2( بیت1= دوخوشه ) 24= مراکز خوشه هاK =48بیت شماره خوشه ها =N.Log2K=1*256*256=65,536بیت 65,584= کل حجم داده

برابر 24=1,572,864/65,584= نرخ فشرده سازی!

کوانتیزه کردن برداری = این روش فشرده سازی داده(vector quantization) بردارهای کتاب کد = مراکز خوشه ها(code-book vectors)



معیارهاي داخلي(Internal Criterion)داده های داخل هر خوشه بیشترین شباهت را به هم داشته باشند(Intra-Cluster Similarity) داده های بین خوشه ها کمترین شباهت را به هم داشته باشند(Inter Cluster Similarity)

استفاده از معیارهای شباهت درون خوشه ای و بین خوشه ای

Inter-cluster distance/similarity

Intra-cluster distance/similarity



معیارهاي خارجي(External Criterion) از یک مجموعه آزمون دارای برچسپ استفاده می کند(Gold Standard)

هر داده مشخص است( خوشه های)دسته های

هر دسته در یک خوشه قرار گرفته اند یا نهاینکه داده های ارزیابی بر اساس

استفاده از آنتروپی یا معیارهای ارزیابی دسته بندی( مانندF-Measure)

معیارهاي وابسته به کاربردده استاگر هدف خوشه بندی، بهبود سرعت جستجو است، چقدر برای این منظور موفق بو هزینه استپر



شباهت درون خوشه اي(Intra-Cluster Similarity) باشندهم داشته شباهت بیشتری به داخل هر خوشه مطلوب آن است که داده های بیانگرCluster Cohesion

تابع شباهت(Similarity )می تواند هر معیاری باشد، مانند شباهت کسینوسی(فاصله‌کمتر=‌شباهت‌بيشتر‌)به‌جاي‌شباهت‌مي‌‌توان‌از‌تابع‌فاصله‌استفاده‌کرد‌

معیارSSE: Sum of Square Errorجمع مربعات فاصله بین همه نمونه های یک خوشه با مرکز آن خوشه هرچه( فاصلهSSE ) (.شباهت بیشتر)کمتر باشد، بهتر است

فاصله می تواند هر معیاری باشد، از جمله فاصله اقلیدسی

kCyx

k yxSimilrityCCohesion,

),()(

kCx

kk xDistCSSE2

),()(

نمونه های متعلق به یک خوشه

مرکز خوشه

K

k

C

i

ik

K

k

k

k

xDistCSSESSE1

||

1

2

1

),()(

تعداد نمونه ها= اندازه خوشه



شباهت بین خوشه اي(Inter Cluster Similarity) شباهت کمتری داشته باشند، بهتر استبین خوشه ها هرچه داده های .

بیانگرCluster Separation

تابع شباهت(Similarity )می تواند هر معیاری باشد، مانند شباهت کسینوسی(بيشترفاصله‌=‌کمترشباهت‌)به‌جاي‌شباهت‌مي‌‌توان‌از‌تابع‌فاصله‌استفاده‌کرد‌

j

iCyCx

ji yxSimilarityCCSeparation,

),(),(

نمونه های متعلق به دو خوشه مختلف



معیارTSS: Total Sum of Squares

( = مرکز مرکزها)محاسبه مرکز کلی خوشه ها!μ

بیانگر فاصله همه نقاط از مرکز کلی

معیارSSB: Sum of Square Between

(بزرگتر باشد بهتر است)فاصله مراکز خوشه ها از مرکز کلی

داريمTSS = SSE + SSB

،برای یک مجموعه دادهTSSثابت است اگرSSE(فاصله درون خوشه ای ) ،افزایش یابدSSB کاهش می یابد و برعکس

μμ1

μ2

μ3

N

i

ixDistTSS1

2),(

K

k

kk DistCSSB1

2),(||



مثال4نمونه داده

با یک خوشه

3یک خوشه با مرکز

با دو خوشه

4.5و 1.5دو خوشه با مراکز 3= مرکز کلی

داریمTSS = SSE + SSB

1 2 3 4 5

9)35.4(2)5.13(2

1)5.45()5.44()5.12()5.11(

10)35()34()32()31(

22

2222

2222

SSB

SSE

TSS

0)33(4

10)35()34()23()13(

10)35()34()32()31(

2

2222

2222

SSB

SSE

TSS

1 2 3 4 μ1

μ2μ

1 2 3 4 5μ



ضريب نیم رخ(Silhouette Coefficient)درون خوشه ای ترکیب شباهت(Cohesion ) و بین خوشه ای(Separation)

محاسبه برای یک نمونه داده مانندxi

محاسبه متوسط فاصله داده : 1گامxi از تمام داده های دیگر در خوشه خودش =ai

داده محاسبه متوسط فاصله : 2گامxi از تمام داده های دیگر درK-1 برای هر خوشه یک )خوشه دیگرمتوسط فاصله محاسبه شده را انتخاب K-1کمترین مقدار بدست آمده از بین (. مقدار بدست می آید

bi= کن

ضریب نیم رخ : 3گامsi=(bi-ai)/max(bi,ai)

1-داریم< si <1 (فاصله نمونه از سایر خوشه ها از خوشه خودش کمتر است)مقدار منفی حالت نامناسب استمقدار : حالت ایده آلai siو در نتیجه 0= =1

محاسبه متوسط : بررسی مناسب بودن یک روش خوشه بندیsiها برای کل داده ها



معیارهاي ديگر همبستگی(Correlation)

درون خوشه ای ترکیب شباهت(Cohesion ) و بین خوشه ای(Separation) مقدارI(C)هرچقدر بیشتر باشد، بهتر است



خالص بودن(Purity )خوشه هادسته های واقعی هر نمونه داده مشخص استین تعداد برچسپ دسته ای که بیشتر: بعد از خوشه بندی، به هر خوشه یک برچسپ بزن

داده از آن دسته در این خوشه قرار گرفته است

محاسبه درستی انتساب نمونه ها به خوشه ها محاسبه خالص بودن(Purity :) شمارش تعداد نمونه های درست هر دسته، جمع زدن آنها

(N)با هم و تقسیم بر تعداد کل نمونه ها

است( خوشه بندی بد)0و ( بهینهخوشه بندی )1مقدار خالص بودن بین (هر نمونه در یک خوشه)خوشه ها زیاد باشد، مقدار خلوص افزایش می باید وقتی تعداد

𝑃𝑢𝑟𝑖𝑡𝑦 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 =1

𝑁 𝑘=1

𝐾

max𝑗|𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗|

تعداد خوشه ها



اطالعات متقابل نرمال شده(Normalized Mutual Information. . . )

𝑁𝑀𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 =𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟) + 𝐻(𝐶𝑙𝑎𝑠𝑠 /2

𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 = 𝑘=1

𝐾

𝑗=1

𝐽

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘)𝑃(𝐶𝑙𝑎𝑠𝑠𝑗

= 𝑘=1

𝐾

𝑗=1

𝐽 |𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗|

𝑁𝑙𝑜𝑔𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗 𝑁

𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 |𝐶𝑙𝑎𝑠𝑠𝑗|

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 = − 𝑘=1

𝐾

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 = 𝑘=1

𝐾 |𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘|

𝑁𝑙𝑜𝑔|𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘|

𝑁

تعداد خوشه ها تعداد دسته ها

لاطالعات متقاب

آنتروپی



اطالعات متقابل نرمال شده(Normalized Mutual Information. . . )

مقدار اطالعات متقابلI(قبل از نرمال کردن) بیانگر افزایش میزان اطالعات ما از دسته ها با دیدن خوشه هاعددی بین صفر و یک

دانستن‌خوشه‌کمکي‌به‌افزایش‌اطالعات‌ما‌از‌دسته‌نمي‌کند=‌خوشه‌بندي‌تصادفي‌=‌صفر‌

هر‌خوشه‌دقيقا‌بيانگر‌یک‌دسته‌باشد=یک

افزایش تعداد خوشه ها(هر نمونه یک خوشه :N=K ) مقدار یک می ماند اما این خوشه بندی مناسبنرمال کردن به مقادیر مخرجمعیار ارزیابی باید به تعداد خوشه ها حساس باشد نیست

مقدارتعداد‌خوشه‌ها‌با‌افزایش‌H(Cluster)زیاد‌مي‌شود‌مقدار‌NMIکاهش‌مي‌یابد

مقدارNMI :عددی بین صفر و یک


𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟) + 𝐻(𝐶𝑙𝑎𝑠𝑠 /2



اطالعات متقابل نرمال شده(Normalized Mutual Information)-مثال17 نمونه داده داریم که متعلق به سه دسته(Class ) ، وهستند خوشه3خوشه بندی در

دسته دسته دسته P(Cluster)

1خوشه 5/17 0/17 1/17 6/17

2خوشه 1/17 1/17 4/17 6/17

3خوشه 2/17 3/17 0/17 5/17

P(Class) 8/17 4/17 5/17



اطالعات متقابل نرمال شده(Normalized Mutual Information)-مثال


𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟) + 𝐻(𝐶𝑙𝑎𝑠𝑠 /2=

0.565

1.58 + 1.52 /2= 0.365

𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟, 𝐶𝑙𝑎𝑠𝑠 = 𝑘=1

𝐾

𝑗=1

𝐽

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 ∩ 𝐶𝑙𝑎𝑠𝑠𝑗

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘)𝑃(𝐶𝑙𝑎𝑠𝑠𝑗

=5

17𝑙𝑜𝑔

517617 ∗817

+0

17𝑙𝑜𝑔

017617 ∗417

+ ⋯+3

17𝑙𝑜𝑔

317417 ∗517

+0

17𝑙𝑜𝑔

017517 ∗517

= 0.565

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 = − 𝑘=1

𝐾

𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 𝑙𝑜𝑔𝑃 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 = −6

17𝑙𝑜𝑔6

17+6

17𝑙𝑜𝑔6

17+5

17𝑙𝑜𝑔5

17= 1.58

دسته دسته دسته P(Cluster)

1خوشه 5/17 0/17 1/17 6/17

2خوشه 1/17 1/17 4/17 6/17

3خوشه 2/17 3/17 0/17 5/17

P(Class) 8/17 4/17 5/17

𝐻 𝐶𝑙𝑎𝑠𝑠 = − 𝑗=1

𝐽

𝑃 𝐶𝑙𝑎𝑠𝑠𝑗 𝑙𝑜𝑔𝑃 𝐶𝑙𝑎𝑠𝑠𝑗 = −8

17𝑙𝑜𝑔8

17+4

17𝑙𝑜𝑔4

17+5

17𝑙𝑜𝑔5

17= 1.52



آنتروپي آنتروپی هر خوشهمحاسبه

همه خوشه هاآنتروپی سپس، میانگین گیری وزن دار روی

𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 = − 𝑗=1

𝐽

𝑝𝑗𝑘𝑙𝑜𝑔𝑝𝑗𝑘

jبه دسته kاحتمال تعلق یک عضو خوشه

𝐻 = 𝑘=1

𝐾 |𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘|

𝑁𝐻 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘



معیارRand Index وF-Measure

محاسبه با بدست آوردنTP : انتساب داده شده است( حاوی نمونه های مشابه)نمونه به خوشه خودشTN : استانتساب داده شده دو نمونه غیرمشابه به دو خوشه مختلفFP : استانتساب داده شده ( غیرمشابهحاوی نمونه های )دیگری نمونه به خوشهFN : داده شده استدو نمونه مشابه به دو خوشه مختلف انتساب

محاسبه دقت انتساب

انتساب درست نمونه ها به خوشه ها( دقت)درصد بیانگر

محاسبهF-Measure

ابتداPrecision وRecallمحاسبه می شوند



در روشKمیانگین استاندارد، از ابتدا تعداد خوشه ها مشخص استدر بسیاری از مواقع اطالعی از اینکه تعداد بهینه خوشه ها چند است، نداریم روشBisecting :شروع از یک خوشه و افزایش تعداد آنها در زمان خوشه بندی

الگوريتمK میانگینBisecting

کل داده ها را در یک خوشه قرار بده: گام اولیک خوشه را برای جدا کردن : گام دوم(Split )انتخاب کن

بزرگ ترین خوشه، خوشه ای با شباهت داخلی کم و : استفاده از معیارهای مختلف...

گام سوم(Bisecting :) یافتن دو زیرخوشه با استفاده از روشKمیانگین استانداردکه گام سوم را به تعداد بارهای مشخصی تکرار کن و از میان آنها، دو خوشه ای: گام چهارم

منجر به شباهت کلی بیشینه می شوند، انتخاب کنمراحل دوم تا چهارم را تا رسیدن به تعداد مشخص خوشه تکرار کن: گام پنجم

روشK میانگینBisecting مي شودخوشه بندي سلسه مراتبي منجر به



مدل هاي مخلوط(Mixture Model) چند مدل با همدیگر( خطی)ترکیب مدل مخلوط گاوسی (: گاوسی)برای توزیع نرمال(GMM: Gaussian Mixture Model)

از پرکاربردترین روش های مدل سازی

توزیع حاشیه ای

ضریب مخلوط



تعريف متغیر مخفي(Latent). . . متغیر تصادفیK بعدیz 1و 0با مقادیر( فقط یکی ازK 0است، مابقی 1بعد)

توزیع حاشیه ایzکه و : بر حسب ضریب مخلوط

داریم و یا

بنابراین

هم نوشت و می توان به zتوزیع مخلوط گاوسی را می توان بر حسب متغیر مخفی : یعنی. استفاده کردp(x,z)از توزیع توام p(x)جای کار با توزیع حاشیه ای

کاربرد در الگوریتمEM

وط ها متغیر مخفی بیانگر مخلدر مدل های مخلوط هستند



تعريف متغیر مخفي(Latent). . . محاسبه احتمال شرطیz به شرطx

استفاده از قانون بیز

نمونه برداري

zk=1احتمال پسین

πk=احتمال پیشین

zحالت برای 3مخلوط3معادل

“داده کامل”

با p(x)توزیع zصرفنظر کردن از

“داده غیرکامل”



فرض کنید مي خواهیم مجموعهN دادهDبعديX={x1, x2,…, xN} را.با يک مخلوط گاوسي مدل کنیم

نحوه تخمین؟ تخمین گر بیشینه شباهت(ML)



با فرضi.i.dبودن، داريم لگاريتم شباهت(Log-Likelihood)

(تابع یکنوای صعودی)عدم تغییر مساله (تبدیل ضرب به جمع)ساده کردن محاسبات و فرمول ها

هدف تخمین بیشینه شباهت(ML) را بیشینه کند( شباهت)=یافتن پارامترهایی که لگاریتم شباهت

p(x|)که دارای توزیع یکسان Ɗ={x1, x2,…, xn}می خواهیم از مجموعه نمونه داده های

.را تخمین بزنیمهستند، پارامترهای



تخمین مدل مخلوط گاوسي براي دادهX={x1, x2,…, xN}

داده هاi.i.d(مستقل و دارای توزیع یکسان )هستندX یک ماتریسN×D

به ازای هر دادهxn یک متغیر پنهان ،znوجود داردZ یک ماتریسN×K

لگاريتم شباهت(Log-Likelihood)پارامترها

بردار میانگینμ

ماتریس کواریانسΣ

احتمال هر مخلوطπ

می شودمنجر به فرمول بسته و سرراست ن( صفر کردن مشتق)بهینه کردن این رابطهرابطه جمع در لگاریتم

حل؟ بهینه کردن مبتنی بر گرادیان یا روش امید بیشینه(EM)



يافتن میانگین مشتق گیری برحسبμو برابر صفر قرار دادن

يافتن کواريانس مشتق گیری برحسبΣو صفر کردن

میانگین وزن دارکلیه نقاط

تعداد نقاط مربوطامkبه خوشه

ضرب طرفین Σمعکوس در



يافتن ضريب مخلوط نیاز به شرط محدودیتاستفاده از ضریب الگرانژ

πkضرب طرفین در 1.

هاkجمع روی همه 2.



پس. . .حل شد؟ تمام؟

هنوز حل نشده است! خیر! محاسبه مقادیر پارامترها به محاسبه مقدار احتمال پسینγ(znk) وابسته است که خود

. نیازمند مقادیر پارامترهاست



الگوريتمEM (روشي تکراري براي محاسبه پارامترها)مقدار دهی اولیه پارامترها: گام اول امید ریاضی گام(E) : محاسبه مقدار احتمال پسینγ(znk)بر اساس مقادیر موجود پارامترها

گام بیشینه سازی(M :) محاسبه مقادیر پارامترها بر اساس مقدار محاسبه شده برایγ(znk)

اول محاسبه میانگینسپس محاسبه کواریانس

تکرار گام هایE وMتا همگرا شدن به مقادیر نهایی پارامترهابر اساس محاسبه مقدار لگاریتم شباهت



دو مخلوط گاوسي : مثال. . .مقدارهای اولیه پارامترها: گام اول

( تصادفی)میانگین (1برابر با )انحراف معیار

گامE : محاسبه احتمال پسینمیزان تعلق هر نمونه داده به هر کدام از خوشه ها

گامM :محاسبه مقادیر جدید پارامترها



دو مخلوط گاوسي: مثالبعد از دور دومبعد از دور پنجمبعد از دور بیستم



مشکل نقاط تکین در تخمین بیشینه شباهت(MLE )مخلوط گاوسيفرض کنید، کواریانس یکی از مخلوط های گاوسی به صورت زیر است:حال فرض کنید مقدار میانگین این مخلوط برابر با مقدار یکی از نمونه ها باشد :آنگاه داریم:

که اگرσj0باشد، مقدار فوق به بی نهایت میل می کند

قطه از بیشینه کردن لگاریتم شباهت در مواردی که یکی از مخلوط های گاوسی در یک ننمونه داده ها بیافتد، به مشکل می خورد

این مشکل در حالت تک متغیره رخ نمی دهد



مقايسهEM باK میانگین. . . سرعت همگراییEM (نیازمند تعداد دورهای بیشتر)کندتر بار محاسباتی بیشتر درEM

درK میانگین هر نمونه فقط به یک خوشه تعلق دارد اما درEM هر نمونه متناسب بابه هر خوشه ای متعلق استγ(znk)مقدار احتمال پسین

انتساب نمونه ها درK میانگین سخت(hard ) و درEM نرم(soft )استK میانگین حالت خاصی ازEMاست

درK ظر در ن( و ضریب مخلوط ها)میانگین فقط پارامتر میانگین تخمین زده می شود و کواریانسگرفته نمی شود

ها‌در‌حالت‌خاصي‌از‌مخلوط‌گاوسي‌که‌در‌آن‌انتساب‌نمونه‌ها‌سخت‌بوده‌و‌یک‌ماتریس‌کواریانس‌عمومي‌براي‌مخلوط‌.است(‌elliptical K-means)ميانگين‌بيضوي‌Kنظر‌گرفته‌مي‌شود،‌



تحلیل روابط فرض کنید ماتریس کواریانس همه مخلوط ها برابر باشد باΣk=εIآنگاه داریم ،

εمقدار ثابتی است و تخمین زده نمی شود

با فرض فوق، مقدار احتمال های پسین به صورت زیر است باε0 مقدارγ(znk) 1به( برای عنصرkام ) همگرا می شود( برای سایر عناصر)و به صفر :rnkγ(znk)

میانگین مخلوط ها هم به میانگین حاصل ازKمیانگین همگرا می شود

امیدریاضی لگاریتم شباهت هم همین طور



نکات ديگر استفاده ازKمیانگین برای مقداردهی اولیه پارامترهای میانگین

مقداردهی ضریب مخلوط ها متناسب با نمونه های متعلق به هر مخلوطمقداردهی ماتریس کواریانس متناسب با کواریانس نمونه های متعلق به هر مخلوط

الگوریتمEMممکن است پاسخ بهینه محلی را به جای بهینه عمومی پیدا کند

تخمین بیشینه شباهت(MLE ) در مواردی با مشکل نقاط تکین مواجه می شود که باید.مانع آن شد



يافتن تخمین بیشینه شباهت براي مدل هايي با متغیر مخفي: هدف

جمع روی متغیرهای مخفی در داخل تابع لگاریتممانع بیشینه سازی مستقیم حتی در صورت نمایی بودن توزیع توامp(X,Z|θ) توزیع مرزی ،p(X|θ)نمایی نخواهد بود.

داده کامل(complete ) و غیرکامل(incomplete) اگر برای مشاهدهX متغیر پنهان معادل ،Zآن وجود داشته باشد، کامل است( :X,Z) اگر فقط مشاهدهXموجود باشد، غیرکامل است.

نمونه داده هایمتغیر مخف پارامترهای مدل



داده کامل(complete ) و غیرکامل(incomplete)

در صورت کامل بودن داده، بیشینه کردنp(X,Z|θ)سرراست است. اما در عمل فقطX موجود است( وZمعادل آن را نداریم = )داده غیرکامل

نیاز به روشی برای در نظر گرفتن متغیرZاستفاده از توزیع پسین این متغیر : در محاسباتp(Z|X,θ)

(EMدر Eهمان گام )و محاسبه امید ریاضی لگاریتم شباهت داده کامل

zحالت برای 3مخلوط3معادل

“داده کامل”

با p(x)توزیع zصرفنظر کردن از

“داده غیرکامل”



داده غیرکامل : الگوريتم(incomplete :)بیشینه کردن =هدفp(x|θ)

مقدار دهی اولیه پارامترهای مدل : گام اولθ0=θold

گام دوم(E :)ر پنهانو محاسبه توزیع پسین متغیاستفاده از مقدار فعلی پارامترهای مدل

گام سوم(M :)اریتم استفاده از توزیع پسین متغیر پنهان جهت محاسبه امید ریاضی لگ(θیافتن مقادیر جدید برای )θشباهت داده کامل و بیشینه کردن آن بر حسب

دوم و و تکرار گام های( لگاریتم شباهت یا مقدار پارامترها)بررسی همگرایی : گام چهارمسوم با

نلگاریتم روی خود توزیع نه جمع آ

γ(znk)معادل



استفاده از الگوريتم کلي براي مدل مخلوط گاوسي . . .بیشینه کردن تابع شباهت: هدف

محاسبهp(X,Z|θ)

داریم و که و

پس

رمحاسبات ساده ت( = برعکس تابع اولیه)در این تابع، عبارت های لگاریتم جمع بسته می شوند



استفاده از الگوريتم کلي براي مدل مخلوط گاوسي . . .

متغیرzn یک بردارK و 1بعدی است با یک مقدارK-1مقدار صفر لگاریتم تابع شباهت معادل جمعK است( هر کدام مربوط به یک مخلوط)مقدار مستقل

ین مقادیر برای بنابراین، یافتن میانگین و کواریانس بهینه برای هر مخلوط معادل با یافتن ا.استتوزیع گاوسی است اما تنها شامل برخی از نمونه های متعلق به آن مخلوطفقط یک

،(با در نظرگرفتن محدودیت جمع برابر با یک)یافتن مقدار برای ضریب مخلوط هانسبت تعداد نمونه های متعلق به خوشه به نسبت تعداد کل نمونه ها

اما در عمل، متغیر مخفی مشخص نیست و باید بدست آید



استفاده از الگوريتم کلي براي مدل مخلوط گاوسياستفاده از توزیع پسین : یافتن متغیر مخفیp(Z|X,θ)و محاسبه امید ریاضی

داریم

پس، امید ریاضیznkمتغیر برابر است با

از این رو، امید ریاضی لگاریتم شباهت داده کامل برابر است با

بیشینه کردن تابع فوق( با ثابت گرفتنγ(znk))همان مقادیری قبلی را نتیجه می دهد ،.

اب همان احتمال پسین انتخxnام برای نمونه kخوشه



نکات تکمیلي استفاده ازEM برای تخیمن بیشینه احتمال پسین(MAP: maximum a posteriori)

در نظر گرفتن توزیع پیشینp() (پارامترها متغیرهای تصادفی هستند)پارامترها برای هدف تخمینMAP : بیشینه کردنln p(x|).p()

درEM باید مقدار ،Q(θ,θold) در گامM باQ(θ,θold)+ln p()جایگزین شود.

روشEMی ویژگی ها/عالوه بر کاربرد در کار با متغیرهای مخفی، در برخورد با داده هانیز کاربرد دارد( missing)گم شده

ه و توزیع داده های موردنظر را می توان با در نظر گرفتن توزیع توام مقادیر مشاهده شده و گم شد.محاسبه توزیع حاشیه ای روی مقادیر گم شده بدست آورد

روشEMبدتضمین می کند که در هر تکرار الگوریتم، میزان شباهت افزایش می یا.

در مواردی ممکن است گامM( یاE ) رابطه سرراست نداشته باشد =Generalized EM

به جای بیشینه کردن شباهت در گامM کافیست مقدار شباهت افزایش یابد ،

يسيو يداه -...

Documents

Transcript of يسيو يداه -...