یدنب هشوخ نآ یاه شور عاونا...

13
1 تسو تؼالی خوشه بندیع روش های آن انوا وظین ت ی تیذ صحراتیيح : 923827315 ستاد هحترم: ااى راد می دمتر هحوذػلی آقایذ اسف92

Transcript of یدنب هشوخ نآ یاه شور عاونا...

1

تؼالیتسو

خوشه بندی

و انواع روش های آن

: حیذ صحراتیيتی تظین

923827315

آقای دمتر هحوذػلی میاى راد استاد هحترم:

92 اسفذ

2

مطالبفهرست

3........................................................................................................... هقذه -2

4............................................................................................ یتذ خض فیتؼر -3

- 4.................................................................................................................. یتذ خض یایهسا 3-1

K-MEANS ..............................................................................5 یخضثذ رش -4

- K-Means .............................................................................................7 تذی خض رش هطنالت 4-1

SOM ......................................................................................7 یخضثذ رش -5

- 9.............................................................................................................مي( ییال) ی ضثن 5-1

11 ...................................................................................یهراتث سلسل یخضثذ -6

- 11....................................................................................................... مذ نیتقس یا پاییي ت تاال 6-1- 11..................................................................................................... ضذ هترامن یا تاال ت پاییي 6-2

12 ................................................................................. یهراتث سلسل یا الگریتن -8

13 .......................................................................................................... هاتغ -7

3

مقدمه -1

الگ یکی اس ضاخص یکی اس تتزیي تذی ای تسیار هن در دیای اعالػات ستذ. خضداد

تطخیص آىا ارائ ضذ است. لاتلیت ایی است ک تزای کار تا داد رش در رد ت فضای داد

است. الیي ا تزای کار تا دیای ػظین دادتزیي هکایشمآل تذی را یکی اس ایذ ، خضا آىساختار ا کزد

اهزس تا پیطزفت 5391ی ی آى در د تار ایذ جص ارائ ضذ ای ػظیوی ک در آى پذیذ آهذ، ا

جث خض ای یادگیزی تذی یکی اس ضاخ خض ای هختلفی حضر یافت است. تذی در کارتزدا

ا ت دست تاضذ فزایذ خدکاری است ک در عی آى، و تذى ظارت هی ایی ک اػضای آى هطات

.ضدگفت هی ا خض ضذ ک ت ایي دست تاضذ تمسین هی یکذیگز هی

تا اضیاء هجد در تاضذ ک در آى اضیاء تا یکذ ای اس اضیاء هی تاتزایي خض هجوػ د یگز هطات ت

دى هییای دیگز غیزهطات ه خض تاى هؼیارای هختلفی را در ظز گزفت هثال تاضذ. تزای هطات ت

را تزای خض هی اضیائی را ک ت یکذیگز شدیک تاى هؼیار فاصل لزار داد تز ستذ تذی هرد استفاد

یش گفت تذی، خض گزفت ک ت ایي ع خضرا ت ػاى یک خض در ظز تذی هثتی تز فاصل

ضکل راست ( و5ضد. ت ػاى هثال در ضکل ) هی ای ردی در سوت چپ ت چار خض هطات

و ای ردی ت یکی اس خض ضذ. در ایي هثال ز یک اس و تمسین هی جد ای ا تؼلك دارد

.یک خض تاضذ هتؼلك ت تیص اسذارد ک

از هجوػ لی یر یتذخض اػوال از یاو (:1ضنل) اداد

4

نا، جول ایني رش اس .را هرد تزرسی لزار دینتذی ای هختلف خضرشلصذ دارین در ایجا

.است هزاتثی سلسل K-Means SOMتذی خض

تعریف خوشه بندی -2

دری ز خض ایی ست، ک اػضا خضای اس اضیاء ت تذی هجوػفزایذ دست ،تذیخض

-ا داضت تاضذ. اس خضتزیي ضثات را ت یکذیگز کوتزیي ضثات را سثت ت اػضا سایز خض تیص

ضد.تذی در ػلم هختلفی هاذ هذسی، پشضکی، ػلم اجتواػی تاساریاتی استفاد هی

در نز خضن .تاضذ هی ت ام خض ایی کالسیا اضیا ت سیز ا داد تفکیکتذی فزایذ خض

رسذ ایی ک ت ظز هیرسذ ضثات تیطتزی ت وذیگز دارذ دادگیزذ ک ت ظز هیایی لزار هی داد

.گیزنننذضنننثات کوتنننزی سنننثت تننن یکنننذیگز دارنننذ،در خضننن نننای هختلنننف لنننزار هنننی

ضد ک تزدارنا داد هی تؼذی وایص Nا، اضیا تا ماعی در فضای جت تجشی تحلیل خض

د ذف هسال یش دستطاى خض ست ک اضیا ز خضن Kت داد Nتذی دذ خصیص اضیا ت

تزیي ضثات را ت یکذیگز داضت تاضذ. تیص

-1-2 مزایای خوشه بندی

آیذ. خض خض تذی یکی اس پزکارتزدتزیي هسائل در سهی ش هصػی ت ضوار هیاهزس

-... اس اویت خاصی تز هتی، هماالت ای پیکزهتى تحت ب، تذی ت ػلت رضذ رس افشى حجن

دست ای جستج آهذ اس جستجی هاضیي تاذ در تثد تایج ت دستخض تذی هی خردار است.

تذی اعالػات، هؤثز الغ ضد.

5

اس اعالػنات تزای استفاد ی راتز دستزسی هاسةتز ى جستجی ساداهکا خض تذی هاسة

. کذ هیفزان

K-Means بندیروش خوشه -3

ای رش اس تسیاری تزای پای رش یک سادگی آى رغن ػلی رش ایي هانذ ) دیگنز تنذی خضن

ایني تنزای . ضند هی هحسب هسغح احصاری رضی رش ایي. ضد هی هحسب( فاسی تذی خض

تؼنذادی تنزای ک ستذ تکزاری رالی دارای ا آى و لی. است ضذ تیاى هختلفی ای ضکل الگریتن

ا سؼی در تخویي هارد سیز دارذ: اتت اس خضث

ماط هیاگیي واى الغ در ماط ایي ک ا خض هزاکش ػاى ت ماعی آردى ت دست

.ستذ خض ز ت هتؼلك

را خض هزکش آى تا فاصل کوتزیي داد ک آى خض یک ت داد و ز دادى سثت

.تاضذ دارا

ای هرد یاس ماعی ت صرت تصادفی ای اس ایي رش اتتذا ت تؼذاد خض در ع ساد

ا تا تج تا هیشاى شدیکی )ضثات( ت یکی اس ایي ضد. سپس در داد اتخاب هی

ضد. تا تکزار ای جذیذی حاصل هی تذیي تزتیة خض ضذ هی ا سثت داد خض

ا ا هزاکش جذیذی تزای آى گیزی اس داد تاى در ز تکزار تا هیاگیي ویي رال هی

هجذادأ داد ای جذیذ سثت داد. ایي رذ تا سهای اداه ا را ت خض هحاسث کزد

د. تاتغ سیز ت ػاى تاتغ ذف هغزح ا حاصل ط کذ ک دیگز تغییزی در داد پیذا هی

است.

6

( )

2

1 1

|| ||

jk n

i j

j i

J X C

تیي ماط است|| : هؼیار فاصل

( )j

iXی : هزکش خضj.ام است

تزای ایي رش هحسب هی ضد: الگریتن سیز الگریتن پای

i. در اتتذا K (2هغاتك ضکل) ضذ ا اتخاب هی خضمغ ت ػاى ت ماط هزاکش.

iiت خض را داراست، سثت داد . ز و داد تا آى داد ضد هی ای ک هزکش آى خض کوتزیي فاصل

.(9هغاتك ضکل)

iii. ا تزای ز خض یک مغ جذیذ ت ػاى هزکش هحاسث ا ت یکی اس خض پس تؼلك توام داد

. )هیاگیي ماط هتؼلك ت ز خض((4ل)هغاتك ضک ضد هی

.ا حاصل طد ضذ تا سهای ک دیگز یچ تغییزی در هزاکش خض تکزار هیii iii هزاحل

هرمس ت صرت 3(: اتخاب 2ضنل) (k=3تصادفی)

مالستر تا استفاد 3تذی : خض(3ضنل)

هرمسای الی

جذیذ: هحاسث هرمسای (4ضنل)

7

داد تیي د تذی تسیار هن ست. فاصل ک واى هؼزف ػذم تجاس ا در خض هحاسث فاصل

ا را تطکیل دین. تا هحاسث فاصل تیي د ای حزکت کین خض کذ در فضای داد است ت ها کوک هی

ا را در یک خض لزار ساس آىتاى فویذ ک چمذر ایي د داد ت ن شدیک ستذ تز ایي ا داد هی

...تذین. تاتغ ریاضی هختلفی تزای هحاسث فاصل جد دارذ. هاذ فاصل اللیذسی، ویگ

-K-Means 3-1 بندی مشکالت روش خوشه

پذیزی الگریتن تاال تضویي ضذ است لی جاب ایی آى احنذ ثند رغن ایک خاتو ػلی

تاضذ. ت عر کلی رش ساد تاال دارای هطکالت سیز است. ویوار جاتی تی

اتستگی دارد. جاب ایی ت اتخاب خض ای الی

ا جد ذارد. رالی هطخص تزای هحاسث الیة هزاکش خض

ای صفز ضذ رای تزای تغییز ای هتؼلك ت خض اگز در تکزاری اس الگریتن تؼذاد داد

ی رش جد ذارد. اداهتثد

ا اس اتتذا هطخص است. اها هؼوال در در ایي رش فزض ضذ است ک تؼذاد خض

تاضذ. ا هطخص وی کارتزدای سیادی تؼذاد خض

SOMبندی روش خوشه -4

ضند هثتنی تنز د، اس رش یادگیزی رلاتتی تزای آهسش اسنتفاد هنی ی خدساسهاى در ضثک

ا در هغش اسناى در ناحی هختلنف عنری اصی اس هغش اساى تسؼ یافت است. سللای خ هطخص

ضنذ. دار ارائ هنی ای هحاسثاتی هزتة هؼی اذ ک در احی حسی هختلف، تا مط دی ضذ ساسهاى

8

تزای و، ردی هزتثظ دار ت احی هختلف یی ... تا یک تزتیة ذسی هؼیضا–ای حسی الهس

ستذ.

د ت لحاػ ساختاری ت چذ دست تمسین هیای خدساسهاى ضثک ی ضذ ک در اداهن تنا ضنثک

ضین. ی( کي آضا هی )الی

ای ػصثی یاخت ی ػصثی تذى ظارت است ک اس پی( یک ضثکSOMمص خدساسهاذی )

رى دارای یک تزدار سى تؼذی است nدر یک ساختار گزیذ هظن تا اتؼاد پاییي تطکیل ضذ است. ز

تزاتز تا اتؼاد تزدارای ردی است. تزدارای سى)سیاپس nک در آى ی ردی را تن الینة نا( الین

رى ضد( هتصل هی لاتتی اهیذ هیخزجی) ک مط یا الیة ر ا تسظ یک تناتغ وسنایگی تن کذ.

تزیي ضنثات، نری در الینة ( . ز تزدار ردی، تز اساس تیص 1اذ)هغاتك ضکل یکذیگز هتصل ضذ

ی اللیذسی تیي د کذ. ضثات هؼوال تز اساس فاصل ضد، فؼال هی خزجی را ک سلل تزذ خاذ هی

ضد. گیزی هی دار اذاستز

(2 )

2

,

1

|| ||n

j i j i

i

D W X

د، xi ،iک در آى را تن نرى iتنزدار سنی اسنت کن ردی Wi,jاهیي تزدار ردی ت

هتصل هی jخزجی تزدار سى ارتثاعی xiی ردی یي وی اللیذسی تحاصل جوغ فاصل Djکذ

ضد. اهیي سلل خزجی است ک یک احذ مط اهیذ هی jآى ت

ایي است ک 5گیزی تزداری ای اذاس تا سایز الگریتن SOMتزیي تفات الگریتن آهسضی هن

ای سلل ىتزیي اغثاق )سلل ػصثی تزذ(، س ػال تز سى ارتثاعی احذ دارای تیص ی ای وسنای

ن ضذ. هطاذات شدیک ت ن در فضای ردی، د احذ شدیک ت رسرسای هی سلل تزذ یش ت

1 vector quantization

9

ای سى ت حالت پایذاری تزسذ دیگنز ی آهسش تا سهای ک تزدارساسذ. هزحل در مط را فؼال هی

یاتذ. تغییز کذ، اداه هی

(9 ). . , .(X )new old old

i j i j i j i i jW W h W

تزدار سى ارتثاعی تن xiتزدار سى لثلی تیي تزدار ردی Wi,joldی ردی، و x.iک

رسرسای ضذ تیي سلل تزدار سى ت Wi,j newتاتغ وسایگی hi,jاست. jسلل ػصثی خزجی

است. j سلل خزجی iردی

ی ردی جد تذی خدمار ر تردار داد ی گاضت، اهناى ردی آهزش، یؼی در هرحلپس از هرحل

ذ داضت. خا

-1-4 ی( کوهوننی )الیه شبکه

تذی تی ظارت ترر قثل از آى ت هثاحث خض 1962ای مي ت سالی قاى یادگیری ریط

رای مریستف اذرهالستره قای هؼرفی ود هثتی تر ایي ایذ م هجوع زى 73ی گردد. در د هی

اذ تایستی ثاتت تاضذ. هثرای ایري ایرذ ا در احذای هختلف م از یل خرجی آهذ هرتط ت ردی

ای هختلف هتصل حذد تدى هاد ضیویایی هجد در خرجی هرد تحث تقسین ضذى آى تیي ردیه

ت ایي خرجی تد.

ضثن ساختار (:5ضنل)

خد قطة ػصثی

13

ضد را ارائ استفي گراسثره ایذ هالستره را رد مرد قای م در ایي تخص هغرح هی 1976در سال

م رذ ایري قراى یرادگیری تایسرتی ی هن رسیذ مي ت ایي تیج 73ی ود. اها در ااخر د

دذ، را تطنیل هی ای ن احتوال یل تاتغ چگالی احتوال ثاتت م ارائ wiساختي یل هجوػ تردار

تاضذ.

تا تاتغ چگالی احتوال Xتایستی عری خد را تغییر دذ م ترای ر تردار ردی wiیؼی تردارای

:داضت تاضین

(4 )

mXp

1)(

,X ت wi تریي اسرت سدیل

i=1,2,...,mت ازا

دیي دسری 1987مرد، در سال ایي ایذ ترای تاتغ چگالی احتوال یناخت ت عر هغلب مار هی

ی قص هن مي در تغییری در قاى مي ایجاد ود م هطنل هستر را حل مرد اها ز ت اسغ

گیذ. ایي زهی، قاى را قاى مي هی

را مي د تؼذی ی ضثن(: هذل ساختاری 7ضنل) مي یل تؼذی ی ضثن( هذل ساختاری 6ضنل)

دذ.وایص هی

(: هذل ساختاری ضثن ی 7ضنل) مي د تؼذی

ی مي یل هذل ساختاری ضثن: (6ضنل)

تؼذی

11

بندی سلسله مراتبیخوشه -5

ا ت مارهی رد. قاط تذی داد تذی یا دستتذی سلسل هراتثی تنینی است م در گر خض

.گیرذ س هؼیار ضثات قرار هیاسا تر یای دست زیر ا دست ا در ایي رش در داد

سلسل ساختاری ا ای ایی تر اساس هیساى ػوهیت آى تذی سلسل هراتثی، ت خض در رش خض

(dendogram) ضد. ت ایي درخت سلسل هراتثی دذگرام درختی سثت داد هی صرت ت هؼوال هراتثی،

Greedy) ای حریصا هراتثی هؼوال تر اساس الگریتن تذی سلسل خضای گیذ. رش مار تنیل هی

Algorithms) ای تیگی هرحل(stepwise-optimal) تذی تر اساس ساختار ای خض است. رش

:ضذ زیر تقسین هی یا هؼوال ت د دست سلسل هراتثی تلیذی تسظ آى

-1-5 ندهکن یا تقسيم باال به پایين

ضذ سپس در عی یل فرایذ ا ت ػاى یل خض در ظر گرفت هی در ایي رش اتتذا توام داد

ضذ ایري ای هجسایی ضنست هی ایی ضثات موتری ت ن دارذ ت خض تنراری در ر هرحل داد

.مذ ایی م دارای یل ػض ستذ اداه پیذا هی رال تا رسیذى ت خض

-2-5 یا متراکم شونده ایين به باالپ

ضد در عی فرایذی تنراری در ای هجسا در ظر گرفت هی ا ت ػاى خض در ایي رش اتتذا ر داد

یا ایی م ضثات تیطتری تا ینذیگر تا ینذیگر ترمیة هی ر هرحل خض ضذ تا در ایت یل خض

حاصل ضد تذی سلسل هراتثی هترامن ضذ رایج ای خض الگریتن از ااع .تؼذاد هطخصی خض

ام ترد. تفات Single-Linkage، Average-Linkage Complete-Linkage ای تاى از الگریتن هی

ای تؼذ ضد. م در تخص ا هرتط هی ا ت ح هحاسث ضثات تیي خض اصلی در تیي توام ایي رش

ذ ضذت تطریح ر یل پر خا .داخت

12

‌‌5مراتبی سلسله های الگوریتم

ی هؼیارا ت تجسیتذی است م در اتتذا تا در ظر گرفتي ترخی ای خض از الگریتن یع دیگر

تذی الی ایجاد ای اجواع تقسین تغییراتی در دست پردازد سپس تا رش هیا سلسل هراتثی داد

ای سلسل هراتثی ت د گ در ایي گر جای دارذ. الگریتن BIRCH CHREای وایذ. الگریتن هی

تجویؼی،تذی در خض )تاال ت پاییي(. 3تقسیوی تاال( )پاییي ت 2تجویؼیای ضذ. الگریتن تقسین هی

ای هجد ی تؼذاد داد ا در اتتذا ت اذاز تؼذاد خضضد ) داد ضرع هی یلایی تا مار تا خض

جد تی جذیذی را ی هاسة تا ن ترمیة ضذ خض تاضذ(. در ر هرحل د یا چذ خض هی

ضرع هی ػول خضوی تقسیتذی در خض رذ.آ هی ضد. ایي خض ت صرت تذی تا یل خض

تقسین هی مذ. تذی اداه پیذا هی گردد ت ویي ترتیة ػول خض تازگطتی ت د یا چذ خض

k ضرط پایای دارین ایي ضرط اغلة رسیذى ت یل تای تاال ها یاز ترای ر د ع از الگریتن خض

تاضذ. هی

است ینی از ا خض را ت ضثات یا ػذم ضثات ػاص ادغام یا تقسین خض تریي هناتست

ی د زیر هجوػ از یل خض )ترای فاصل ،ی تیي ػاصر د خض تاضذ. یؼی فاصل ،ای ضثات هالك

گردد. یا( هحاسث ه ى زیرهجوػ از خضآر ترمیة دتایی از ػاصر

1 Hierarchiacal Algoritm 2 agglomorative

3 divise

13

منابع -6

1- Free and Commercial Resources for OCR “http://farsiocr.ir”

2- K -means Clustering via Principal Component Analysis “Chris Ding,Xiaofeng He”

3- K-Means: “en.wikipedia.org/wiki/K-means_clustering"

4- Unsupervised Learning” Dr reza ebrahimpoor- lecture Ch 5 ”

5- http://en.wikipedia.org/wiki/Self-organizing_map “Self-Organizing_map”