Big Data and Machine Learning Workshop - Day 2 @ UTACM

142
1 ۱۳۹۵ ﺗﺎﺑﺴﺘﺎ ﺻﺪﯾﻘﯽﻣﯿﺮ ﻣﺎﺷﯿﻦ ﮔﯿﺮ ﯾﺎ ﺑﺰ ﻫﺎ ﻫﺎﺑﺮ ﮐﺎ ﺑﺮ ﮔﺬ@amirsedighi :ﺘﺮ4 ﺗﻮ:ﯾﻤﯿﻞ [email protected] (Unsupervised) ﻧﻈﺎ ﺑﺪ ﻫﺎ ﻣﺎﺷﯿﻦ، ﮔﯿﺮ ﯾﺎ-

Transcript of Big Data and Machine Learning Workshop - Day 2 @ UTACM

Page 1: Big Data and Machine Learning Workshop - Day 2 @ UTACM

1

تابستانن ۱۳۹۵

اامیر صدیقی

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین

@amirsedighi تو4تر: [email protected]اایمیل:

(Unsupervised) ررووزز ددوومم - یاددگیریی‌ماشین، ررووشش‌هایی بدوونن‌نظاررتت

Page 2: Big Data and Machine Learning Workshop - Day 2 @ UTACM

2

قبل اازز شرووععگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

UTACM-BDML :ددرر طولل ددووررهه با هم اازز طریق تلگراامم ددرر ااررتباطط هستیم

ااسالید‌ها بعد اازز هر جلسه میرهه رروویی ااسالیدشر وو میتونید دداانلودد کنید:

فرضض ما ااینه که با برنامه‌نویسی آآشنا هستید، ددرر هر جلسه کمی ددست به آآچارر می‌شویم

فرضض ما ااینه که سریع یادد می‌گیرید

لطفا موبایل‌ها رروو خاموشش یا ساکت کنید

لطفا صندلی‌هایی نزددیک ددرر کالسس رروو براایی ااوونایی که ااحتماال ددیرتر می‌ررسن خالی بذااررین

یک تمرین کوچک براایی تویی خونه ددااررید که اانجامم میدین وو قبل اازز کالسس بعدیی براامم اایمیل می‌کنید

ززمانن کالسس به همه بچه‌ها تعلق ددااررهه. پرسش‌هایی غیر بحراانی رروو بعد اازز کالسس یا ددرر گرووهه مطرحح کنیمددرر طولل کالسس کو4ز‌هایی کوچک دداارریم که ددرر ااسالید با Q مشخص شدهه‌ااند

ااگر ووااژژهه‌اایی بکارر می‌برمم که نامانوسس بگوشش میرسه، لطفا ررااهنما4م کنید

slideshare.net/amirsedighi

Page 3: Big Data and Machine Learning Workshop - Day 2 @ UTACM

اامیر صدیقی

موسس:

3

معرفی

http://recommender.ir http://helio.ir http://commentum.ir

@amirsedighi تو4تر: [email protected]اایمیل:

Page 4: Big Data and Machine Learning Workshop - Day 2 @ UTACM

4

مقدمهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریی بدوونن نظاررتت

Page 5: Big Data and Machine Learning Workshop - Day 2 @ UTACM

5

آآنچه ددیدیم…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریی بانظاررتت

Page 6: Big Data and Machine Learning Workshop - Day 2 @ UTACM

6

یاددگیریی ماشین بدوونن ‌نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

The algorithms used to do this are very different from those used for supervised learning.

Page 7: Big Data and Machine Learning Workshop - Day 2 @ UTACM

7

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 8: Big Data and Machine Learning Workshop - Day 2 @ UTACM

8

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

Page 9: Big Data and Machine Learning Workshop - Day 2 @ UTACM

9

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

Page 10: Big Data and Machine Learning Workshop - Day 2 @ UTACM

10

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

پاسخ صحیح

Page 11: Big Data and Machine Learning Workshop - Day 2 @ UTACM

11

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

پاسخ صحیح

یافتن تابعی براایی پیش‌بینی ووضعیت

Page 12: Big Data and Machine Learning Workshop - Day 2 @ UTACM

12

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 13: Big Data and Machine Learning Workshop - Day 2 @ UTACM

13

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

Page 14: Big Data and Machine Learning Workshop - Day 2 @ UTACM

14

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

نا آآشنا هستند

Page 15: Big Data and Machine Learning Workshop - Day 2 @ UTACM

15

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

نا آآشنا هستند

پاسخ صحیح؟؟؟

Page 16: Big Data and Machine Learning Workshop - Day 2 @ UTACM

16

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

نا آآشنا هستند

پاسخ صحیح؟؟؟

یافتن رراابطه وو ساختارر ددرر مجموعه‌ددااددهه

Page 17: Big Data and Machine Learning Workshop - Day 2 @ UTACM

17

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 18: Big Data and Machine Learning Workshop - Day 2 @ UTACM

18

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 19: Big Data and Machine Learning Workshop - Day 2 @ UTACM

19

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 20: Big Data and Machine Learning Workshop - Day 2 @ UTACM

20

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 21: Big Data and Machine Learning Workshop - Day 2 @ UTACM

21

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

خوشه

Page 22: Big Data and Machine Learning Workshop - Day 2 @ UTACM

22

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Clustering خوشه‌بندیی یا

خوشه

Page 23: Big Data and Machine Learning Workshop - Day 2 @ UTACM

23

یاددگیریی ماشین بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

پاسخ صحیح

قابل تفکیک نیستند

نا آآشنا هستند

پاسخ صحیح؟؟؟

Page 24: Big Data and Machine Learning Workshop - Day 2 @ UTACM

24

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یافتن ساختاررهایی مخفی ددرر ددااددهه‌هایی بی‌ساختارر

Page 25: Big Data and Machine Learning Workshop - Day 2 @ UTACM

25

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).” - wikipedia

Page 26: Big Data and Machine Learning Workshop - Day 2 @ UTACM

26

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 27: Big Data and Machine Learning Workshop - Day 2 @ UTACM

27

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

100000 News

Page 28: Big Data and Machine Learning Workshop - Day 2 @ UTACM

28

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

100000 Newsخوشه‌بندیی خوددکارر

Page 29: Big Data and Machine Learning Workshop - Day 2 @ UTACM

29

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 30: Big Data and Machine Learning Workshop - Day 2 @ UTACM

30

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 31: Big Data and Machine Learning Workshop - Day 2 @ UTACM

31

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 32: Big Data and Machine Learning Workshop - Day 2 @ UTACM

32

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 33: Big Data and Machine Learning Workshop - Day 2 @ UTACM

33

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 34: Big Data and Machine Learning Workshop - Day 2 @ UTACM

34

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

Page 35: Big Data and Machine Learning Workshop - Day 2 @ UTACM

35

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

نیازز به یاددگیریی ندااررند (مثالل‌هایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

Page 36: Big Data and Machine Learning Workshop - Day 2 @ UTACM

36

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

نیازز به یاددگیریی ندااررند (مثالل‌هایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)

نیاززمند کسب دداانش ااوولیه نسبت به مجموعه ددااددهه‌ نیستیم!

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

Page 37: Big Data and Machine Learning Workshop - Day 2 @ UTACM

37

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

نیازز به یاددگیریی ندااررند (مثالل‌هایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)

نیاززمند کسب دداانش ااوولیه نسبت به مجموعه ددااددهه‌ نیستیم!

ددرر سنارریو‌هایی که با مجموعه ددااددهه آآشنایی کافی نداارریم، یا اازز آآنچه پیش ررووست بی خبریم، بسیارر پر کارربردد هستند.

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

Page 38: Big Data and Machine Learning Workshop - Day 2 @ UTACM

38

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Unsupervised learning typically is tasked with finding relationships within data. There are no training examples used in this process. Instead, the system is given a set data and tasked with finding patterns and correlations therein.

Page 39: Big Data and Machine Learning Workshop - Day 2 @ UTACM

39

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 40: Big Data and Machine Learning Workshop - Day 2 @ UTACM

40

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data

Page 41: Big Data and Machine Learning Workshop - Day 2 @ UTACM

41

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data میخوااهیم اافراادد رراا بر ااساسس میزاانن دداارراا بوددنن یا نبوددنن یک ژژنن معین ددسته‌بندیی کنیم

Page 42: Big Data and Machine Learning Workshop - Day 2 @ UTACM

42

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ررنگها بیانگر میزاانن دداارراا بوددنن هر یک اازز اافراادد اازز ژژنی خاصص ااست.

Page 43: Big Data and Machine Learning Workshop - Day 2 @ UTACM

43

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ررنگها بیانگر میزاانن دداارراا بوددنن هر یک اازز اافراادد اازز ژژنی خاصص ااست.

Page 44: Big Data and Machine Learning Workshop - Day 2 @ UTACM

44

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data براایی تع�ن ااینکه هر فردد اازز چه ژژنن‌هایی برخورردداارر ااست اازز االگورریتم‌هایی یاددیگریی بدوونن نظاررتت ااستفاددهه می‌کنیم وو گرووهه‌هایی اازز ژژنن‌ها تشکیل می‌شودد:

Page 45: Big Data and Machine Learning Workshop - Day 2 @ UTACM

45

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ددرر حالی که نمی‌دداانیم هر گرووهه چه معنی دداارردد، وولی چنین خوشه بندیی ووجودد دداارردد:

Page 46: Big Data and Machine Learning Workshop - Day 2 @ UTACM

46

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ااین یک یاددگیریی بدوونن نظاررتت ااست، چراا که اازز معنی عضویت ددرر گرووهه وو حتی اازز معنی هر گرووهه چیزیی نمی دداانیم!

Page 47: Big Data and Machine Learning Workshop - Day 2 @ UTACM

47

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data هیچ جواابب ددررستی رراا به االگورریتم ندااددهه‌اایم!

Page 48: Big Data and Machine Learning Workshop - Day 2 @ UTACM

48

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددرر پرددااززشش اابریی بهتر ااست هر کامپیوتر حاوویی ددااددهه‌هایی مرتبط باشد. بدین ترتیب کارراایی بهبودد پیداا می‌کند.

Page 49: Big Data and Machine Learning Workshop - Day 2 @ UTACM

49

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

شناسایی گرووهه‌هایی اازز اافراادد ددرر شبکه‌هایی ااجتماعی که ددووستی نزددیکی ددااررند…

Page 50: Big Data and Machine Learning Workshop - Day 2 @ UTACM

50

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طبقه‌بندیی باززاارر / طبقه بندیی‌مشتریانن

Page 51: Big Data and Machine Learning Workshop - Day 2 @ UTACM

51

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

پیداایش کهکشانن‌ها وو جهانن‌هستی

Page 52: Big Data and Machine Learning Workshop - Day 2 @ UTACM

52

نگاهی به االگورریتم‌هایی خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

تعریف مسئله:یک مجموعه نقاطط ددااددهه‌ ددرر ددسترسس ااست. ااین نقاطط رراا به شکلی خوشه‌بندیی

کنید که:

نقاطی که ددرر هر خوشه قراارر می‌گیرند به یکدیگر شبیه باشند.نقاطی که ددرر خوشه‌هایی متمایز قراارر می‌گیرند به یکدیگر شبیه نباشند.

Page 53: Big Data and Machine Learning Workshop - Day 2 @ UTACM

53

نگاهی به االگورریتم‌هایی خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

معموال نقاطط ددرر یک فضایی بردداارریی چند‌بعدیی قراارر ددااشته وو شباهت‌ آآنها با یکدیگر توسط محاسبه فاصله(ااقلیدسی) اانجامم می‌شودد.

Page 54: Big Data and Machine Learning Workshop - Day 2 @ UTACM

54

شناسایی اابعادد مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددرر یک سامانه‌ اامالکک، کداامم یک اازز اابعادد ززیر براایی خوشه بندیی مناسب تر ااست؟

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

Qبا چه تمهیدیی می‌تواانن حدااکثر اابعادد رراا به کارر گرفت؟

Page 55: Big Data and Machine Learning Workshop - Day 2 @ UTACM

55

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه می‌کند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض

جغراافیایی می‌توااند اانتخابب خوبی باشد…x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

A

Page 56: Big Data and Machine Learning Workshop - Day 2 @ UTACM

56

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

A

براایی تمرکز بر برخی اابعادد، میتواانن اابعادد ددیگر رراا حذفف کردد

محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه می‌کند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض

جغراافیایی می‌توااند اانتخابب خوبی باشد…

Page 57: Big Data and Machine Learning Workshop - Day 2 @ UTACM

57

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

A

براایی تمرکز بر برخی اابعادد، میتواانن اابعادد ددیگر رراا حذفف کردد

تکنیک‌هایی کاهش اابعادد براایی ساددهه ساززیی محاسباتت وو تصویر

ساززیی بهتر می‌تواانند مورردد ااستفاددهه قراارر گیرند

محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه می‌کند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض

جغراافیایی می‌توااند اانتخابب خوبی باشد…

Page 58: Big Data and Machine Learning Workshop - Day 2 @ UTACM

58

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

SOM creates a discretized low-dimensional representation.

Page 59: Big Data and Machine Learning Workshop - Day 2 @ UTACM

59

محاسبه تشابهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 60: Big Data and Machine Learning Workshop - Day 2 @ UTACM

60

محاسبه تشابهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 61: Big Data and Machine Learning Workshop - Day 2 @ UTACM

61

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

Page 62: Big Data and Machine Learning Workshop - Day 2 @ UTACM

62

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

Page 63: Big Data and Machine Learning Workshop - Day 2 @ UTACM

63

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

Page 64: Big Data and Machine Learning Workshop - Day 2 @ UTACM

64

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

Page 65: Big Data and Machine Learning Workshop - Day 2 @ UTACM

65

ددشواارریی‌هایی پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 66: Big Data and Machine Learning Workshop - Day 2 @ UTACM

66

ددشواارریی‌هایی پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 67: Big Data and Machine Learning Workshop - Day 2 @ UTACM

67

حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

Page 68: Big Data and Machine Learning Workshop - Day 2 @ UTACM

68

حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

Page 69: Big Data and Machine Learning Workshop - Day 2 @ UTACM

69

حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

Page 70: Big Data and Machine Learning Workshop - Day 2 @ UTACM

70

ررااهه‌حل یک خطی به کمک االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Singular Value Decomposition) تجزیه مقداارر منفردد

Page 71: Big Data and Machine Learning Workshop - Day 2 @ UTACM

71

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

توسعه یک االگورریتم ممکن ااست بسیارر ددشواارر باشد

Page 72: Big Data and Machine Learning Workshop - Day 2 @ UTACM

72

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

توسعه یک االگورریتم ممکن ااست بسیارر ددشواارر باشد

اانتخابب االگورریتم وو تکنیک مناسب نیمی اازز ررااهه‌حل مسئله ااست

Page 73: Big Data and Machine Learning Workshop - Day 2 @ UTACM

73

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

Page 74: Big Data and Machine Learning Workshop - Day 2 @ UTACM

74

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

Page 75: Big Data and Machine Learning Workshop - Day 2 @ UTACM

75

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

Page 76: Big Data and Machine Learning Workshop - Day 2 @ UTACM

76

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

Page 77: Big Data and Machine Learning Workshop - Day 2 @ UTACM

77

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش هزینه‌هایی پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

Page 78: Big Data and Machine Learning Workshop - Day 2 @ UTACM

78

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش هزینه‌هایی پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

اانتخابب ررووشی ددررست براایی حل مسئله‌اایی ددشواارر

Page 79: Big Data and Machine Learning Workshop - Day 2 @ UTACM

79

یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 80: Big Data and Machine Learning Workshop - Day 2 @ UTACM

80

اانتخابب پرووژژهه متن‌بازز مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

اانتخابب پرووژژهه متن بازز خوبب:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش هزینه‌هایی پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

اانتخابب ررووشی ددررست براایی حل مسئله‌اایی ددشواارر

Page 81: Big Data and Machine Learning Workshop - Day 2 @ UTACM

81

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

2 m

Page 82: Big Data and Machine Learning Workshop - Day 2 @ UTACM

82

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 83: Big Data and Machine Learning Workshop - Day 2 @ UTACM

83

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 84: Big Data and Machine Learning Workshop - Day 2 @ UTACM

84

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 85: Big Data and Machine Learning Workshop - Day 2 @ UTACM

85

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 86: Big Data and Machine Learning Workshop - Day 2 @ UTACM

86

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 87: Big Data and Machine Learning Workshop - Day 2 @ UTACM

87

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 88: Big Data and Machine Learning Workshop - Day 2 @ UTACM

88

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 89: Big Data and Machine Learning Workshop - Day 2 @ UTACM

89

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 90: Big Data and Machine Learning Workshop - Day 2 @ UTACM

90

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

>> help svd

Page 91: Big Data and Machine Learning Workshop - Day 2 @ UTACM

91

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یکی اازز پر کارربردد‌ ترین االگورریتم‌هایی خوشه بندیی، K-means ااست. االگورریتم‌هایی متعدددیی اازز آآنن منشعب شدهه‌ااند.

بسیارر سریع ااست. پیاددهه‌ساززیی‌هایی گوناگونن K-means ددرر قالب پرووژژهه‌هایی متن بازز ووجودد دداارردد.

Page 92: Big Data and Machine Learning Workshop - Day 2 @ UTACM

92

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مقاددیر ووررووددیی:

Page 93: Big Data and Machine Learning Workshop - Day 2 @ UTACM

93

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

Page 94: Big Data and Machine Learning Workshop - Day 2 @ UTACM

94

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی

Page 95: Big Data and Machine Learning Workshop - Day 2 @ UTACM

95

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هر

Page 96: Big Data and Machine Learning Workshop - Day 2 @ UTACM

96

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیم

Page 97: Big Data and Machine Learning Workshop - Day 2 @ UTACM

97

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرdistance(xi, cj)نزددیک ترین مرکز خوشه cj رراا میابیم

Page 98: Big Data and Machine Learning Workshop - Day 2 @ UTACM

98

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

Page 99: Big Data and Machine Learning Workshop - Day 2 @ UTACM

99

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):

Page 100: Big Data and Machine Learning Workshop - Day 2 @ UTACM

100

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

Page 101: Big Data and Machine Learning Workshop - Day 2 @ UTACM

101

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

Qچه اابعاددیی رراا می‌تواانیم ااستفاددهه کنیم وو چراا؟

Page 102: Big Data and Machine Learning Workshop - Day 2 @ UTACM

102

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

ااگر تغ�ریی حاصل نشد، متوقف می‌شویم.

Page 103: Big Data and Machine Learning Workshop - Day 2 @ UTACM

103

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

Qااگر تغ�ریی حاصل نشد، متوقف می‌شویم. O?

Page 104: Big Data and Machine Learning Workshop - Day 2 @ UTACM

104

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

ااگر تغ�ریی حاصل نشد، متوقف می‌شویم.O(خوشه‌ها*نقاطط*اابعادد*تکراارر)

Page 105: Big Data and Machine Learning Workshop - Day 2 @ UTACM

105

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 106: Big Data and Machine Learning Workshop - Day 2 @ UTACM

106

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 107: Big Data and Machine Learning Workshop - Day 2 @ UTACM

107

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 108: Big Data and Machine Learning Workshop - Day 2 @ UTACM

108

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 109: Big Data and Machine Learning Workshop - Day 2 @ UTACM

109

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 110: Big Data and Machine Learning Workshop - Day 2 @ UTACM

110

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 111: Big Data and Machine Learning Workshop - Day 2 @ UTACM

111

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 112: Big Data and Machine Learning Workshop - Day 2 @ UTACM

112

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 113: Big Data and Machine Learning Workshop - Day 2 @ UTACM

113

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 114: Big Data and Machine Learning Workshop - Day 2 @ UTACM

114

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 115: Big Data and Machine Learning Workshop - Day 2 @ UTACM

115

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Qنقاطط ضعف K-means رراا ذذکر کنید:

Page 116: Big Data and Machine Learning Workshop - Day 2 @ UTACM

116

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط ضعف A

Page 117: Big Data and Machine Learning Workshop - Day 2 @ UTACM

117

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط ضعف Aحساسیت بسیارر باال به ددااددهه‌هایی خاررجج اازز محدووددهه (Outlier) وو ااختاللل

Page 118: Big Data and Machine Learning Workshop - Day 2 @ UTACM

118

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط ضعف Aحساسیت بسیارر باال به ددااددهه‌هایی خاررجج اازز محدووددهه (Outlier) وو ااختاللل

براایی خوشه‌هایی که کروویی (دداایرهه‌) نیستند جواابب‌هایی خوبی تولید نمی‌کند

Page 119: Big Data and Machine Learning Workshop - Day 2 @ UTACM

119

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Qنقاطط قوتت K-means رراا ذذکر کنید:

Page 120: Big Data and Machine Learning Workshop - Day 2 @ UTACM

120

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط قوتت A

Page 121: Big Data and Machine Learning Workshop - Day 2 @ UTACM

121

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

:K-means نقاطط قوتت

Page 122: Big Data and Machine Learning Workshop - Day 2 @ UTACM

122

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

:K-means نقاطط قوتت

Page 123: Big Data and Machine Learning Workshop - Day 2 @ UTACM

123

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

:K-means نقاطط قوتت

Page 124: Big Data and Machine Learning Workshop - Day 2 @ UTACM

124

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

براایی ااجراا فقط به تعداادد خوشه‌ها (k) نیازز دداارردد

:K-means نقاطط قوتت

Page 125: Big Data and Machine Learning Workshop - Day 2 @ UTACM

125

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

براایی ااجراا فقط به تعداادد خوشه‌ها (k) نیازز دداارردد

تجرید باالیی که توسط معرفی مرکز خوشه اارراائه می‌شودد، نتیجه رراا ساددهه می‌کند

:K-means نقاطط قوتت

Page 126: Big Data and Machine Learning Workshop - Day 2 @ UTACM

126

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

براایی ااجراا فقط به تعداادد خوشه‌ها (k) نیازز دداارردد

تجرید باالیی که توسط معرفی مرکز خوشه اارراائه می‌شودد، نتیجه رراا ساددهه می‌کند

:K-means نقاطط قوتت

پیاددهه ساززیی آآنن بسیارر ساددهه ااست

Page 127: Big Data and Machine Learning Workshop - Day 2 @ UTACM

127

پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

کد بنویسیم

Page 128: Big Data and Machine Learning Workshop - Day 2 @ UTACM

128

پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک بنگاهه ااخبارر ووررززشی به ددنبالل برگزاارریی یک شهرآآوورردد بین تیم‌هایی

آآبی وو قرمز، نیاززمند خوشه بندیی ااخبارر مرتبط ااست.

Page 129: Big Data and Machine Learning Workshop - Day 2 @ UTACM

129

یاددگیریی با نظاررتت - ملزووماتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Prerequisites:

• Windows, Linux or Mac • Java 1.7 • Apache Maven 3

Page 130: Big Data and Machine Learning Workshop - Day 2 @ UTACM

130

CM - یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create the Maven project:

mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=com.technobium -DartifactId=mahout-clustering -DinteractiveMode=false

Page 131: Big Data and Machine Learning Workshop - Day 2 @ UTACM

131

یاددگیریی با نظاررتت - تغeر نامم گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Rename the default created App class to ClusteringDemo

mv mahout-clustering/src/main/java/com/technobium/App.java mahout-clustering/src/main/java/com/technobium/ClusteringDemo

Page 132: Big Data and Machine Learning Workshop - Day 2 @ UTACM

132

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add the Mahout and SLF4J libraries to this project:cd mahout-clustering nano pom.xml

<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.7</version> </dependency>

Page 133: Big Data and Machine Learning Workshop - Day 2 @ UTACM

133

یاددگیریی با نظاررتت - کد گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 134: Big Data and Machine Learning Workshop - Day 2 @ UTACM

134

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد

Page 135: Big Data and Machine Learning Workshop - Day 2 @ UTACM

135

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد

Page 136: Big Data and Machine Learning Workshop - Day 2 @ UTACM

136

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد

Page 137: Big Data and Machine Learning Workshop - Day 2 @ UTACM

137

یاددگیریی با نظاررتت - ااجراا گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

mvn compile mvn exec:java -Dexec.mainClass="com.technobium.ClusteringDemo"

Run the ClusteringDemo class by using the following commands:

Page 138: Big Data and Machine Learning Workshop - Day 2 @ UTACM

138

یاددگیریی با نظاررتت - نتیجه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Page 139: Big Data and Machine Learning Workshop - Day 2 @ UTACM

139

یاددگیریی با نظاررتت - گیت‌هابب گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

https://github.com/technobium/mahout-clustering

Page 140: Big Data and Machine Learning Workshop - Day 2 @ UTACM

140

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

TFIDF – term frequency inverse document frequency is an important weighting scheme which can be used in fields like machine learning, natural language processing, search engines and text mining. The metric is used to measure the relative importance of a word for a collection of documents. If a term or word occurs frequently in a document and not so frequently in the entire set of documents, it is more relevant to a search than a word that appears frequently across all the documents. By calculating TFIDF for all terms which appear in a set of document we can filter away the less relevant words. As an example, a word which appears only twice in a single document is more relevant to someone searching that document, compare to words which appear many times in all the documents like: the, is, at, and, or, on, etc. Using TFIDF the later words can be ignored and the relevant ones are retained.

Page 141: Big Data and Machine Learning Workshop - Day 2 @ UTACM

141

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

The canopy clustering algorithm is an unsupervised pre-clustering algorithm introduced by Andrew McCallum, Kamal Nigam and Lyle Ungar in 2000. It is often used as preprocessing step for the K-means algorithm or the Hierarchical clustering algorithm. It is intended to speed up clustering operations on large data sets, where using another algorithm directly may be impractical due to the size of the data set.

Page 142: Big Data and Machine Learning Workshop - Day 2 @ UTACM

142

مرجعگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://www.datavizualization.com/blog/an-introduction-to-machine-learning-theory-and-its-applications-ahttps://www.coursera.org/learn/machine-learninghttps://en.wikipedia.org/wiki/Cluster_analysishttp://stackoverflow.com/questions/20414667/cocktail-party-algorithm-svd-implementation-in-one-line-of-codehttps://www.gnu.org/software/octave/http://technobium.com/introduction-to-clustering-using-apache-mahout/

https://github.com/technobium/mahout-clusteringhttp://homepages.inf.ed.ac.uk/vlavrenk/http://stats.stackexchange.com/questions/58855/why-do-we-use-k-means-instead-of-other-algorithmshttp://mahout.apache.org/users/clustering/canopy-clustering.htmlhttp://mahout.apache.org/users/clustering/fuzzy-k-means.htmlhttps://en.wikipedia.org/wiki/Canopy_clustering_algorithm