Big Data and Machine Learning Workshop - Day 2 @ UTACM

Post on 26-Jan-2017

463 views 3 download

Transcript of Big Data and Machine Learning Workshop - Day 2 @ UTACM

1

تابستانن ۱۳۹۵

اامیر صدیقی

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین

@amirsedighi تو4تر: sedighi@gmail.comاایمیل:

(Unsupervised) ررووزز ددوومم - یاددگیریی‌ماشین، ررووشش‌هایی بدوونن‌نظاررتت

2

قبل اازز شرووععگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

UTACM-BDML :ددرر طولل ددووررهه با هم اازز طریق تلگراامم ددرر ااررتباطط هستیم

ااسالید‌ها بعد اازز هر جلسه میرهه رروویی ااسالیدشر وو میتونید دداانلودد کنید:

فرضض ما ااینه که با برنامه‌نویسی آآشنا هستید، ددرر هر جلسه کمی ددست به آآچارر می‌شویم

فرضض ما ااینه که سریع یادد می‌گیرید

لطفا موبایل‌ها رروو خاموشش یا ساکت کنید

لطفا صندلی‌هایی نزددیک ددرر کالسس رروو براایی ااوونایی که ااحتماال ددیرتر می‌ررسن خالی بذااررین

یک تمرین کوچک براایی تویی خونه ددااررید که اانجامم میدین وو قبل اازز کالسس بعدیی براامم اایمیل می‌کنید

ززمانن کالسس به همه بچه‌ها تعلق ددااررهه. پرسش‌هایی غیر بحراانی رروو بعد اازز کالسس یا ددرر گرووهه مطرحح کنیمددرر طولل کالسس کو4ز‌هایی کوچک دداارریم که ددرر ااسالید با Q مشخص شدهه‌ااند

ااگر ووااژژهه‌اایی بکارر می‌برمم که نامانوسس بگوشش میرسه، لطفا ررااهنما4م کنید

slideshare.net/amirsedighi

اامیر صدیقی

موسس:

3

معرفی

http://recommender.ir http://helio.ir http://commentum.ir

@amirsedighi تو4تر: sedighi@gmail.comاایمیل:

4

مقدمهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریی بدوونن نظاررتت

5

آآنچه ددیدیم…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریی بانظاررتت

6

یاددگیریی ماشین بدوونن ‌نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

The algorithms used to do this are very different from those used for supervised learning.

7

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

8

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

9

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

10

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

پاسخ صحیح

11

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

پاسخ صحیح

یافتن تابعی براایی پیش‌بینی ووضعیت

12

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

13

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

14

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

نا آآشنا هستند

15

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

نا آآشنا هستند

پاسخ صحیح؟؟؟

16

اانوااعع مجموعه‌ددااددهه ددرر یاددگیریی‌ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک نیستند

نا آآشنا هستند

پاسخ صحیح؟؟؟

یافتن رراابطه وو ساختارر ددرر مجموعه‌ددااددهه

17

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

18

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

19

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

20

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

21

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

خوشه

22

یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Clustering خوشه‌بندیی یا

خوشه

23

یاددگیریی ماشین بدوونن نظاررتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قابل تفکیک هستند

آآشنا هستند

پاسخ صحیح

قابل تفکیک نیستند

نا آآشنا هستند

پاسخ صحیح؟؟؟

24

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یافتن ساختاررهایی مخفی ددرر ددااددهه‌هایی بی‌ساختارر

25

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).” - wikipedia

26

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

27

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

100000 News

28

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

100000 Newsخوشه‌بندیی خوددکارر

29

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

30

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

31

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

32

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

33

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

34

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

35

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

نیازز به یاددگیریی ندااررند (مثالل‌هایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

36

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

نیازز به یاددگیریی ندااررند (مثالل‌هایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)

نیاززمند کسب دداانش ااوولیه نسبت به مجموعه ددااددهه‌ نیستیم!

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

37

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

نیازز به یاددگیریی ندااررند (مثالل‌هایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)

نیاززمند کسب دداانش ااوولیه نسبت به مجموعه ددااددهه‌ نیستیم!

ددرر سنارریو‌هایی که با مجموعه ددااددهه آآشنایی کافی نداارریم، یا اازز آآنچه پیش ررووست بی خبریم، بسیارر پر کارربردد هستند.

االگورریتم‌هایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بی‌بدیلی ددااررند:

38

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Unsupervised learning typically is tasked with finding relationships within data. There are no training examples used in this process. Instead, the system is given a set data and tasked with finding patterns and correlations therein.

39

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

40

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data

41

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data میخوااهیم اافراادد رراا بر ااساسس میزاانن دداارراا بوددنن یا نبوددنن یک ژژنن معین ددسته‌بندیی کنیم

42

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ررنگها بیانگر میزاانن دداارراا بوددنن هر یک اازز اافراادد اازز ژژنی خاصص ااست.

43

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ررنگها بیانگر میزاانن دداارراا بوددنن هر یک اازز اافراادد اازز ژژنی خاصص ااست.

44

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data براایی تع�ن ااینکه هر فردد اازز چه ژژنن‌هایی برخورردداارر ااست اازز االگورریتم‌هایی یاددیگریی بدوونن نظاررتت ااستفاددهه می‌کنیم وو گرووهه‌هایی اازز ژژنن‌ها تشکیل می‌شودد:

45

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ددرر حالی که نمی‌دداانیم هر گرووهه چه معنی دداارردد، وولی چنین خوشه بندیی ووجودد دداارردد:

46

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data ااین یک یاددگیریی بدوونن نظاررتت ااست، چراا که اازز معنی عضویت ددرر گرووهه وو حتی اازز معنی هر گرووهه چیزیی نمی دداانیم!

47

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DNA Microarray Data هیچ جواابب ددررستی رراا به االگورریتم ندااددهه‌اایم!

48

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددرر پرددااززشش اابریی بهتر ااست هر کامپیوتر حاوویی ددااددهه‌هایی مرتبط باشد. بدین ترتیب کارراایی بهبودد پیداا می‌کند.

49

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

شناسایی گرووهه‌هایی اازز اافراادد ددرر شبکه‌هایی ااجتماعی که ددووستی نزددیکی ددااررند…

50

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طبقه‌بندیی باززاارر / طبقه بندیی‌مشتریانن

51

یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

پیداایش کهکشانن‌ها وو جهانن‌هستی

52

نگاهی به االگورریتم‌هایی خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

تعریف مسئله:یک مجموعه نقاطط ددااددهه‌ ددرر ددسترسس ااست. ااین نقاطط رراا به شکلی خوشه‌بندیی

کنید که:

نقاطی که ددرر هر خوشه قراارر می‌گیرند به یکدیگر شبیه باشند.نقاطی که ددرر خوشه‌هایی متمایز قراارر می‌گیرند به یکدیگر شبیه نباشند.

53

نگاهی به االگورریتم‌هایی خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

معموال نقاطط ددرر یک فضایی بردداارریی چند‌بعدیی قراارر ددااشته وو شباهت‌ آآنها با یکدیگر توسط محاسبه فاصله(ااقلیدسی) اانجامم می‌شودد.

54

شناسایی اابعادد مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددرر یک سامانه‌ اامالکک، کداامم یک اازز اابعادد ززیر براایی خوشه بندیی مناسب تر ااست؟

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

Qبا چه تمهیدیی می‌تواانن حدااکثر اابعادد رراا به کارر گرفت؟

55

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه می‌کند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض

جغراافیایی می‌توااند اانتخابب خوبی باشد…x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

A

56

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

A

براایی تمرکز بر برخی اابعادد، میتواانن اابعادد ددیگر رراا حذفف کردد

محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه می‌کند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض

جغراافیایی می‌توااند اانتخابب خوبی باشد…

57

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی

A

براایی تمرکز بر برخی اابعادد، میتواانن اابعادد ددیگر رراا حذفف کردد

تکنیک‌هایی کاهش اابعادد براایی ساددهه ساززیی محاسباتت وو تصویر

ساززیی بهتر می‌تواانند مورردد ااستفاددهه قراارر گیرند

محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه می‌کند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض

جغراافیایی می‌توااند اانتخابب خوبی باشد…

58

بسامانن کرددنن اابعادد ددااددهه‌ ددرر خوشه‌بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

SOM creates a discretized low-dimensional representation.

59

محاسبه تشابهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

60

محاسبه تشابهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

61

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

62

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

63

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

64

همهمه ددرر میهمانیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Coctail Party) تفکیک صداا ددرر ددوورر‌همی

65

ددشواارریی‌هایی پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

66

ددشواارریی‌هایی پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

67

حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

68

حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

69

حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

70

ررااهه‌حل یک خطی به کمک االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Singular Value Decomposition) تجزیه مقداارر منفردد

71

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

توسعه یک االگورریتم ممکن ااست بسیارر ددشواارر باشد

72

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

توسعه یک االگورریتم ممکن ااست بسیارر ددشواارر باشد

اانتخابب االگورریتم وو تکنیک مناسب نیمی اازز ررااهه‌حل مسئله ااست

73

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

74

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

75

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

76

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

77

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش هزینه‌هایی پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

78

اانتخابب االگورریتم مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با اانتخابب االگورریتم مناسب، اازز بسیارریی چالش‌هایی طرااحی به سالمت عبورر می‌کنیم:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش هزینه‌هایی پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

اانتخابب ررووشی ددررست براایی حل مسئله‌اایی ددشواارر

79

یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

80

اانتخابب پرووژژهه متن‌بازز مناسبگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

اانتخابب پرووژژهه متن بازز خوبب:

ررشد میزاانن ااحتمالل موفقیت پرووژژهه

کاهش هزینه‌هایی پرووژژهه

کاهش نیازز به تخصص‌هایی کمیابب

اامکانن مطالعه یوززکیس‌هایی اانجامم شدهه

اانتخابب ررووشی ددررست براایی حل مسئله‌اایی ددشواارر

81

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

2 m

82

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

83

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

84

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

85

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

86

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

87

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

88

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

89

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

90

نگاهی به یک ررااهه‌حل متن‌باززگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

>> help svd

91

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یکی اازز پر کارربردد‌ ترین االگورریتم‌هایی خوشه بندیی، K-means ااست. االگورریتم‌هایی متعدددیی اازز آآنن منشعب شدهه‌ااند.

بسیارر سریع ااست. پیاددهه‌ساززیی‌هایی گوناگونن K-means ددرر قالب پرووژژهه‌هایی متن بازز ووجودد دداارردد.

92

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مقاددیر ووررووددیی:

93

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

94

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی

95

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هر

96

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیم

97

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرdistance(xi, cj)نزددیک ترین مرکز خوشه cj رراا میابیم

98

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

99

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):

100

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

101

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

Qچه اابعاددیی رراا می‌تواانیم ااستفاددهه کنیم وو چراا؟

102

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

ااگر تغ�ریی حاصل نشد، متوقف می‌شویم.

103

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

Qااگر تغ�ریی حاصل نشد، متوقف می‌شویم. O?

104

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(k) وو تعداادد خوشه‌ها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط

با مختصاتت ااتفاقی رروویی فضا قراارر می‌ددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر می‌کنیم:

xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب می‌کنیم

distance(xi, cj)

به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه می‌کنیم

ااگر تغ�ریی حاصل نشد، متوقف می‌شویم.O(خوشه‌ها*نقاطط*اابعادد*تکراارر)

105

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

106

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

107

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

108

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

109

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

110

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

111

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

112

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

113

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

114

K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

115

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Qنقاطط ضعف K-means رراا ذذکر کنید:

116

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط ضعف A

117

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط ضعف Aحساسیت بسیارر باال به ددااددهه‌هایی خاررجج اازز محدووددهه (Outlier) وو ااختاللل

118

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط ضعف Aحساسیت بسیارر باال به ددااددهه‌هایی خاررجج اازز محدووددهه (Outlier) وو ااختاللل

براایی خوشه‌هایی که کروویی (دداایرهه‌) نیستند جواابب‌هایی خوبی تولید نمی‌کند

119

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Qنقاطط قوتت K-means رراا ذذکر کنید:

120

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

:K-means نقاطط قوتت A

121

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

:K-means نقاطط قوتت

122

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

:K-means نقاطط قوتت

123

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

:K-means نقاطط قوتت

124

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

براایی ااجراا فقط به تعداادد خوشه‌ها (k) نیازز دداارردد

:K-means نقاطط قوتت

125

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

براایی ااجراا فقط به تعداادد خوشه‌ها (k) نیازز دداارردد

تجرید باالیی که توسط معرفی مرکز خوشه اارراائه می‌شودد، نتیجه رراا ساددهه می‌کند

:K-means نقاطط قوتت

126

K-means نقاطط قوتت وو ضعفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Aفهمیدنن آآنن آآسانن ااست

رروویی مجموعه ددااددهه‌هایی بسیارر بزررگگ به خوبی کارر می‌کند

(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتم‌هایی ددقیقتر به طورر محسوسی کم ااست

براایی ااجراا فقط به تعداادد خوشه‌ها (k) نیازز دداارردد

تجرید باالیی که توسط معرفی مرکز خوشه اارراائه می‌شودد، نتیجه رراا ساددهه می‌کند

:K-means نقاطط قوتت

پیاددهه ساززیی آآنن بسیارر ساددهه ااست

127

پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

کد بنویسیم

128

پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک بنگاهه ااخبارر ووررززشی به ددنبالل برگزاارریی یک شهرآآوورردد بین تیم‌هایی

آآبی وو قرمز، نیاززمند خوشه بندیی ااخبارر مرتبط ااست.

129

یاددگیریی با نظاررتت - ملزووماتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Prerequisites:

• Windows, Linux or Mac • Java 1.7 • Apache Maven 3

130

CM - یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create the Maven project:

mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=com.technobium -DartifactId=mahout-clustering -DinteractiveMode=false

131

یاددگیریی با نظاررتت - تغeر نامم گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Rename the default created App class to ClusteringDemo

mv mahout-clustering/src/main/java/com/technobium/App.java mahout-clustering/src/main/java/com/technobium/ClusteringDemo

132

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add the Mahout and SLF4J libraries to this project:cd mahout-clustering nano pom.xml

<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.7</version> </dependency>

133

یاددگیریی با نظاررتت - کد گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

134

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد

135

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد

136

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد

137

یاددگیریی با نظاررتت - ااجراا گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

mvn compile mvn exec:java -Dexec.mainClass="com.technobium.ClusteringDemo"

Run the ClusteringDemo class by using the following commands:

138

یاددگیریی با نظاررتت - نتیجه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

139

یاددگیریی با نظاررتت - گیت‌هابب گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

https://github.com/technobium/mahout-clustering

140

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

TFIDF – term frequency inverse document frequency is an important weighting scheme which can be used in fields like machine learning, natural language processing, search engines and text mining. The metric is used to measure the relative importance of a word for a collection of documents. If a term or word occurs frequently in a document and not so frequently in the entire set of documents, it is more relevant to a search than a word that appears frequently across all the documents. By calculating TFIDF for all terms which appear in a set of document we can filter away the less relevant words. As an example, a word which appears only twice in a single document is more relevant to someone searching that document, compare to words which appear many times in all the documents like: the, is, at, and, or, on, etc. Using TFIDF the later words can be ignored and the relevant ones are retained.

141

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

The canopy clustering algorithm is an unsupervised pre-clustering algorithm introduced by Andrew McCallum, Kamal Nigam and Lyle Ungar in 2000. It is often used as preprocessing step for the K-means algorithm or the Hierarchical clustering algorithm. It is intended to speed up clustering operations on large data sets, where using another algorithm directly may be impractical due to the size of the data set.

142

مرجعگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://www.datavizualization.com/blog/an-introduction-to-machine-learning-theory-and-its-applications-ahttps://www.coursera.org/learn/machine-learninghttps://en.wikipedia.org/wiki/Cluster_analysishttp://stackoverflow.com/questions/20414667/cocktail-party-algorithm-svd-implementation-in-one-line-of-codehttps://www.gnu.org/software/octave/http://technobium.com/introduction-to-clustering-using-apache-mahout/

https://github.com/technobium/mahout-clusteringhttp://homepages.inf.ed.ac.uk/vlavrenk/http://stats.stackexchange.com/questions/58855/why-do-we-use-k-means-instead-of-other-algorithmshttp://mahout.apache.org/users/clustering/canopy-clustering.htmlhttp://mahout.apache.org/users/clustering/fuzzy-k-means.htmlhttps://en.wikipedia.org/wiki/Canopy_clustering_algorithm