Big Data and Machine Learning Workshop - Day 2 @ UTACM
-
Upload
amir-sedighi -
Category
Data & Analytics
-
view
463 -
download
3
Transcript of Big Data and Machine Learning Workshop - Day 2 @ UTACM
1
تابستانن ۱۳۹۵
اامیر صدیقی
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین
@amirsedighi تو4تر: [email protected]اایمیل:
(Unsupervised) ررووزز ددوومم - یاددگیرییماشین، ررووششهایی بدوونننظاررتت
2
قبل اازز شرووععگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
UTACM-BDML :ددرر طولل ددووررهه با هم اازز طریق تلگراامم ددرر ااررتباطط هستیم
ااسالیدها بعد اازز هر جلسه میرهه رروویی ااسالیدشر وو میتونید دداانلودد کنید:
فرضض ما ااینه که با برنامهنویسی آآشنا هستید، ددرر هر جلسه کمی ددست به آآچارر میشویم
فرضض ما ااینه که سریع یادد میگیرید
لطفا موبایلها رروو خاموشش یا ساکت کنید
لطفا صندلیهایی نزددیک ددرر کالسس رروو براایی ااوونایی که ااحتماال ددیرتر میررسن خالی بذااررین
یک تمرین کوچک براایی تویی خونه ددااررید که اانجامم میدین وو قبل اازز کالسس بعدیی براامم اایمیل میکنید
ززمانن کالسس به همه بچهها تعلق ددااررهه. پرسشهایی غیر بحراانی رروو بعد اازز کالسس یا ددرر گرووهه مطرحح کنیمددرر طولل کالسس کو4زهایی کوچک دداارریم که ددرر ااسالید با Q مشخص شدههااند
ااگر ووااژژههاایی بکارر میبرمم که نامانوسس بگوشش میرسه، لطفا ررااهنما4م کنید
slideshare.net/amirsedighi
اامیر صدیقی
موسس:
3
معرفی
http://recommender.ir http://helio.ir http://commentum.ir
@amirsedighi تو4تر: [email protected]اایمیل:
4
مقدمهگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
یاددگیریی بدوونن نظاررتت
5
آآنچه ددیدیم…گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
یاددگیریی بانظاررتت
6
یاددگیریی ماشین بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
The algorithms used to do this are very different from those used for supervised learning.
7
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
8
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک هستند
9
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک هستند
آآشنا هستند
10
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک هستند
آآشنا هستند
پاسخ صحیح
11
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک هستند
آآشنا هستند
پاسخ صحیح
یافتن تابعی براایی پیشبینی ووضعیت
12
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
13
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک نیستند
14
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک نیستند
نا آآشنا هستند
15
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک نیستند
نا آآشنا هستند
پاسخ صحیح؟؟؟
16
اانوااعع مجموعهددااددهه ددرر یاددگیرییماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک نیستند
نا آآشنا هستند
پاسخ صحیح؟؟؟
یافتن رراابطه وو ساختارر ددرر مجموعهددااددهه
17
یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
18
یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
19
یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
20
یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
21
یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
خوشه
22
یاددگیریی ماشین - بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Clustering خوشهبندیی یا
خوشه
23
یاددگیریی ماشین بدوونن نظاررتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
قابل تفکیک هستند
آآشنا هستند
پاسخ صحیح
قابل تفکیک نیستند
نا آآشنا هستند
پاسخ صحیح؟؟؟
24
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
یافتن ساختاررهایی مخفی ددرر ددااددهههایی بیساختارر
25
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
“Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).” - wikipedia
26
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
27
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
100000 News
28
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
100000 Newsخوشهبندیی خوددکارر
29
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
30
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
31
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
32
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
33
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
34
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
االگورریتمهایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بیبدیلی ددااررند:
35
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
نیازز به یاددگیریی ندااررند (مثاللهایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)
االگورریتمهایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بیبدیلی ددااررند:
36
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
نیازز به یاددگیریی ندااررند (مثاللهایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)
نیاززمند کسب دداانش ااوولیه نسبت به مجموعه ددااددهه نیستیم!
االگورریتمهایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بیبدیلی ددااررند:
37
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
نیازز به یاددگیریی ندااررند (مثاللهایی آآموززشی - فرااگیریی - تصاددفی - قانونن ااعداادد بزررگگ…)
نیاززمند کسب دداانش ااوولیه نسبت به مجموعه ددااددهه نیستیم!
ددرر سنارریوهایی که با مجموعه ددااددهه آآشنایی کافی نداارریم، یا اازز آآنچه پیش ررووست بی خبریم، بسیارر پر کارربردد هستند.
االگورریتمهایی یاددگیریی ماشین بدوونن نظاررتت مزاایایی بیبدیلی ددااررند:
38
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Unsupervised learning typically is tasked with finding relationships within data. There are no training examples used in this process. Instead, the system is given a set data and tasked with finding patterns and correlations therein.
39
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
40
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data
41
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data میخوااهیم اافراادد رراا بر ااساسس میزاانن دداارراا بوددنن یا نبوددنن یک ژژنن معین ددستهبندیی کنیم
42
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data ررنگها بیانگر میزاانن دداارراا بوددنن هر یک اازز اافراادد اازز ژژنی خاصص ااست.
43
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data ررنگها بیانگر میزاانن دداارراا بوددنن هر یک اازز اافراادد اازز ژژنی خاصص ااست.
44
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data براایی تع�ن ااینکه هر فردد اازز چه ژژننهایی برخورردداارر ااست اازز االگورریتمهایی یاددیگریی بدوونن نظاررتت ااستفاددهه میکنیم وو گرووهههایی اازز ژژننها تشکیل میشودد:
45
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data ددرر حالی که نمیدداانیم هر گرووهه چه معنی دداارردد، وولی چنین خوشه بندیی ووجودد دداارردد:
46
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data ااین یک یاددگیریی بدوونن نظاررتت ااست، چراا که اازز معنی عضویت ددرر گرووهه وو حتی اازز معنی هر گرووهه چیزیی نمی دداانیم!
47
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
DNA Microarray Data هیچ جواابب ددررستی رراا به االگورریتم ندااددههاایم!
48
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
ددرر پرددااززشش اابریی بهتر ااست هر کامپیوتر حاوویی ددااددهههایی مرتبط باشد. بدین ترتیب کارراایی بهبودد پیداا میکند.
49
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
شناسایی گرووهههایی اازز اافراادد ددرر شبکههایی ااجتماعی که ددووستی نزددیکی ددااررند…
50
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
طبقهبندیی باززاارر / طبقه بندییمشتریانن
51
یاددگیریی ماشین بدوونن نظاررتت - خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
پیداایش کهکشاننها وو جهاننهستی
52
نگاهی به االگورریتمهایی خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
تعریف مسئله:یک مجموعه نقاطط ددااددهه ددرر ددسترسس ااست. ااین نقاطط رراا به شکلی خوشهبندیی
کنید که:
نقاطی که ددرر هر خوشه قراارر میگیرند به یکدیگر شبیه باشند.نقاطی که ددرر خوشههایی متمایز قراارر میگیرند به یکدیگر شبیه نباشند.
53
نگاهی به االگورریتمهایی خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
معموال نقاطط ددرر یک فضایی بردداارریی چندبعدیی قراارر ددااشته وو شباهت آآنها با یکدیگر توسط محاسبه فاصله(ااقلیدسی) اانجامم میشودد.
54
شناسایی اابعادد مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
ددرر یک سامانه اامالکک، کداامم یک اازز اابعادد ززیر براایی خوشه بندیی مناسب تر ااست؟
x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی
Qبا چه تمهیدیی میتواانن حدااکثر اابعادد رراا به کارر گرفت؟
55
بسامانن کرددنن اابعادد ددااددهه ددرر خوشهبندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه میکند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض
جغراافیایی میتوااند اانتخابب خوبی باشد…x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی
A
56
بسامانن کرددنن اابعادد ددااددهه ددرر خوشهبندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی
A
براایی تمرکز بر برخی اابعادد، میتواانن اابعادد ددیگر رراا حذفف کردد
محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه میکند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض
جغراافیایی میتوااند اانتخابب خوبی باشد…
57
بسامانن کرددنن اابعادد ددااددهه ددرر خوشهبندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: نامم محله x7: کد پستی
A
براایی تمرکز بر برخی اابعادد، میتواانن اابعادد ددیگر رراا حذفف کردد
تکنیکهایی کاهش اابعادد براایی ساددهه ساززیی محاسباتت وو تصویر
ساززیی بهتر میتواانند مورردد ااستفاددهه قراارر گیرند
محاسباتت ااقلیدسی پایه وو ااساسس خوشه بندیی ااست. پس “نامم محله” ما رراا با مشکل موااجه میکند. همچنین “کدپستی” بهتر ااست بهبودد یابد. ااستفاددهه اازز طولل وو عرضض
جغراافیایی میتوااند اانتخابب خوبی باشد…
58
بسامانن کرددنن اابعادد ددااددهه ددرر خوشهبندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
SOM creates a discretized low-dimensional representation.
59
محاسبه تشابهگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
60
محاسبه تشابهگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
61
همهمه ددرر میهمانیگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(Coctail Party) تفکیک صداا ددرر ددووررهمی
62
همهمه ددرر میهمانیگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(Coctail Party) تفکیک صداا ددرر ددووررهمی
63
همهمه ددرر میهمانیگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(Coctail Party) تفکیک صداا ددرر ددووررهمی
64
همهمه ددرر میهمانیگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(Coctail Party) تفکیک صداا ددرر ددووررهمی
65
ددشوااررییهایی پیاددهه ساززییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
66
ددشوااررییهایی پیاددهه ساززییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
67
حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi
68
حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi
69
حل مسئله همهمه ددرر میهمانی …گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi
70
ررااههحل یک خطی به کمک االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(Singular Value Decomposition) تجزیه مقداارر منفردد
71
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
توسعه یک االگورریتم ممکن ااست بسیارر ددشواارر باشد
72
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
توسعه یک االگورریتم ممکن ااست بسیارر ددشواارر باشد
اانتخابب االگورریتم وو تکنیک مناسب نیمی اازز ررااههحل مسئله ااست
73
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
با اانتخابب االگورریتم مناسب، اازز بسیارریی چالشهایی طرااحی به سالمت عبورر میکنیم:
74
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
با اانتخابب االگورریتم مناسب، اازز بسیارریی چالشهایی طرااحی به سالمت عبورر میکنیم:
اامکانن مطالعه یوززکیسهایی اانجامم شدهه
75
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
با اانتخابب االگورریتم مناسب، اازز بسیارریی چالشهایی طرااحی به سالمت عبورر میکنیم:
ررشد میزاانن ااحتمالل موفقیت پرووژژهه
اامکانن مطالعه یوززکیسهایی اانجامم شدهه
76
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
با اانتخابب االگورریتم مناسب، اازز بسیارریی چالشهایی طرااحی به سالمت عبورر میکنیم:
ررشد میزاانن ااحتمالل موفقیت پرووژژهه
کاهش نیازز به تخصصهایی کمیابب
اامکانن مطالعه یوززکیسهایی اانجامم شدهه
77
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
با اانتخابب االگورریتم مناسب، اازز بسیارریی چالشهایی طرااحی به سالمت عبورر میکنیم:
ررشد میزاانن ااحتمالل موفقیت پرووژژهه
کاهش هزینههایی پرووژژهه
کاهش نیازز به تخصصهایی کمیابب
اامکانن مطالعه یوززکیسهایی اانجامم شدهه
78
اانتخابب االگورریتم مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
با اانتخابب االگورریتم مناسب، اازز بسیارریی چالشهایی طرااحی به سالمت عبورر میکنیم:
ررشد میزاانن ااحتمالل موفقیت پرووژژهه
کاهش هزینههایی پرووژژهه
کاهش نیازز به تخصصهایی کمیابب
اامکانن مطالعه یوززکیسهایی اانجامم شدهه
اانتخابب ررووشی ددررست براایی حل مسئلهاایی ددشواارر
79
یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
80
اانتخابب پرووژژهه متنبازز مناسبگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
اانتخابب پرووژژهه متن بازز خوبب:
ررشد میزاانن ااحتمالل موفقیت پرووژژهه
کاهش هزینههایی پرووژژهه
کاهش نیازز به تخصصهایی کمیابب
اامکانن مطالعه یوززکیسهایی اانجامم شدهه
اانتخابب ررووشی ددررست براایی حل مسئلهاایی ددشواارر
81
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
2 m
82
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
83
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
84
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
85
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
86
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
87
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
88
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
89
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
90
نگاهی به یک ررااههحل متنباززگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
>> help svd
91
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
یکی اازز پر کارربردد ترین االگورریتمهایی خوشه بندیی، K-means ااست. االگورریتمهایی متعدددیی اازز آآنن منشعب شدههااند.
بسیارر سریع ااست. پیاددههساززییهایی گوناگونن K-means ددرر قالب پرووژژهههایی متن بازز ووجودد دداارردد.
92
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
مقاددیر ووررووددیی:
93
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
94
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی
95
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هر
96
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیم
97
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرdistance(xi, cj)نزددیک ترین مرکز خوشه cj رراا میابیم
98
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
99
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
به ااززاایی هر خوشه j (که k عددد هستند):
100
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه میکنیم
101
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه میکنیم
Qچه اابعاددیی رراا میتواانیم ااستفاددهه کنیم وو چراا؟
102
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه میکنیم
ااگر تغ�ریی حاصل نشد، متوقف میشویم.
103
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه میکنیم
Qااگر تغ�ریی حاصل نشد، متوقف میشویم. O?
104
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(k) وو تعداادد خوشهها x1, x2, …..xnمقاددیر ووررووددیی: مجموعه نقاطط
با مختصاتت ااتفاقی رروویی فضا قراارر میددهیمkc1, c2, …..ck مرکز خوشه فرضی تا حصولل همگراایی تکراارر میکنیم:
xi به ااززاایی هرنزددیک ترین مرکز خوشه cj رراا میابیمxi رراا به خوشه j منتسب میکنیم
distance(xi, cj)
به ااززاایی هر خوشه j (که k عددد هستند):براایی مرکز خوشه cj محل جدیدیی بر ااساسس متوسط نقاطط xi محاسبه میکنیم
ااگر تغ�ریی حاصل نشد، متوقف میشویم.O(خوشهها*نقاطط*اابعادد*تکراارر)
105
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
106
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
107
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
108
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
109
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
110
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
111
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
112
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
113
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
114
K-means نگاهی االگورریتم خوشه بندییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
115
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Qنقاطط ضعف K-means رراا ذذکر کنید:
116
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
:K-means نقاطط ضعف A
117
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
:K-means نقاطط ضعف Aحساسیت بسیارر باال به ددااددهههایی خاررجج اازز محدووددهه (Outlier) وو ااختاللل
118
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
:K-means نقاطط ضعف Aحساسیت بسیارر باال به ددااددهههایی خاررجج اازز محدووددهه (Outlier) وو ااختاللل
براایی خوشههایی که کروویی (دداایرهه) نیستند جوااببهایی خوبی تولید نمیکند
119
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Qنقاطط قوتت K-means رراا ذذکر کنید:
120
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
:K-means نقاطط قوتت A
121
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Aفهمیدنن آآنن آآسانن ااست
:K-means نقاطط قوتت
122
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Aفهمیدنن آآنن آآسانن ااست
رروویی مجموعه ددااددهههایی بسیارر بزررگگ به خوبی کارر میکند
:K-means نقاطط قوتت
123
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Aفهمیدنن آآنن آآسانن ااست
رروویی مجموعه ددااددهههایی بسیارر بزررگگ به خوبی کارر میکند
(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتمهایی ددقیقتر به طورر محسوسی کم ااست
:K-means نقاطط قوتت
124
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Aفهمیدنن آآنن آآسانن ااست
رروویی مجموعه ددااددهههایی بسیارر بزررگگ به خوبی کارر میکند
(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتمهایی ددقیقتر به طورر محسوسی کم ااست
براایی ااجراا فقط به تعداادد خوشهها (k) نیازز دداارردد
:K-means نقاطط قوتت
125
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Aفهمیدنن آآنن آآسانن ااست
رروویی مجموعه ددااددهههایی بسیارر بزررگگ به خوبی کارر میکند
(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتمهایی ددقیقتر به طورر محسوسی کم ااست
براایی ااجراا فقط به تعداادد خوشهها (k) نیازز دداارردد
تجرید باالیی که توسط معرفی مرکز خوشه اارراائه میشودد، نتیجه رراا ساددهه میکند
:K-means نقاطط قوتت
126
K-means نقاطط قوتت وو ضعفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Aفهمیدنن آآنن آآسانن ااست
رروویی مجموعه ددااددهههایی بسیارر بزررگگ به خوبی کارر میکند
(۱۰۰x) هزینه ااجراایی آآنن نسبت به االگورریتمهایی ددقیقتر به طورر محسوسی کم ااست
براایی ااجراا فقط به تعداادد خوشهها (k) نیازز دداارردد
تجرید باالیی که توسط معرفی مرکز خوشه اارراائه میشودد، نتیجه رراا ساددهه میکند
:K-means نقاطط قوتت
پیاددهه ساززیی آآنن بسیارر ساددهه ااست
127
پیاددهه ساززییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
کد بنویسیم
128
پیاددهه ساززییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
یک بنگاهه ااخبارر ووررززشی به ددنبالل برگزاارریی یک شهرآآوورردد بین تیمهایی
آآبی وو قرمز، نیاززمند خوشه بندیی ااخبارر مرتبط ااست.
129
یاددگیریی با نظاررتت - ملزووماتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Prerequisites:
• Windows, Linux or Mac • Java 1.7 • Apache Maven 3
130
CM - یاددگیریی با نظاررتتگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Create the Maven project:
mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=com.technobium -DartifactId=mahout-clustering -DinteractiveMode=false
131
یاددگیریی با نظاررتت - تغeر نامم گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Rename the default created App class to ClusteringDemo
mv mahout-clustering/src/main/java/com/technobium/App.java mahout-clustering/src/main/java/com/technobium/ClusteringDemo
132
یاددگیریی با نظاررتت - وواابستگیها گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Add the Mahout and SLF4J libraries to this project:cd mahout-clustering nano pom.xml
<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.7</version> </dependency>
133
یاددگیریی با نظاررتت - کد گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
134
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد
135
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد
136
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننیاددگیریی با نظاررتت - کد
137
یاددگیریی با نظاررتت - ااجراا گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
mvn compile mvn exec:java -Dexec.mainClass="com.technobium.ClusteringDemo"
Run the ClusteringDemo class by using the following commands:
138
یاددگیریی با نظاررتت - نتیجه گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
139
یاددگیریی با نظاررتت - گیتهابب گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
https://github.com/technobium/mahout-clustering
140
یاددگیریی با نظاررتت - وواابستگیها گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
TFIDF – term frequency inverse document frequency is an important weighting scheme which can be used in fields like machine learning, natural language processing, search engines and text mining. The metric is used to measure the relative importance of a word for a collection of documents. If a term or word occurs frequently in a document and not so frequently in the entire set of documents, it is more relevant to a search than a word that appears frequently across all the documents. By calculating TFIDF for all terms which appear in a set of document we can filter away the less relevant words. As an example, a word which appears only twice in a single document is more relevant to someone searching that document, compare to words which appear many times in all the documents like: the, is, at, and, or, on, etc. Using TFIDF the later words can be ignored and the relevant ones are retained.
141
یاددگیریی با نظاررتت - وواابستگیها گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
The canopy clustering algorithm is an unsupervised pre-clustering algorithm introduced by Andrew McCallum, Kamal Nigam and Lyle Ungar in 2000. It is often used as preprocessing step for the K-means algorithm or the Hierarchical clustering algorithm. It is intended to speed up clustering operations on large data sets, where using another algorithm directly may be impractical due to the size of the data set.
142
مرجعگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
http://www.datavizualization.com/blog/an-introduction-to-machine-learning-theory-and-its-applications-ahttps://www.coursera.org/learn/machine-learninghttps://en.wikipedia.org/wiki/Cluster_analysishttp://stackoverflow.com/questions/20414667/cocktail-party-algorithm-svd-implementation-in-one-line-of-codehttps://www.gnu.org/software/octave/http://technobium.com/introduction-to-clustering-using-apache-mahout/
https://github.com/technobium/mahout-clusteringhttp://homepages.inf.ed.ac.uk/vlavrenk/http://stats.stackexchange.com/questions/58855/why-do-we-use-k-means-instead-of-other-algorithmshttp://mahout.apache.org/users/clustering/canopy-clustering.htmlhttp://mahout.apache.org/users/clustering/fuzzy-k-means.htmlhttps://en.wikipedia.org/wiki/Canopy_clustering_algorithm