Big Data and Machine Learning Workshop - Day 3 @ UTACM
-
Upload
amir-sedighi -
Category
Data & Analytics
-
view
337 -
download
0
Transcript of Big Data and Machine Learning Workshop - Day 3 @ UTACM
1
تابستانن ۱۳۹۵
اامیر صدیقی
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین
@amirsedighi تو4تر: [email protected]اایمیل:
ررووزز سومم - ددااددهههاییبزررگگ (ِمهددااددهه)، جریاننهایی ددااددهه، کارربرددها وو اابزااررها
اامیر صدیقی
موسس:
2
معرفی
http://recommender.ir http://helio.ir http://commentum.ir
@amirsedighi تو4تر: [email protected]اایمیل:
3
آآنچه اامرووزز میآآموززیمگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
(BigData Processing) (بیگددیتا/کالننددااددهه/ددااددهههایی بزررگگ) آآشنایی با مفاهیم پرددااززشش ِمهددااددهه (Data Streaming) آآشنایی با مفاهیم پرددااززشش جریاننهایی ددااددهه
آآشنایی با نیاززهایی کسبووکارر وو صنعت ددرر حوززهه ددااددهههایی بزررگگ وو جریاننهایی ددااددهه یک نمونه بکاررگیریی مشهوررترین ززیرساخت پرددااززشش ددااددهههایی بزررگگ
با اابزااررهایی متنبازز پرکارربردد ااین حوززهه آآشنا میشیم
4
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
تارریخچه وو مفاهیم پایه
سرفصل
ررووششها وو اابزااررها
5
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانناازز تصوررااتت تا ووااقعیت
6
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
ددااددهههایی بزررگگ ِمهددااددهه
کالننددااددهه بیگددیتا
Big-Data
مقدمه
7
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
همین چند سالل پیش:
ددیرووزز
8
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز
9
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز
10
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز
11
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز
640KB 1.2MB
12
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننتغKر هنجاررها
13
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
14
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
15
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
16
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
17
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
18
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
19
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد
20
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننتکامل ررووششهایی تولید، تکثیر وو پرددااززشش ددااددهه
21
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننااثرااتت ناشی اازز ررشد تعداادد وو تنوعع کارربراانن
22
Welcome to the Machineگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
23
تعریف (خوددمانی) گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
ددااددههها بخشی اازز مسئله میشوند
(… SQL-Server ،MySQL ،ااکسل) ناتواانی ررووششهایی متدااوولل
24
تعریف گاررنتر اازز ددااددهههایی بزررگگگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
25
ااندااززههگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
26
سرعتگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
27
تنوععگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
28
صحتگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
29
یک ثانیهگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
30
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننخط مقدمم
31
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننخط مقدمم
Data Scientist Data Engineer
32
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننخط مقدمم
33
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
صفحاتت ووبب
34
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
پسندیدمم!
35
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
کامنتها (نظر کارربراانن)
36
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
وویدئو
37
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
ترااکنشهایی مالی
38
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
تو4تها
39
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
تصویر
40
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
الگگ
41
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
الگگ
کلیکهایی کارربراانن
42
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
الگگ
کلیکهایی کارربرااننالگگ ووببسروورر
43
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
الگگ
کلیکهایی کارربرااننالگگ ووببسرووررالگگ ااپلیکیشن
44
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
الگگ
کلیکهایی کارربرااننالگگ ووببسرووررالگگ ااپلیکیشنالگگ سیستم
45
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددههها؟
الگگ
کلیکهایی کارربرااننالگگ ووببسرووررالگگ ااپلیکیشنالگگ سیستم
الگگ ززندگی (ااینترنتچیزها)
46
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننمنبع ااصلی
47
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننمنبع ااصلی
http://hadoopilluminated.com/hadoop_illuminated
48
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننمحدووددیتها
چگونه توسط تجهیزااتت ااررززاانن وو ددرر ددسترسس یک بنساززهه (Platform) براایی پرددااززشش ددااددهههاییبزررگگ تهیه ببینیم؟
49
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسسپذیریی
50
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسسپذیریی
51
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسسپذیریی
Scale-Up
52
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسسپذیریی
Scale-Out
Scale-Up
53
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسسپذیریی
54
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسسپذیریی
55
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز
56
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز
1999
57
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز
1999
2002
58
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز
1999
2002
59
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننچگونه؟
Q!چگونه به کمک تعداادد ززیاددیی ماشین ااررززاانن قیمت مقیاسس پذیریی خطی بدست بیاوورریم؟
60
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
Q!چگونه به کمک تعداادد ززیاددیی ماشین ااررززاانن قیمت مقیاسس پذیریی خطی بدست بیاوورریم؟
A(Map-Reduce) نگاشت کاهش
61
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز
1999
2002
2003 ..
62
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز
1999
2002
2006200
63
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
تارریخچه وو مفاهیم پایه
ررووششها وو اابزااررها
64
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپرسش - اافزاایش تواانن پرددااززشش
Q یک جلد شاهنامه فرددووسی ددرر ااختیارر پیامم، ساسانن وو علی قراارر گرفته ااست. اازز اایشاننخوااستهااند به سریعترین ررووشش ممکن ااسامی رروودداابه، ررستم وو سهراابب رراا بشماررند.
چه ررووشی پیشنهادد میکنید؟
65
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهراابب
66
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهراابب
67
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهراابب
68
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهراابب
69
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهراابب
70
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهراابب
71
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهرااببرروودداابه
ررستم
سهراابب
رروودداابه
ررستم
سهراابب
رروودداابه
ررستم
سهراابب
72
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهرااببرروودداابه
ررستم
سهراابب
رروودداابه
ررستم
سهراابب
رروودداابه
ررستم
سهراابب
پیامم
ساسانن
علی
73
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
ساسانن
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهرااببپیامم
ساسانن
علی
رروودداابه
ررستم
سهراابب
74
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهرااببپیامم
ساسانن
علی
رروودداابه
ررستم
سهراابب
ساسانن
75
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهرااببپیامم
ساسانن
علی
رروودداابه
ررستم
سهراابب
ساسانن
map() shuffle() reduce()splitting()
76
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
پیامم
ساسانن
علی
پیامم
ساسانن
علی
رروودداابه، ررستم وو سهرااببپیامم
ساسانن
علی
رروودداابه
ررستم
سهراابب
ساسانن
map() shuffle() reduce()[k1,v1] by k1 [k1,[v1, v2, v3 …]]
77
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش
78
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپرسش - اافزاایش ضریب ااطمینانن
Q یک خوشه با ۳۶۵ کامپیوتر ااررززاانن قیمت تهیه کرددههاایم. بفرضض ااینکه هر کامپیوترااررززااننقیمت، تنها سالی یکبارر خراابب شودد (هر نوعع خراابی) به طورر متوسط ررووززاانه یک خراابی خوااهیم ددااشت. ددرر چنین شراایطی چگونه سالمت ددااددههها وو سالمت پرددااززشش
(تکرااررپذیریی عملیاتت محسباتی) رراا تضمین کنیم؟
79
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(DFS) سامانه فایل توززیع شدهه
80
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(DFS) سامانه فایل توززیع شدهه
81
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننبالکک سایزهایی بزررگگ
82
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننهدووپپ = پرددااززشش توززیعشدهه +فایلتوززیعشدهه
Hadoop = HDFS + MapReduce
83
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانناارربابب/ ررعیتی
84
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانناارربابب/ ررعیتی
85
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننهدووپپ
86
آآشنایی با اابزااررهایی ددیگرگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
آآشنایی با چند اابزاارر قدررتمند متنبازز
(Transfer) جابجایی
ذذخیرههساززیی
(Join) برقراارریی ااررتباطط
(Index) ااندیسگذاارریی
(Analytics) تحلیل
(Aggregate) تجمیع
(Visualize) نمایهساززیی
87
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانننیاززمندییهایی ما
Image ref: http://supplychaininsightsglobalsummit.com/steps-4-5-to-regain-manufacturing-prowess/
88
اانوااعع پایگاههددااددههگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
89
SQL اانوااعع ووااسطگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
• Hive • Drill • Impala
90
اانتقالل ددااددههگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
91
جستجو وو ااندیس گذااررییگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
92
پیامم ررسانی وو مدیریت صفگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
93
مدیریت الگگ فایلگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
94
پرددااززشش جریانن ددااددههگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Apache Flink
95
یاددگیریی ماشینگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Apache HamaTensorFlowSystemML
96
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپیاددهه ساززیی
کد بنویسیم
97
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپیاددهه ساززیی
به کمک هدووپپ ووااژژهههایی شاهنامه رراا بشماررید وو بر ااساسس فرااوواانی مرتب کنید.
98
کاهش نگاشت - ملزووماتت گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Prerequisites:
• Windows, Linux or Mac • Java 1.7 • Apache Maven 3
99
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددرریافت هدووپپ
اابتداا باید هدووپپ رراا نصب کنید. میتواانید سوررسس کد رراا بگیرید وو کمپایل کنید یا نسخه هایی
باینریی رراا دداانلودد وو نصب کنید.
100
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددرریافت هدووپپ
اابتداا باید هدووپپ رراا نصب کنید. میتواانید سوررسس کد رراا بگیرید وو کمپایل کنید یا نسخه هایی
باینریی رراا دداانلودد وو نصب کنید.
101
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکمپایل کد هدووپپ
ددرریافت وو کمپایل کد
102
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانننصب باینریی
(OS X) نصب نسخههایی باینرییbrew install hadoop
103
گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپیاددهه ساززیی
HDFS مثل هر ددیسک ددیگر باید براایی ااستفاددهه فرمت شودد:bin/hdfs namenode -format
براایی ررووشن کرددنن HDFS اازز ددستورر ززیر ااستفاددهه کنید:sbin/start-dfs.sh
میتواانید مثل هر سامانه فایل POSIX فولدرر بساززید:bin/hdfs dfs -mkdir /acm
براایی ررووشن کرددنن YARN اازز ااین ددستورر ااستفاددهه کنید:sbin/start-yarn.sh
براایی قراارر ددااددنن فایل ددرر HDFS اازز ددستورر ززیر ااستفاددهه کنید:bin/hdfs dfs -put yourFile.dat /acm
104
ساخت ساختارر ااوولیه پرووژژهه گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Create the Maven project:mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=ir.ac.ut.acm.wordcount -DartifactId=wordcount -DinteractiveMode=false
105
ساخت ساختارر ااوولیه پرووژژهه گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Create the project:mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=ir.ac.ut.acm.wordcount -DartifactId=wordcount -DinteractiveMode=false
106
وواابستگیها…گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
<dependency> <groupid>org.apache.hadoop</groupid> <artifactid>hadoop-client</artifactid> <version>2.7.2</version> </dependency>
Add the Hadoop Client the project POM:
107
وواابستگیها…گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Add the following plugins to the POM:<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-jar-plugin</artifactId> <configuration> <archive> <manifest> <addClasspath>true</addClasspath> <mainClass>ir.ac.ut.acm.wordcount.WordCount</mainClass> </manifest> </archive> </configuration> </plugin>
108
وواابستگیها…گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Add the following plugins to the POM:
<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <configuration> <source>1.7</source> <target>1.7</target> </configuration> </plugin>
109
جاووااگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
Create WordCount.javapackage ir.ac.ut.acm.wordcount;
import java.io.IOException; import java.util.*;
import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.*; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
public class WordCount {
public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text();
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } }
110
جاووااگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } }
public static void main(String[] args) throws Exception { Configuration conf = new Configuration();
Job job = new Job(conf, "wordcount");
job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class);
job.setMapperClass(Map.class); job.setReducerClass(Reduce.class);
job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.waitForCompletion(true); }
}
Complete WordCount.java
111
کمپایل وو ساخت بسته ااجراایی وو ااجراا…گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
mvn clean install
112
کمپایل وو ساخت بسته ااجراایی وو ااجراا…گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
hadoop jar target/wordcount-1.0-SNAPSHOT.jar input.txt wcount
113
نتیجه مرتب شدهه ااست!گذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
114
مرجعگذرریی بر کارربرددهایی ددااددهههایی بزررگگ وو یاددگیرییماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن
http://www.infogovsolutions.com/defensible-disposition-of-structured-data-2/http://pamneely.com/6-ways-search-will-change/http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-sciencehttp://www.slideshare.net/accavdar/big-data-tech-stackhttp://wallup.net/preview/?wallpaper=glaciers-landscape-snow-water-drops-water-nature-iceberg-underwaterhttp://wikipediea
http://hadoopilluminated.com/hadoop_illuminated
http://wiki.apache.org/hadoop/http://tuttlem.github.io/2014/01/30/create-a-mapreduce-job-using-java-and-maven.html
https://getblueshift.com/setting-up-hadoop-2-4-and-pig-0-12-on-osx-locally/
کد پیاددهه ساززیی