Big Data and Machine Learning Workshop - Day 3 @ UTACM

114
1 ۱۳۹۵ ﺗﺎﺑﺴﺘﺎ ﺻﺪﯾﻘﯽﻣﯿﺮ ﻣﺎﺷﯿﻦ ﮔﯿﺮ ﯾﺎ ﺑﺰ ﻫﺎ ﻫﺎﺑﺮ ﮐﺎ ﺑﺮ ﮔﺬ@amirsedighi :ﺘﺮ4 ﺗﻮ:ﯾﻤﯿﻞ [email protected] ﻫﺎﺑﺰ ﻫﺎﺑﺮ ﮐﺎ، ﻫﺎ ﺟﺮﯾﺎ،( ِ ) ﺑﺰ ﻫﺎ - ﺳﻮ

Transcript of Big Data and Machine Learning Workshop - Day 3 @ UTACM

1

تابستانن ۱۳۹۵

اامیر صدیقی

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین

@amirsedighi تو4تر: [email protected]اایمیل:

ررووزز سومم - ددااددهه‌هایی‌بزررگگ (ِمه‌ددااددهه)، جریانن‌هایی ددااددهه، کارربردد‌ها وو اابزاارر‌ها

اامیر صدیقی

موسس:

2

معرفی

http://recommender.ir http://helio.ir http://commentum.ir

@amirsedighi تو4تر: [email protected]اایمیل:

3

آآنچه اامرووزز می‌آآموززیمگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(BigData Processing) (بیگ‌ددیتا/کالنن‌ددااددهه/ددااددهه‌هایی بزررگگ) آآشنایی با مفاهیم پرددااززشش ِمه‌ددااددهه (Data Streaming) آآشنایی با مفاهیم پرددااززشش جریانن‌هایی ددااددهه

آآشنایی با نیازز‌هایی کسب‌وو‌کارر وو صنعت ددرر حوززهه ددااددهه‌هایی بزررگگ وو جریانن‌هایی ددااددهه یک نمونه بکاررگیریی مشهورر‌ترین ززیرساخت پرددااززشش‌ ددااددهه‌هایی بزررگگ

با اابزااررهایی متن‌بازز پرکارربردد ااین حوززهه آآشنا می‌شیم

4

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

تارریخچه وو مفاهیم پایه

سرفصل

ررووشش‌ها وو اابزاارر‌ها

5

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانناازز تصوررااتت تا ووااقعیت

6

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددااددهه‌هایی بزررگگ ِمه‌ددااددهه

کالنن‌ددااددهه بیگ‌ددیتا

Big-Data

مقدمه

7

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

همین چند سالل پیش:

ددیرووزز

8

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز

9

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز

10

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز

11

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددیرووزز

640KB 1.2MB

12

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننتغKر هنجارر‌ها

13

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

14

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

15

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

16

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

17

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

18

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

19

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددااستانن اازز کجا شرووعع شد

20

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننتکامل ررووشش‌هایی تولید، تکثیر وو پرددااززشش ددااددهه

21

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننااثرااتت ناشی اازز ررشد تعداادد وو تنوعع کارربراانن

22

Welcome to the Machineگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

23

تعریف (خوددمانی) گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددااددهه‌ها بخشی اازز مسئله می‌شوند

(… SQL-Server ،MySQL ،ااکسل) ناتواانی ررووشش‌هایی متدااوولل

24

تعریف گاررنتر اازز ددااددهه‌هایی بزررگگگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

25

ااندااززههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

26

سرعتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

27

تنوععگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

28

صحتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

29

یک ثانیهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

30

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننخط مقدمم

31

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننخط مقدمم

Data Scientist Data Engineer

32

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننخط مقدمم

33

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

صفحاتت ووبب

34

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

پسندیدمم!

35

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

کامنت‌ها (نظر کارربراانن)

36

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

وویدئو‌

37

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

ترااکنش‌هایی مالی

38

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

تو4ت‌ها

39

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

تصویر

40

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

الگگ

41

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

الگگ

کلیک‌هایی کارربراانن

42

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

الگگ

کلیک‌هایی کارربرااننالگگ ووبب‌سروورر

43

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

الگگ

کلیک‌هایی کارربرااننالگگ ووبب‌سرووررالگگ ااپلیکیشن

44

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

الگگ

کلیک‌هایی کارربرااننالگگ ووبب‌سرووررالگگ ااپلیکیشنالگگ سیستم

45

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکداامم ددااددهه‌ها؟

الگگ

کلیک‌هایی کارربرااننالگگ ووبب‌سرووررالگگ ااپلیکیشنالگگ سیستم

الگگ ززندگی (ااینترنت‌چیز‌ها)

46

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننمنبع ااصلی

47

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننمنبع ااصلی

http://hadoopilluminated.com/hadoop_illuminated

48

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننمحدووددیت‌ها

چگونه توسط تجهیزااتت ااررززاانن وو ددرر ددسترسس یک بن‌ساززهه (Platform) براایی پرددااززشش ددااددهه‌هایی‌بزررگگ تهیه ببینیم؟

49

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسس‌پذیریی

50

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسس‌پذیریی

51

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسس‌پذیریی

Scale-Up

52

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسس‌پذیریی

Scale-Out

Scale-Up

53

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسس‌پذیریی

54

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Scalability) مقیاسس‌پذیریی

55

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز

56

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز

1999

57

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز

1999

2002

58

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز

1999

2002

59

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننچگونه؟

Q!چگونه به کمک تعداادد ززیاددیی ماشین ااررززاانن قیمت مقیاسس پذیریی خطی بدست بیا‌وورریم؟

60

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

Q!چگونه به کمک تعداادد ززیاددیی ماشین ااررززاانن قیمت مقیاسس پذیریی خطی بدست بیا‌وورریم؟

A(Map-Reduce) نگاشت کاهش

61

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز

1999

2002

2003 ..

62

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننسرآآغازز

1999

2002

2006200

63

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

تارریخچه وو مفاهیم پایه

ررووشش‌ها وو اابزاارر‌ها

64

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپرسش - اافزاایش تواانن پرددااززشش

Q یک جلد شاهنامه فرددووسی ددرر ااختیارر پیامم، ساسانن وو علی قراارر گرفته ااست. اازز اایشاننخوااسته‌ااند به سریع‌ترین ررووشش ممکن ااسامی رروودداابه، ررستم وو سهراابب رراا بشماررند.

چه ررووشی پیشنهادد می‌کنید؟

65

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهراابب

66

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهراابب

67

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهراابب

68

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهراابب

69

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهراابب

70

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهراابب

71

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهرااببرروودداابه

ررستم

سهراابب

رروودداابه

ررستم

سهراابب

رروودداابه

ررستم

سهراابب

72

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهرااببرروودداابه

ررستم

سهراابب

رروودداابه

ررستم

سهراابب

رروودداابه

ررستم

سهراابب

پیامم

ساسانن

علی

73

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

ساسانن

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهرااببپیامم

ساسانن

علی

رروودداابه

ررستم

سهراابب

74

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهرااببپیامم

ساسانن

علی

رروودداابه

ررستم

سهراابب

ساسانن

75

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهرااببپیامم

ساسانن

علی

رروودداابه

ررستم

سهراابب

ساسانن

map() shuffle() reduce()splitting()

76

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

پیامم

ساسانن

علی

پیامم

ساسانن

علی

رروودداابه، ررستم وو سهرااببپیامم

ساسانن

علی

رروودداابه

ررستم

سهراابب

ساسانن

map() shuffle() reduce()[k1,v1] by k1 [k1,[v1, v2, v3 …]]

77

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(Map-Reduce) نگاشت کاهش

78

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپرسش - اافزاایش ضریب ااطمینانن

Q یک خوشه با ۳۶۵ کامپیوتر ااررززاانن قیمت تهیه کرددهه‌اایم. بفرضض ااینکه هر کامپیوترااررززاانن‌قیمت، تنها سالی یکبارر خراابب شودد (هر نوعع خراابی) به طورر متوسط ررووززاانه یک خراابی خوااهیم ددااشت. ددرر چنین شراایطی چگونه سالمت ددااددهه‌ها وو سالمت پرددااززشش

(تکرااررپذیریی عملیاتت محسباتی) رراا تضمین کنیم؟

79

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(DFS) سامانه فایل توززیع شدهه

80

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن(DFS) سامانه فایل توززیع شدهه

81

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننبالکک سایز‌هایی بزررگگ

82

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننهدووپپ = پرددااززشش توززیع‌شدهه +‌فایل‌توززیع‌شدهه

Hadoop = HDFS + MapReduce

83

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانناارربابب/ ررعیتی

84

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانناارربابب/ ررعیتی

85

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننهدووپپ

86

آآشنایی با اابزاارر‌هایی ددیگرگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآشنایی با چند اابزاارر قدررتمند متن‌بازز

(Transfer) جابجایی

ذذخیرهه‌ساززیی

(Join) برقراارریی ااررتباطط

(Index) ااندیس‌گذاارریی

(Analytics) تحلیل

(Aggregate) تجمیع

(Visualize) نمایه‌ساززیی

87

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانننیاززمندیی‌هایی ما

Image ref: http://supplychaininsightsglobalsummit.com/steps-4-5-to-regain-manufacturing-prowess/

88

اانوااعع پایگاهه‌ددااددههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

89

SQL اانوااعع ووااسطگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

• Hive • Drill • Impala

90

اانتقالل ددااددههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

91

جستجو وو ااندیس گذااررییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

92

پیامم ررسانی وو مدیریت صفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

93

مدیریت الگگ فایلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

94

پرددااززشش جریانن ددااددههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Apache Flink

95

یاددگیریی ماشینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Apache HamaTensorFlowSystemML

96

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپیاددهه ساززیی

کد بنویسیم

97

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپیاددهه ساززیی

به کمک هدووپپ ووااژژهه‌هایی شاهنامه رراا بشماررید وو بر ااساسس فرااوواانی مرتب کنید.

98

کاهش نگاشت - ملزووماتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Prerequisites:

• Windows, Linux or Mac • Java 1.7 • Apache Maven 3

99

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددرریافت هدووپپ

اابتداا باید هدووپپ رراا نصب کنید. میتواانید سوررسس کد رراا بگیرید وو کمپایل کنید یا نسخه هایی

باینریی رراا دداانلودد وو نصب کنید.

100

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننددرریافت هدووپپ

اابتداا باید هدووپپ رراا نصب کنید. میتواانید سوررسس کد رراا بگیرید وو کمپایل کنید یا نسخه هایی

باینریی رراا دداانلودد وو نصب کنید.

101

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننکمپایل کد هدووپپ

ددرریافت وو کمپایل کد

102

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانننصب باینریی

(OS X) نصب نسخه‌هایی باینرییbrew install hadoop

103

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهرااننپیاددهه ساززیی

HDFS مثل هر ددیسک ددیگر باید براایی ااستفاددهه فرمت شودد:bin/hdfs namenode -format

براایی ررووشن کرددنن HDFS اازز ددستورر ززیر ااستفاددهه کنید:sbin/start-dfs.sh

میتواانید مثل هر سامانه فایل POSIX فولدرر بساززید:bin/hdfs dfs -mkdir /acm

براایی ررووشن کرددنن YARN اازز ااین ددستورر ااستفاددهه کنید:sbin/start-yarn.sh

براایی قراارر ددااددنن فایل ددرر HDFS اازز ددستورر ززیر ااستفاددهه کنید:bin/hdfs dfs -put yourFile.dat /acm

104

ساخت ساختارر ااوولیه پرووژژهه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create the Maven project:mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=ir.ac.ut.acm.wordcount -DartifactId=wordcount -DinteractiveMode=false

105

ساخت ساختارر ااوولیه پرووژژهه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create the project:mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=ir.ac.ut.acm.wordcount -DartifactId=wordcount -DinteractiveMode=false

106

وواابستگی‌ها…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

<dependency> <groupid>org.apache.hadoop</groupid> <artifactid>hadoop-client</artifactid> <version>2.7.2</version> </dependency>

Add the Hadoop Client the project POM:

107

وواابستگی‌ها…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add the following plugins to the POM:<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-jar-plugin</artifactId> <configuration> <archive> <manifest> <addClasspath>true</addClasspath> <mainClass>ir.ac.ut.acm.wordcount.WordCount</mainClass> </manifest> </archive> </configuration> </plugin>

108

وواابستگی‌ها…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add the following plugins to the POM:

<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <configuration> <source>1.7</source> <target>1.7</target> </configuration> </plugin>

109

جاووااگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create WordCount.javapackage ir.ac.ut.acm.wordcount;

import java.io.IOException; import java.util.*;

import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.*; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class WordCount {

public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text();

public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } }

110

جاووااگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } }

public static void main(String[] args) throws Exception { Configuration conf = new Configuration();

Job job = new Job(conf, "wordcount");

job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class);

job.setMapperClass(Map.class); job.setReducerClass(Reduce.class);

job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class);

FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.waitForCompletion(true); }

}

Complete WordCount.java

111

کمپایل وو ساخت بسته ااجراایی وو ااجراا…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

mvn clean install

112

کمپایل وو ساخت بسته ااجراایی وو ااجراا…گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

hadoop jar target/wordcount-1.0-SNAPSHOT.jar input.txt wcount

113

نتیجه مرتب شدهه ااست!گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

114

مرجعگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

http://www.infogovsolutions.com/defensible-disposition-of-structured-data-2/http://pamneely.com/6-ways-search-will-change/http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-sciencehttp://www.slideshare.net/accavdar/big-data-tech-stackhttp://wallup.net/preview/?wallpaper=glaciers-landscape-snow-water-drops-water-nature-iceberg-underwaterhttp://wikipediea

http://hadoopilluminated.com/hadoop_illuminated

http://wiki.apache.org/hadoop/http://tuttlem.github.io/2014/01/30/create-a-mapreduce-job-using-java-and-maven.html

https://getblueshift.com/setting-up-hadoop-2-4-and-pig-0-12-on-osx-locally/

کد پیاددهه ساززیی