Hadoop 2.0 之古往今來

Hadoop 古往今來

陳威宇

Agenda

• Hadoop 的興起

– 成功案例

– 捨我其誰

– 派系爭霸

– 自我介紹

• Hadoop 的挑戰

• Hadoop 的組織再造

– 1.0 到 2.0 進擊

2

Hadoop 興起篇

3 Figure source: https://practicalanalytics.wordpress.com/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/

Hadoop 案例一

Wal-Mart分析顧客商品搜尋行為，找出超越競爭對手的商機

4

延伸閱讀:

Hadoop 案例二

eBay用Hadoop拆解非結構性巨量資料，降低資料倉儲負載

5

延伸閱讀: Hadoop在Yahoo！的應用 Hadoop在eBay的應用 Hadoop在百度的應用 Hadoop在Facebook的應用 Hadoop平臺上的海量資料排序 http://book.51cto.com/art/201110/298604.htm

http://book.51cto.com/art/201110/298604.htm

Hadoop 案例三

Visa快速發現可疑交易，1個月分析時間縮短成13分鐘

6

Hadoop 案例四

台積電派員赴美考取Hadoop證照，尋找影響良率的製程關鍵

7

Big Data 改變大公司，也改變你和我

8 See : http://m.ltn.com.tw/news/life/breakingnews/1059524 See : http://tieba.baidu.com/p/3243853803

九州大學講師縄田健悟領導的研究團隊，發現一份在2004年至2005年間進行的問卷，共有1萬多名日本人和美國人參與調查，清楚記載了受試者的血型、性格描述、對事物的好惡等答題資訊。

出題方是復旦大學社會科學資料研究中心，他們在上海市範圍內找了80個社區、3311個家庭，花了半年時間入戶一對一答題。

1.男人越老越值錢? 2.另一半錢和長相都不重要? 3.教育程度接近時最和諧? 4.結婚前談個純純之愛? 5.婚前同居時間越長，對婚姻滿意度越高? 6.教育程度越高幸福感越強? 7.人生真的需要"贏在起跑線上"? 8."拼爹"才能更上層樓?

1.女大三，抱金磚! 2.生活習慣、性格和智商 3.門當戶對才登對! 4.以結婚為前提交往! 5.試婚有必要! 6.願得一學霸，白首不相離! 7.小時不了，大未必壞! 8."拼媽"更重要!

Why ! 大資料 = Hadoop ?

• 免費 ?

• 儲存大量資料 ?

• 安全 ?

• 平行分散式 ?

• 容錯?

9

可儲存大量資料的技術很多，重點在 : 運算運算效率的核心在於 : data locality

Figure source: https://cvw.cac.cornell.edu/MapReduce/locality

Hadoop 的派系爭霸

• Hadoop 可比喻為 Linux kernel

– linux kernel : redhat, fedora, centos, debian, ubuntu, .. Etc

• 所以 Hadoop 也有許多的 Distribution

– Apache Community Source ( 源頭)

– Cloudera = Cloudera Distribution Hadoop

– Intel = Intel Distribution for Hadoop

– Oracle = oracle big data appliance

– Hortonworks = Hortonworks Data Platform

– Microsoft HDInsight

– MapR

10

Hadoop 自我介紹

• Apache Hadoop software

– open-source software for reliable, scalable, distributed computing

• 主要系統:

– Hadoop Distributed File System • Self-healing high-bandwidth clustered storage

– MapReduce • Distributed fault-tolerant resource management and

scheduling coupled with a scalable data programming abstraction.

11

Hadoop 1.X MapReduce

• 一個 Master ( jobtracker)，多個 Worker (tasktracker)

• Data -> map -> (shuffle & sort ) -> reduce -> result

12 Figure source: https://www.cs.rutgers.edu/~pxk/417/notes/content/mapreduce.html

Hadoop 1.X HDFS

• Namenode 掌管所有資料的定址空間 ( 上限管 4000 nodes; 1千萬個blocks 佔 3GB記憶體 )

13 Figure source: http://www.slideshare.net/EdurekaIN/hadoop-20-architecture-hdfs-federation-namenode-high-availability

Hadoop 1.X 遇到的挑戰

14

我們希望事實上

儲存篇

(

HD

FS )

• 無論大小，通通進hdfs

• 資料可以任意修改

• 生產在用，當然要 High

Availability

• 一個 namenode 管理資料的定

址空間有限

• 檔案無法再修改

• Single Point Of Failure

運算篇

(

Map

Re

du

ce) • 多種用法

• 圖形運算

• 及時運算

• 資源分配更精確更廣泛

• 只有 batch job

• 文字處理

• 每個batch job 都需讀所有的資

料、一起處理

• 只有一種用法 : Map -> Reduce

Hadoop 組織再造篇

15 Figure source: http://www.slideshare.net/martyhall/hadoop-tutorial-mapreduce-on-yarn-part-1-overview-and-installation/

HDFS 2.0 - HA

• HA

16

HDFS 2.0 - Federation

• Federation

17

MapReduce 2.0 - YARN

• Yet Another Resource Negotiator

• (JT, TT ) => (RM, NM, AM)

• 可非 MapReduce 架構 => Container

18

Hadoop 2.0 總體檢

19

我們希望事實上改進

儲存篇

( H

DFS

) • 無論大小，通通進hdfs

• 資料可以任意修改

• 生產在用，當然要

High Availability

• 一個 namenode 管理資

料的定址空間有限

• 檔案無法再修改

• Single Point Of Failure

可透過 federation 延

伸

非 2.0 改進目標

可透過 HA 機制

運算篇

(

Map

Re

du

ce)

• 多種用法

• 圖形運算

• 及時運算

• 資源分配更精確更廣

泛

• 只有 batch job

• 文字處理

• 每個batch job 都需讀所

有的資料、一起處理

• 只有一種用法 : Map ->

Reduce

realtime, interative,..

graphing,…

IN-Memory

container

結語

• 大資料已非僅商業獲利武器，有更多應用貼近你我的生活

• 大資料的重點非儲存，而是分析

• Hadoop 目前是大資料(batch)分析的主流，也是大資料技術的入門磚

• Hadoop 已經演進到第二代，在基礎的條件下，添加更多功能，有更多可期待性

20

backup

22 See : http://www.wx135.com/zh-tw/articles/20150106/54ad2050-37c8-46ac-a9ce-1c5a02734e20.html

Hadoop 2.0 之古往今來

Software

Transcript of Hadoop 2.0 之古往今來