Introduction to Hadoop 2.0 & YARN | Hadoop 2.0 & YARN Fundamentals | Hadoop 2.0 & YARN Architecture
Hadoop 2.0 之古往今來
-
Upload
wei-yu-chen -
Category
Software
-
view
198 -
download
5
Transcript of Hadoop 2.0 之古往今來
Hadoop 古往今來
陳威宇
Agenda
• Hadoop 的興起
– 成功案例
– 捨我其誰
– 派系爭霸
– 自我介紹
• Hadoop 的挑戰
• Hadoop 的組織再造
– 1.0 到 2.0 進擊
2
Hadoop 興起篇
3 Figure source: https://practicalanalytics.wordpress.com/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/
Hadoop 案例一
Wal-Mart分析顧客商品搜尋行為,找出超越競爭對手的商機
4
延伸閱讀:
Hadoop 案例二
eBay用Hadoop拆解非結構性巨量資料,降低資料倉儲負載
5
延伸閱讀: Hadoop在Yahoo!的應用 Hadoop在eBay的應用 Hadoop在百度的應用 Hadoop在Facebook的應用 Hadoop平臺上的海量資料排序 http://book.51cto.com/art/201110/298604.htm
Hadoop 案例三
Visa快速發現可疑交易,1個月分析時間縮短成13分鐘
6
Hadoop 案例四
台積電派員赴美考取Hadoop證照,尋找影響良率的製程關鍵
7
Big Data 改變大公司,也改變你和我
8 See : http://m.ltn.com.tw/news/life/breakingnews/1059524 See : http://tieba.baidu.com/p/3243853803
九州大學講師縄田健悟領導的研究團隊,發現一份在2004年至2005年間進行的問卷,共有1萬多名日本人和美國人參與調查,清楚記載了受試者的血型、性格描述、對事物的好惡等答題資訊。
出題方是復旦大學社會科學資料研究中心,他們在上海市範圍內找了80個社區、3311個家庭,花了半年時間入戶一對一答題。
1.男人越老越值錢? 2.另一半錢和長相都不重要? 3.教育程度接近時最和諧? 4.結婚前談個純純之愛? 5.婚前同居時間越長,對婚姻滿意度越高? 6.教育程度越高幸福感越強? 7.人生真的需要"贏在起跑線上"? 8."拼爹"才能更上層樓?
1.女大三,抱金磚! 2.生活習慣、性格和智商 3.門當戶對才登對! 4.以結婚為前提交往! 5.試婚有必要! 6.願得一學霸,白首不相離! 7.小時不了,大未必壞! 8."拼媽"更重要!
Why ! 大資料 = Hadoop ?
• 免費 ?
• 儲存大量資料 ?
• 安全 ?
• 平行分散式 ?
• 容錯?
9
可儲存大量資料的技術很多,重點在 : 運算 運算效率的核心在於 : data locality
Figure source: https://cvw.cac.cornell.edu/MapReduce/locality
Hadoop 的派系爭霸
• Hadoop 可比喻為 Linux kernel
– linux kernel : redhat, fedora, centos, debian, ubuntu, .. Etc
• 所以 Hadoop 也有許多的 Distribution
– Apache Community Source ( 源頭)
– Cloudera = Cloudera Distribution Hadoop
– Intel = Intel Distribution for Hadoop
– Oracle = oracle big data appliance
– Hortonworks = Hortonworks Data Platform
– Microsoft HDInsight
– MapR
10
Hadoop 自我介紹
• Apache Hadoop software
– open-source software for reliable, scalable, distributed computing
• 主要系統:
– Hadoop Distributed File System • Self-healing high-bandwidth clustered storage
– MapReduce • Distributed fault-tolerant resource management and
scheduling coupled with a scalable data programming abstraction.
11
Hadoop 1.X MapReduce
• 一個 Master ( jobtracker),多個 Worker (tasktracker)
• Data -> map -> (shuffle & sort ) -> reduce -> result
12 Figure source: https://www.cs.rutgers.edu/~pxk/417/notes/content/mapreduce.html
Hadoop 1.X HDFS
• Namenode 掌管所有資料的定址空間 ( 上限管 4000 nodes; 1千萬個blocks 佔 3GB記憶體 )
13 Figure source: http://www.slideshare.net/EdurekaIN/hadoop-20-architecture-hdfs-federation-namenode-high-availability
Hadoop 1.X 遇到的挑戰
14
我們希望 事實上
儲存篇
(
HD
FS )
• 無論大小,通通進hdfs
• 資料可以任意修改
• 生產在用,當然要 High
Availability
• 一個 namenode 管理資料的定
址空間有限
• 檔案無法再修改
• Single Point Of Failure
運算篇
(
Map
Re
du
ce) • 多種用法
• 圖形運算
• 及時運算
• 資源分配更精確更廣泛
• 只有 batch job
• 文字處理
• 每個batch job 都需讀所有的資
料、一起處理
• 只有一種用法 : Map -> Reduce
Hadoop 組織再造篇
15 Figure source: http://www.slideshare.net/martyhall/hadoop-tutorial-mapreduce-on-yarn-part-1-overview-and-installation/
HDFS 2.0 - HA
• HA
16
HDFS 2.0 - Federation
• Federation
17
MapReduce 2.0 - YARN
• Yet Another Resource Negotiator
• (JT, TT ) => (RM, NM, AM)
• 可非 MapReduce 架構 => Container
18
Hadoop 2.0 總體檢
19
我們希望 事實上 改進
儲存篇
( H
DFS
) • 無論大小,通通進hdfs
• 資料可以任意修改
• 生產在用,當然要
High Availability
• 一個 namenode 管理資
料的定址空間有限
• 檔案無法再修改
• Single Point Of Failure
可透過 federation 延
伸
非 2.0 改進目標
可透過 HA 機制
運算篇
(
Map
Re
du
ce)
• 多種用法
• 圖形運算
• 及時運算
• 資源分配更精確更廣
泛
• 只有 batch job
• 文字處理
• 每個batch job 都需讀所
有的資料、一起處理
• 只有一種用法 : Map ->
Reduce
realtime, interative,..
graphing,…
IN-Memory
container
結語
• 大資料已非僅商業獲利武器,有更多應用貼近你我的生活
• 大資料的重點非儲存,而是分析
• Hadoop 目前是大資料(batch)分析的主流,也是大資料技術的入門磚
• Hadoop 已經演進到第二代,在基礎的條件下,添加更多功能,有更多可期待性
20
backup
22 See : http://www.wx135.com/zh-tw/articles/20150106/54ad2050-37c8-46ac-a9ce-1c5a02734e20.html