那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

26
那些你知道的,但還沒看過的 Big Data 風景 Hadooper Etu 負責人 蔣居裕 @fredchiang [email protected] September 13, 2014 HadoopCon 2014

description

Opening Keynote for HadoopCon 2014 我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢? 此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。

Transcript of 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

Page 1: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

那些你知道的,但還沒看過的 Big Data 風景

─ 致 Hadooper

Etu 負責人 蔣居裕

@fredchiang

[email protected]

September 13, 2014

HadoopCon 2014

Page 2: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

2

Who am I?� 蔣居裕 Fred Chiang

Open xxx 的愛好者

資料價值的探索者

社群的參與者

Etu 負責人

) Blog —《Fred 豢養的雲中象》http://fredbigdata.blogspot.tw all about Hadoop and Big Data 台灣少見以探討 Big Data 趨勢、技術、商業價值為主軸的專業部落格

Page 3: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

3

第六屆台灣 Hadoop 社群年會

Page 4: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

4

那麼今天

中央研究院 人文社會科學館 國際會議廳

(a.k.a 阿宅的豪華網咖,歡迎自帶網線)

到底有何風景可以看?�

Page 5: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

5

社群的風景

速度的風景

資料科學的風景

Hadoop的風景�

Page 6: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

6

社群的風景�

Page 7: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

7

感謝贊助商 更感謝講者�

Satoshi Tagomori

Chris Huang

Masahiro Nakagawa 張日昇

謝良奇

Raymond

Simon Su 范姜冠宇 徐瑞興

Kewang

江孟峰

張雅芳 葉祐欣

李佳修

Page 8: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

8

最最感謝志工團�

周采萱 � 陳唯綸 � 劉世偉�

Renata Chang (れな) 陳俊廷 戴資力 李佳勳

何永安 � 方紹昌 � 劉澤恩

林書宇 顏若庭

Randy macJack 鍾振杰

Page 9: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

9

關注大大 ● 大大關注�

Jazz Wang 台灣 Hadoop 社群拿最大支大聲公的傳教士

最近很欠人手,要不要來 Etu ?�

Hadooper: 我還有問題要問,請保重身體

Page 10: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

10

關注大大 ● 大大關注�

Wisely Chen (a.k.a The Giive)

Hadooper: 我愛 Hadoop, 我也愛 Spark

“因為中國 Hadoop 根基不深,很大程度「降低了推廣

Spark 的阻力」”

Page 11: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

11

速度的風景�

Page 12: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

12

速度是成本的加項 分散式運算成本若是⽤用乘的,那速度就是倍數加快

Volume 資料量�

Velocity 處理時效�

Variety 資料格式�

Page 13: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

13

運算速度的級別�

Millisecs Secs Hrs

Batch Near Real-time Real-time

Transaction Small-scale

In-memory Large-scale

Persistent Data Large-Large-scale

Streaming Query Pre-processing

Page 14: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

14

資料科學的風景�

Page 15: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

15

Data Science 的要素

分工� 團隊�

人� 知識�

技能�

工具�

資料�

Domain

Pain Point

Value Up

Page 16: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

16

How a typical software vendor approaches Data Science

(generally a bunch of developers)�

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

The Data Science Venn Diagram

1. Developers think they can handle the domain properly, but actually is not fully able to. Approach Listen to customers. Result Customers realize the developer’s capabilities are just coding. They have never dealt with the danger zone.

2. Developers think they can handle the algorithm as easy as an SQL command, but actually is not able to. Approach Calls for help. Result Developers are just coders. Machine learning is a dream.

PRISM� 稜鏡計畫�

Technical Support Manager

Page 17: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

17

Hadoop的風景�

Page 18: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

18

你講的是哪個 Hadoop ?�

MRv1�

HDFS�

Hadoop 1 MRv2�

HDFS2� YARN�

Spaek� HBase� Storm�

Hadoop 2

Page 19: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

19

你講的 Hadoop 包含什麼 ?�

Page 20: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

20

不同的 Use Case,你需要不同的

Ecosystem 組合�

Page 21: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

21

1.   Early Market (早期市場) → 專案 (Project) 市場

2.   Bowling Alley (保齡球道) → 特定領域可重複銷售的解決方案 (Solution) 市場

3.   Tornado (龍捲風暴) → 標準化產品 (Product) 市場

4.   Main Street (康莊大道) → 系統 (System) 市場�

企業市場:Hadoop Big Data,我們還在跨越鴻溝

Geoffrey Moore’s Technology Adoption Lifecycle

We are here, crossing the

Chasm�

Page 22: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

22

今天晚上就去看電影 現場填,下午抽獎

台灣 Hadooper,您填問卷了嗎? https://zh.surveymonkey.com/s/hadoopcon2014

今天不要用這個填�

Page 23: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

23

www.etusolution.com/esd2014

Oct. 8 (Wed) @台北君悅

Page 24: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

24

Etu is Hiring

1.  Software Engineer, Hadoop Platform 2.  Software Engineer, Etu Recommender / Etu Insight 3.  Professional Service Engineer 4.  Data Analysis / Data Mining Engineer 5.  Technical Support Manager

Resume mail to : [email protected]

Page 25: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

25

謝謝�

Page 26: 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

www.etusolution.com [email protected] Taipei, Taiwan 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069

Contact