那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

Post on 05-Dec-2014

3.425 views 6 download

description

Opening Keynote for HadoopCon 2014 我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢? 此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。

Transcript of 那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper

那些你知道的,但還沒看過的 Big Data 風景

─ 致 Hadooper

Etu 負責人 蔣居裕

@fredchiang

fredchiang@etusolution.com

September 13, 2014

HadoopCon 2014

2

Who am I?� 蔣居裕 Fred Chiang

Open xxx 的愛好者

資料價值的探索者

社群的參與者

Etu 負責人

) Blog —《Fred 豢養的雲中象》http://fredbigdata.blogspot.tw all about Hadoop and Big Data 台灣少見以探討 Big Data 趨勢、技術、商業價值為主軸的專業部落格

3

第六屆台灣 Hadoop 社群年會

4

那麼今天

中央研究院 人文社會科學館 國際會議廳

(a.k.a 阿宅的豪華網咖,歡迎自帶網線)

到底有何風景可以看?�

5

社群的風景

速度的風景

資料科學的風景

Hadoop的風景�

6

社群的風景�

7

感謝贊助商 更感謝講者�

Satoshi Tagomori

Chris Huang

Masahiro Nakagawa 張日昇

謝良奇

Raymond

Simon Su 范姜冠宇 徐瑞興

Kewang

江孟峰

張雅芳 葉祐欣

李佳修

8

最最感謝志工團�

周采萱 � 陳唯綸 � 劉世偉�

Renata Chang (れな) 陳俊廷 戴資力 李佳勳

何永安 � 方紹昌 � 劉澤恩

林書宇 顏若庭

Randy macJack 鍾振杰

9

關注大大 ● 大大關注�

Jazz Wang 台灣 Hadoop 社群拿最大支大聲公的傳教士

最近很欠人手,要不要來 Etu ?�

Hadooper: 我還有問題要問,請保重身體

10

關注大大 ● 大大關注�

Wisely Chen (a.k.a The Giive)

Hadooper: 我愛 Hadoop, 我也愛 Spark

“因為中國 Hadoop 根基不深,很大程度「降低了推廣

Spark 的阻力」”

11

速度的風景�

12

速度是成本的加項 分散式運算成本若是⽤用乘的,那速度就是倍數加快

Volume 資料量�

Velocity 處理時效�

Variety 資料格式�

13

運算速度的級別�

Millisecs Secs Hrs

Batch Near Real-time Real-time

Transaction Small-scale

In-memory Large-scale

Persistent Data Large-Large-scale

Streaming Query Pre-processing

14

資料科學的風景�

15

Data Science 的要素

分工� 團隊�

人� 知識�

技能�

工具�

資料�

Domain

Pain Point

Value Up

16

How a typical software vendor approaches Data Science

(generally a bunch of developers)�

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

The Data Science Venn Diagram

1. Developers think they can handle the domain properly, but actually is not fully able to. Approach Listen to customers. Result Customers realize the developer’s capabilities are just coding. They have never dealt with the danger zone.

2. Developers think they can handle the algorithm as easy as an SQL command, but actually is not able to. Approach Calls for help. Result Developers are just coders. Machine learning is a dream.

PRISM� 稜鏡計畫�

Technical Support Manager

17

Hadoop的風景�

18

你講的是哪個 Hadoop ?�

MRv1�

HDFS�

Hadoop 1 MRv2�

HDFS2� YARN�

Spaek� HBase� Storm�

Hadoop 2

19

你講的 Hadoop 包含什麼 ?�

20

不同的 Use Case,你需要不同的

Ecosystem 組合�

21

1.   Early Market (早期市場) → 專案 (Project) 市場

2.   Bowling Alley (保齡球道) → 特定領域可重複銷售的解決方案 (Solution) 市場

3.   Tornado (龍捲風暴) → 標準化產品 (Product) 市場

4.   Main Street (康莊大道) → 系統 (System) 市場�

企業市場:Hadoop Big Data,我們還在跨越鴻溝

Geoffrey Moore’s Technology Adoption Lifecycle

We are here, crossing the

Chasm�

22

今天晚上就去看電影 現場填,下午抽獎

台灣 Hadooper,您填問卷了嗎? https://zh.surveymonkey.com/s/hadoopcon2014

今天不要用這個填�

23

www.etusolution.com/esd2014

Oct. 8 (Wed) @台北君悅

24

Etu is Hiring

1.  Software Engineer, Hadoop Platform 2.  Software Engineer, Etu Recommender / Etu Insight 3.  Professional Service Engineer 4.  Data Analysis / Data Mining Engineer 5.  Technical Support Manager

Resume mail to : hr@etusolution.com

25

謝謝�

www.etusolution.com info@etusolution.com Taipei, Taiwan 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069

Contact