大數據分析跨域團隊建立 -...

28
Big Data Analytics for Semiconductor Manufacturing 大數據分析跨域團隊建立 Etu CEO 蔣居裕 (Fred Chiang) Big Data 跨域整合聯盟 會長 [email protected] July 17, 2015

Transcript of 大數據分析跨域團隊建立 -...

Page 1: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

大數據分析跨域團隊建立

Etu CEO 蔣居裕 (Fred Chiang) Big Data 跨域整合聯盟 會長

[email protected]

July 17, 2015

Page 2: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

• 關於「分析」

• 關於「團隊」

• 關於資料科學 (Data Science) 與資料產品 (Data Product)

• 關於 Data Preparation – Enterprise Data Lake

• 結論

2

大 綱

Page 3: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Who am I?

蔣居裕 Fred Chiang

Open xxx 的愛好者

資料價值的探索者

• 精誠集團 Etu CEO

• 精誠集團 產品創新中心 副總經理

• Big Data 跨域整合聯盟會長

• Open Data 聯盟副會長

Blog —《Fred 豢養的雲中象》http://fredbigdata.blogspot.tw

all about Hadoop and Big Data

台灣少見以探討 Big Data 趨勢、技術、商業價值為主軸的專業部落格

3

Page 4: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

什麼是分析?

Analysis

is the process of breaking a complex topic or

substance into smaller parts in order to gain a better understanding of it.

~ Wikipedia

4

Page 5: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

口頭與實質

你口頭說是「分析」,但可能並不是

5

Page 6: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

分析,不是資料價值的終點

6

統計 > 加總

分析 > 統計

洞見 > 分析

行動 > 洞見

行動 最大化 價值

Page 7: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

科學團隊 ?

7

Page 8: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Harvard

Business

Review

October 2012

http://cromi.org/main/wp-content/uploads/2012/10/Davenport-2012-data-scientist.pdf

資料科學, 我們是要仰仗這位性感的傢伙嗎?

Page 9: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

團隊 vs. 超人

9

Data Science Profiles

Page 10: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

團隊聚在一起是為了什麼?

解決真實世界的問題

10

從問對問題開始

Page 11: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

問個問題

有一個人,生平的願望是環台灣半島,

但他只有在暑假的時間才有空,而且只能用 3 天的時間,

更重要的是:

不能太累

他該如何行動?

11

Page 12: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing 12

From Data to Action

Action

Insight

Knowledge

Information

Data

資料價值驅動

策略

分析

處理

394 公里

台灣南北全長 394 公里

一般人騎單車的時速約 15 公里;台灣夏季吹南風,冬季吹東北風

台灣夏季由北騎到南,一般人不可能達到平均時速 15 公里

暑假計畫要從台灣南騎到北,目標在 3 天內完成

詳情參見: http://fredbigdata.blogspot.tw/2013/05/big-data.html

12

Page 13: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

從 Data 到 Product

13

Big Data 價值,

從 Data Product 而

Page 14: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

使用一或多種資料集,進行處理或分析後,再以下列任一形式交付

產品或服務:

軟體系統 雲端服務 結構化資料 (檔案) 資料庫 API 報表 視覺化圖表 決策輔助 結論 其他

什麼是 Data Product? (資料產品)

Page 15: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

處理者

分析者 策略者

策略者

70%~85% 的工作時間

Data Science Flow

Source: Next-Gen Data Scientist, Dr. Rachel Schutt

Page 16: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Data Owner

Domain Expert

Data Science Team

Value

資料經濟共構者

Page 17: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

企業

Data IoE

Data

Data Mash-

up

Open Data

Data Platform

Data Science Team Playground

Creative Applications

零售

氣象

金融

製造 旅遊

交通

資料經濟架構

Page 18: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Data Product 舉例: BestSales 氣象經濟指標服務

[氣象 與 Big Data 雙專業跨界合作 ]

WeatherRisk Etu User

氣象專業 Big Data 平台 商品銷售資料

天氣歷史與預測資料 資料處理

指數模型建構 分析顧問服務

分析模擬工具

Page 19: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

BestSales 氣象經濟指標 – 預測指數

歷史指數

預測指數

天氣因子

Page 20: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Data Preparation

乾淨、結構化好的 Dataset

不是天上掉下來的

20

Page 21: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

分析洞見之夢,如何成真

21

Insights from Analytics

事實是……

沒有清洗乾淨、結構化好的資料,分析沒有意義,洞見更可能導致悲劇

關鍵在有沒有建構有機、流動的 Data Lake

Page 22: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Data Preparation 時代的演進

22

Data Lake 企業資料湖泊

+10 Y

OLAP/Discovery 資料分析/資料探索

Data Warehouse 企業資料倉儲

30+ Y

OLAP 資料分析

Database 關聯式資料庫

40+ Y

OLTP 資料交易

Page 23: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Bottled Water vs. Lake

23

思維 事先定義、照表取用 隨需取用,動態探索

特點 淨化、包裝過,容量少、犧牲細節 匯聚、有機生態、胃納量大、不犧牲細節

比喻 Data Mart 必須要事先定義好 Data Model 才能進行分析

取用結構化好的 Impala/Hive/HBase 入庫資料來進行分析或查詢,不需事先定義 Data Model

DM Schema-on-Write Schema-on-Read

* Data Lake 概念,源自 Pentaho CTO James Dixon 的部落格文章《Pentaho, Hadoop, and Data Lakes》(Oct. 14, 2010)

Page 24: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Thinker’s Data Lake

24

Thinking about

光分析 RDB/EDW 的資料已經無法滿足需求

要更了解客戶,我們需要加上行為資料 競爭力

RDB/EDW 的運算速度被增長的資料拖慢

需要更彈性靈活的入庫資料取用,以便縮短分析所需的時間

我們要儘可能加快決策速度,分析自然不能慢 反應力

RDB/EDW 的擴充成本居高不下

運算科技持續進步,新架構帶來更高的 ROI 變革力

RDB/EDW 的垂直擴充架構受限

Page 25: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Doer’s Data Lake

25

Analytics with STAT / DM / ML / EDA

Doing in

Ad-hoc Query

Data Visualization

High Volume Concurrent Query

+ Methodology + Implementation

Page 26: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

Data Lake 的下一步: 分析運算的平行化

26

從拉資料去單機做分析運算,進化到將分析邏輯下放到

Hadoop 叢集運算

把魚從湖裡撈出來,放到水族箱養

vs. 把魚養在湖裡

Page 27: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

結論

27

1. 分析、洞見不是資料價值的終點,行動才是。

2. 跨域是資料科學與資料產品團隊發展的關鍵字。

3. 做好 Data Preparation,是分析有意義的穩當基礎。

- 請注意 Etu 在半導體大數據分析競賽中提供的 Hadoop 相關軟體培訓課程 - Etu Training 有免費的學生名額可供利用 (http://goo.gl/NUaEwd)

Page 28: 大數據分析跨域團隊建立 - step.unison.org.twstep.unison.org.tw/bigdata/course/material/22_專題演講- 大數據... · Big Data Analytics for Semiconductor Manufacturing

Big Data Analytics for Semiconductor Manufacturing

更多 Etu 資訊

28

Website - www.etusolution.com Fans Page - Etu Taiwan