Hadoop Big Data 成功案例分享

25
Hadoop Big Data 成功案例分享 陳育杰 Eric Chen Senior AVP. , Etu Business Development [email protected] Oct. 8, 2014

description

講者:Etu 資深協理 陳育杰 Etu Solution Day 2014 Successful Story

Transcript of Hadoop Big Data 成功案例分享

Page 1: Hadoop Big Data 成功案例分享

Hadoop  Big  Data  成功案例分享� 陳育杰 Eric Chen

Senior AVP. , Etu Business Development [email protected]

Oct. 8, 2014

Page 2: Hadoop Big Data 成功案例分享

2

Big Data 新應用架構

RDB

Business  Intelligence

ETL

Business  Analy9cs

Voice file Video file Image file�

Doc file Txt file XML file�

Web Logs Click event�

Social network

Associated map News

Feeds

Sensor Embedded RFID Tags

Geographic GPS

Event Others

MapReduce�

HDFS�

HBase� HIVE� Impala�

Mahout� Pig�

Page 3: Hadoop Big Data 成功案例分享

3

Big Data 新應用架構 Hadoop as a “Data Store”

RDB

Business  Intelligence

ETL

Business  Analy9cs

Voice file Video file Image file�

Doc file Txt file XML file�

Web Logs Click event�

Social network

Associated map News

Feeds

Sensor Embedded RFID Tags

Geographic GPS

Event Others

MapReduce�

HDFS�

HBase� HIVE� Impala�

Mahout� Pig�

Page 4: Hadoop Big Data 成功案例分享

4

Big Data 新應用架構 Hadoop as a “Data Pre-processing Platform”

RDB

Business  Intelligence

ETL

Business  Analy9cs

Voice file Video file Image file�

Doc file Txt file XML file�

Web Logs Click event�

Social network

Associated map News

Feeds

Sensor Embedded RFID Tags

Geographic GPS

Event Others

HDFS�

HBase� HIVE� Impala�

Mahout�

MapReduce�

Pig� HIVE  QL�

Join,  Aggrega,on,  Filter,  Sor,ng,    Correla,on  ……..

Page 5: Hadoop Big Data 成功案例分享

5

Big Data 新應用架構 Hadoop as a “DB”

RDB

BI

ETL

Business  Analy9cs

Voice file Video file Image file�

Doc file Txt file XML file�

Web Logs Click event�

Social network

Associated map News

Feeds

Sensor Embedded RFID Tags

Geographic GPS

Event Others

MapReduce�

HDFS�

HBase� HIVE� Impala�

Mahout� Pig� ODBC

API

Page 6: Hadoop Big Data 成功案例分享

6 6

RDB

Business  Intelligence

ETL

Business  Analy9cs

Voice file Video file Image file�

Doc file Txt file XML file�

Web Logs Click event�

Social network

Associated map News

Feeds

Sensor Embedded RFID Tags

Geographic GPS

Event Others

MapReduce�

HDFS�

HBase� HIVE� Impala�

Mahout� Pig�

Big Data 新應用架構 Hadoop as a “Data Analytics

Engine”

Page 7: Hadoop Big Data 成功案例分享

7

應用案例

l 精準推薦與消費者洞察

l DW Offload – 資料載入與查詢

l 生產良率即時告警�

Page 8: Hadoop Big Data 成功案例分享

8

精準推薦與消費者洞察

Page 9: Hadoop Big Data 成功案例分享

9

精準推薦與消費者洞察�

Etu Recommender Application

推薦演算法  �

客戶相似度分析�

轉化率分析�

資料 擷 取�

商品關聯性分析�

推薦清單�

推薦引擎�

歷史交易資料 •  訂單資料 •  購買紀錄�

Mobile Web 互動資料

•  瀏覽  •  點擊  •  搜尋  •  購物車  •  結帳  •  跨網域用戶行為  

Web 互動資料  

•  瀏覽  •  點擊  •  搜尋  •  購物車  •  結帳  •  跨網域用戶行為  

Etu Insight

User-­‐defined  Recom

menda/on  Result  Filter

廣告關聯性分析�

內容關聯性分析�

� Product

Recommendation� 商品推薦�

� Content

Recommendation� 內容推薦�

� Ad

Recommendation� 站內廣告推薦�

Page 10: Hadoop Big Data 成功案例分享

10

精準推薦與消費者洞察�

Clicks 每一個點擊代表一個動作和意圖 是訂單資料和會員系統無法告訴你的�

•  瀏覽商品 •  看廣告 •  看新聞 •  看網友評論 •  按讚 •  分享 •  下載表單 •  兌換優惠券…..

Page 11: Hadoop Big Data 成功案例分享

11

精準推薦與消費者洞察�

Etu Recommender Application

推薦演算法  �

客戶相似度分析�

轉化率分析�

資料 擷 取�

商品關聯性分析�

推薦清單�

推薦引擎�

歷史交易資料 •  訂單資料 •  購買紀錄�

Mobile Web 互動資料

•  瀏覽  •  點擊  •  搜尋  •  購物車  •  結帳  •  跨網域用戶行為  

Web 互動資料  

•  瀏覽  •  點擊  •  搜尋  •  購物車  •  結帳  •  跨網域用戶行為  

User-­‐defined  Recom

menda/on  Result  Filter

廣告關聯性分析�

內容關聯性分析�

� Product

Recommendation� 商品推薦�

� Content

Recommendation� 內容推薦�

� Ad

Recommendation� 站內廣告推薦�

Etu Insight (Customer Behavior Data Warehouse)

流量分析 新客戶

vs. 回頭客�

場景#1 誰是我的忠實粉絲�

漏斗分析 每天多少流量能轉化為

訂單�

場景#2 哪些人只看不買?�

品牌偏好度各商品分類最受歡迎品

牌 �

場景#3 誰愛小米?iPhone?�

來源網站和訂單效益

關聯性分析�

場景#4 廣告費都丟到水裡

了?�

不同版位效益分析,評估網站使用

者體驗�

場景#5 網站的使用者體驗

如何?�

Page 12: Hadoop Big Data 成功案例分享

12

精準推薦與消費者洞察�

Etu Recommender

商品� 內容� 廣告�

Consumer Connect

Customer  Behavior

Recommenda/on  List

Etu Recommender

商品� 內容� 廣告�

Consumer Connect

Customer  Behavior

Recommenda/on  List

Consumer Discovery

DW CRM

推薦運算叢集�

3600    Customer    View

推薦運算叢集� 客戶行為分析叢集�

Customer Profile Discovery Data

Converter Customer Behavior Data Warehouse

HIVE JDBC /ODBCDriver

Event Collector Customer Behavior

Data Store

Analytics core Event Collector Customer Behavior

Data Store

Analytics core

Page 13: Hadoop Big Data 成功案例分享

13

消費者洞察,資料策略的第一步�

Page 14: Hadoop Big Data 成功案例分享

14

DW Offload – 資料載入與查詢

Page 15: Hadoop Big Data 成功案例分享

15

DW Offload – 資料載入與查詢�

l  客戶 : 某大醫院 l  需求 : HIS 系統與院際其他系統資料整合 l  困難與挑戰 :

ü 原 HIS 系統資料庫支援度差,需先將資料匯出處理� ü 來源資料量非常龐大, ETL 載入效率非常差� ü 原資料庫對大量資料的查詢效率不佳,無法應付大量且即時的查詢

需求� �

SSIS SQL SQL  Server 查詢結果�

資料入庫� 時間過長

資料查詢� 時間過長 SQL  Server

Informix

Oracle

Page 16: Hadoop Big Data 成功案例分享

16

DW Offload – 資料載入與查詢�

Sqoop SQL 查詢結果�

HDFS�

Impala�

Informix

1.   以 Etu Software Appliance 搭配 Sqoop 做資料入檔,解決資料載入時間過長問題。�

2.   使用 Impala 查詢 Hadoop 中的資料,解決資料查詢時間過長問題。�

第一期方案�

Page 17: Hadoop Big Data 成功案例分享

17

DW Offload – 資料載入與查詢�

最終方案�

Sqoop

ETL

HDFS�

Impala�

Oracle

SQL  Server

Informix

EDW  /  DM

API

Web  Service

1.   Hadoop 成為組織內部的 data pool (ODS),所有資料先進行格式統一,錯誤資料清洗等轉置工作,並儲存在 HDFS 中。

3.   EDW / DM 或應用系統所有資料需求,皆統一由 Hadoop 提供,解決跨來源資料整合問題。

Page 18: Hadoop Big Data 成功案例分享

18

從 RDB 邁向 Big Data BI�

Page 19: Hadoop Big Data 成功案例分享

19

生產良率即時告警�

Page 20: Hadoop Big Data 成功案例分享

20

生產良率即時告警�

組裝包產線�

SMT產線�

製程資料�

統計分析�

製作圖表�

統計分析改善�

良率低  主因素�

組裝包產線�

 RDB�

N  hours�

SPC� SMT�

SFCS�

SMT  Data  Files�

SMT產線�

SMT產線�

註:  

SFCS:  Shop  Floor  control  system;    

SPC:  Solder  Paste  Control  

SPI:  Solder  Paste  Inspec/on�

資料探勘�

特徵規則(傳統運算)�

現有技術架構  RDB 資料儲存、運算與彙整�

SPC    SFCS�

SMT    SFCS    SPI�

1.   生產問題無法及時發現: 資料處理與計算時間過長導致生產問題無法及時發現�

2.   運算效能不彰: 採用資料庫進行運算時,產生過多Temp Files與資料轉換,系統資源浪費且效率差�

3.   容量擴充成本高: 因應產線擴充,機台測試資料增加與保存時間延長所需成本過高(Scale Up)�

不及時

算得慢�

擴充成本高�

Page 21: Hadoop Big Data 成功案例分享

21

生產良率即時告警�

組裝包產線�

SMT產線�

製程資料�

組裝包產線�

SMT產線�

SMT產線�

SPC    SFCS�

SMT    SFCS    SPI�

1.   生產問題及時發現: 資料處理與計算時間大幅縮短,可以提升品質判斷速度,減少產線損失 �

2.   運算效能佳: 採用平行運算與分散式檔案系統,減少過多Temp Files與資料轉換,生成統計表提供查詢�

3.   容量擴充成本低: 因應產線擴充,機台測試資料增加與保存時間延長可線性擴充 (Scale out)�

新一代 Big Data 技術架構� 統計分析加以確認

統計分析�

製作圖表�

良率低主因素� RDB�

N  mins�

MPP  DB�

資料探勘�

特徵規則 (平行運算)�

HDFS�

No  SQL�

SPC� SMT� SFCS�

SMT  Data  Files�

及時

算得快

擴充成本低

Page 22: Hadoop Big Data 成功案例分享

22

生產良率即時告警�

Real-time Big Data�

Data Stream

DN

Spark

RS

Impala

Spark-­‐Streaming

DN

Spark

RS

Impala

Spark-­‐Streaming

DN

Spark

RS

Impala

Spark-­‐Streaming

Data Stream

Data Stream

生產機台資料

SPI Data

On-the-fly Pattern Matching & Alert

Real-time Analytics - Machine Learning (Rec. Cluster..) - Iterative Algorithms

Near Real-time Query - Ad-hoc query - Reporting

Long term data store -  Batch process -  Offline analytics -  Historical Mining

Spark & Impala work together�

Page 23: Hadoop Big Data 成功案例分享

23

Real-time Big Data�

Page 24: Hadoop Big Data 成功案例分享

24

Workshop�

Page 25: Hadoop Big Data 成功案例分享

318,  Rueiguang  Rd.,  Taipei  114,  Taiwan  T:  +886  2  7720  1888  F:  +886  2  8798  6069  www.etusolu/on.com�

Thank  you�