Hadoop Big Data 成功案例分享
-
Upload
etu-solution -
Category
Technology
-
view
649 -
download
5
description
Transcript of Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享� 陳育杰 Eric Chen
Senior AVP. , Etu Business Development [email protected]
Oct. 8, 2014
2
Big Data 新應用架構
RDB
Business Intelligence
ETL
Business Analy9cs
Voice file Video file Image file�
Doc file Txt file XML file�
Web Logs Click event�
Social network
Associated map News
Feeds
Sensor Embedded RFID Tags
Geographic GPS
Event Others
MapReduce�
HDFS�
HBase� HIVE� Impala�
Mahout� Pig�
3
Big Data 新應用架構 Hadoop as a “Data Store”
RDB
Business Intelligence
ETL
Business Analy9cs
Voice file Video file Image file�
Doc file Txt file XML file�
Web Logs Click event�
Social network
Associated map News
Feeds
Sensor Embedded RFID Tags
Geographic GPS
Event Others
MapReduce�
HDFS�
HBase� HIVE� Impala�
Mahout� Pig�
4
Big Data 新應用架構 Hadoop as a “Data Pre-processing Platform”
RDB
Business Intelligence
ETL
Business Analy9cs
Voice file Video file Image file�
Doc file Txt file XML file�
Web Logs Click event�
Social network
Associated map News
Feeds
Sensor Embedded RFID Tags
Geographic GPS
Event Others
HDFS�
HBase� HIVE� Impala�
Mahout�
MapReduce�
Pig� HIVE QL�
Join, Aggrega,on, Filter, Sor,ng, Correla,on ……..
5
Big Data 新應用架構 Hadoop as a “DB”
RDB
BI
ETL
Business Analy9cs
Voice file Video file Image file�
Doc file Txt file XML file�
Web Logs Click event�
Social network
Associated map News
Feeds
Sensor Embedded RFID Tags
Geographic GPS
Event Others
MapReduce�
HDFS�
HBase� HIVE� Impala�
Mahout� Pig� ODBC
API
6 6
RDB
Business Intelligence
ETL
Business Analy9cs
Voice file Video file Image file�
Doc file Txt file XML file�
Web Logs Click event�
Social network
Associated map News
Feeds
Sensor Embedded RFID Tags
Geographic GPS
Event Others
MapReduce�
HDFS�
HBase� HIVE� Impala�
Mahout� Pig�
Big Data 新應用架構 Hadoop as a “Data Analytics
Engine”
7
應用案例
l 精準推薦與消費者洞察
l DW Offload – 資料載入與查詢
l 生產良率即時告警�
8
精準推薦與消費者洞察
9
精準推薦與消費者洞察�
Etu Recommender Application
推薦演算法 �
客戶相似度分析�
轉化率分析�
資料 擷 取�
商品關聯性分析�
推薦清單�
推薦引擎�
歷史交易資料 • 訂單資料 • 購買紀錄�
Mobile Web 互動資料
• 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為
�
Web 互動資料
• 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為
Etu Insight
User-‐defined Recom
menda/on Result Filter
廣告關聯性分析�
內容關聯性分析�
� Product
Recommendation� 商品推薦�
� Content
Recommendation� 內容推薦�
� Ad
Recommendation� 站內廣告推薦�
10
精準推薦與消費者洞察�
Clicks 每一個點擊代表一個動作和意圖 是訂單資料和會員系統無法告訴你的�
• 瀏覽商品 • 看廣告 • 看新聞 • 看網友評論 • 按讚 • 分享 • 下載表單 • 兌換優惠券…..
11
精準推薦與消費者洞察�
Etu Recommender Application
推薦演算法 �
客戶相似度分析�
轉化率分析�
資料 擷 取�
商品關聯性分析�
推薦清單�
推薦引擎�
歷史交易資料 • 訂單資料 • 購買紀錄�
Mobile Web 互動資料
• 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為
�
Web 互動資料
• 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為
User-‐defined Recom
menda/on Result Filter
廣告關聯性分析�
內容關聯性分析�
� Product
Recommendation� 商品推薦�
� Content
Recommendation� 內容推薦�
� Ad
Recommendation� 站內廣告推薦�
Etu Insight (Customer Behavior Data Warehouse)
流量分析 新客戶
vs. 回頭客�
場景#1 誰是我的忠實粉絲�
漏斗分析 每天多少流量能轉化為
訂單�
場景#2 哪些人只看不買?�
品牌偏好度各商品分類最受歡迎品
牌 �
場景#3 誰愛小米?iPhone?�
來源網站和訂單效益
關聯性分析�
場景#4 廣告費都丟到水裡
了?�
不同版位效益分析,評估網站使用
者體驗�
場景#5 網站的使用者體驗
如何?�
12
精準推薦與消費者洞察�
Etu Recommender
商品� 內容� 廣告�
Consumer Connect
Customer Behavior
Recommenda/on List
Etu Recommender
商品� 內容� 廣告�
Consumer Connect
Customer Behavior
Recommenda/on List
Consumer Discovery
DW CRM
推薦運算叢集�
3600 Customer View
推薦運算叢集� 客戶行為分析叢集�
Customer Profile Discovery Data
Converter Customer Behavior Data Warehouse
HIVE JDBC /ODBCDriver
Event Collector Customer Behavior
Data Store
Analytics core Event Collector Customer Behavior
Data Store
Analytics core
13
消費者洞察,資料策略的第一步�
14
DW Offload – 資料載入與查詢
15
DW Offload – 資料載入與查詢�
l 客戶 : 某大醫院 l 需求 : HIS 系統與院際其他系統資料整合 l 困難與挑戰 :
ü 原 HIS 系統資料庫支援度差,需先將資料匯出處理� ü 來源資料量非常龐大, ETL 載入效率非常差� ü 原資料庫對大量資料的查詢效率不佳,無法應付大量且即時的查詢
需求� �
SSIS SQL SQL Server 查詢結果�
資料入庫� 時間過長
資料查詢� 時間過長 SQL Server
Informix
Oracle
16
DW Offload – 資料載入與查詢�
Sqoop SQL 查詢結果�
HDFS�
Impala�
Informix
1. 以 Etu Software Appliance 搭配 Sqoop 做資料入檔,解決資料載入時間過長問題。�
2. 使用 Impala 查詢 Hadoop 中的資料,解決資料查詢時間過長問題。�
第一期方案�
17
DW Offload – 資料載入與查詢�
最終方案�
Sqoop
ETL
HDFS�
Impala�
Oracle
SQL Server
Informix
EDW / DM
API
Web Service
1. Hadoop 成為組織內部的 data pool (ODS),所有資料先進行格式統一,錯誤資料清洗等轉置工作,並儲存在 HDFS 中。
3. EDW / DM 或應用系統所有資料需求,皆統一由 Hadoop 提供,解決跨來源資料整合問題。
18
從 RDB 邁向 Big Data BI�
19
生產良率即時告警�
20
生產良率即時告警�
組裝包產線�
SMT產線�
製程資料�
統計分析�
製作圖表�
統計分析改善�
良率低 主因素�
組裝包產線�
RDB�
N hours�
SPC� SMT�
SFCS�
SMT Data Files�
SMT產線�
SMT產線�
註:
SFCS: Shop Floor control system;
SPC: Solder Paste Control
SPI: Solder Paste Inspec/on�
資料探勘�
特徵規則(傳統運算)�
現有技術架構 RDB 資料儲存、運算與彙整�
SPC SFCS�
SMT SFCS SPI�
1. 生產問題無法及時發現: 資料處理與計算時間過長導致生產問題無法及時發現�
2. 運算效能不彰: 採用資料庫進行運算時,產生過多Temp Files與資料轉換,系統資源浪費且效率差�
3. 容量擴充成本高: 因應產線擴充,機台測試資料增加與保存時間延長所需成本過高(Scale Up)�
不及時
算得慢�
擴充成本高�
21
生產良率即時告警�
組裝包產線�
SMT產線�
製程資料�
組裝包產線�
SMT產線�
SMT產線�
SPC SFCS�
SMT SFCS SPI�
1. 生產問題及時發現: 資料處理與計算時間大幅縮短,可以提升品質判斷速度,減少產線損失 �
2. 運算效能佳: 採用平行運算與分散式檔案系統,減少過多Temp Files與資料轉換,生成統計表提供查詢�
3. 容量擴充成本低: 因應產線擴充,機台測試資料增加與保存時間延長可線性擴充 (Scale out)�
新一代 Big Data 技術架構� 統計分析加以確認
統計分析�
製作圖表�
良率低主因素� RDB�
N mins�
MPP DB�
資料探勘�
特徵規則 (平行運算)�
HDFS�
No SQL�
SPC� SMT� SFCS�
SMT Data Files�
及時
算得快
擴充成本低
22
生產良率即時告警�
Real-time Big Data�
Data Stream
DN
Spark
RS
Impala
Spark-‐Streaming
DN
Spark
RS
Impala
Spark-‐Streaming
DN
Spark
RS
Impala
Spark-‐Streaming
…
Data Stream
Data Stream
生產機台資料
SPI Data
On-the-fly Pattern Matching & Alert
Real-time Analytics - Machine Learning (Rec. Cluster..) - Iterative Algorithms
Near Real-time Query - Ad-hoc query - Reporting
Long term data store - Batch process - Offline analytics - Historical Mining
Spark & Impala work together�
23
Real-time Big Data�
24
Workshop�
318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069 www.etusolu/on.com�
Thank you�