大數據獲利模式 Ch 2

14
大數據的獲利模式 第二章 支撐巨量資料的技術 Part 2 2013.09.28 Hans

description

 

Transcript of 大數據獲利模式 Ch 2

Page 1: 大數據獲利模式 Ch 2

大數據的獲利模式

第二章 支撐巨量資料的技術 Part 2

2013.09.28 Hans

Page 2: 大數據獲利模式 Ch 2

創投也對Hadoop、NoSQL開發企業投以熱切的目光

Page 3: 大數據獲利模式 Ch 2

Data Is the New Oil!!

Page 4: 大數據獲利模式 Ch 2

結構化資料

Page 5: 大數據獲利模式 Ch 2

非結構化資料

無法完全數字化的信息稱為非結構化信息 - MBA智庫

EX : 圖片跟影片

Page 6: 大數據獲利模式 Ch 2

巨量資料時代的資料處理基礎

# Hadoop & NoSQL 火紅的原因是因為可以有效率

處理以前不能處理的非結構化巨量資料。

# 企業現有平台要處理巨量資料有相當的困難度,

就算能處理,效能也會不好。

# 對多數企業而言,砍掉重練不實際。

# 比較好的做法是先用Hadoop處理,在匯入現有平

台做分析。

Page 7: 大數據獲利模式 Ch 2

備受矚目的分析資料庫有以下特點

1. 大規模平行處理架構

2. 無分享

3. 欄位導向

4. 資料壓縮功能

5. 可在通用硬體設備上運作

6. 以伺服器設備的型態所提供的解決方案

7. 對於Hadoop的支援

Page 8: 大數據獲利模式 Ch 2

串流資料(即時資料)處理

# 串流資料不將資料存到硬碟,而是在記憶體做處

理。

# 上次處理完的資料會儲存成中期資料,下次就不

用從頭到尾對資料進行處理。

# 此技術可運用在即時監控塞車、交通事故。即時

的POS資料收集與分析與EC點擊串流資料之產品

推薦。

Page 9: 大數據獲利模式 Ch 2

串流資料(即時資料)處理

軟體 記憶體 硬碟

不將資料存到硬碟,而是在記憶體做處理。

Page 10: 大數據獲利模式 Ch 2

自行開發串流資料處理技術的網路公司

# Facebook、Twitter、Walmart、Amazon、

Linkedin、Google。

每個巨人的肚子裡都有一部份的你。

Page 11: 大數據獲利模式 Ch 2

機器學習、統計分析

1. 機器學習 : 用演算法學習規律去預測

2. 資料探勘 : 找資料中的相互關係與Pattern

3. 資料分群 : 相似度分群 EX:興趣分群

4. 神經網路 : 電腦模擬人腦的處理資料方式

5. 迴歸分析 : 兩個以上多變數的相關分析

6. 決策樹 : 依機率/權重運算決策分析

7. 關聯分析 : 購物籃分析,研究關聯度。

Page 12: 大數據獲利模式 Ch 2

自然語言處理、其他

1. 自然語言處理: Siri對話

2. 語意搜尋 : 詞類關聯性分析詞彙意義,提升準確

3. 連結探勘 : Social Networking Services (SNS)

4. A/B 測試 : 網站優化。

Page 13: 大數據獲利模式 Ch 2

第二章重點整理

1. 在技術面支撐熱潮的是開源碼的Hadoop

2. Hadoop有好有壞,也是個正在發展中的技術。

3. 與傳統關聯式資料庫是互補的技術

4. 開源碼成本低,但找工程師的成本可能居高不下

5. 網路公司自行開發的案例越來越多($$)

6. 為了有效率的挖掘有用資訊,機器學習,資料探

勘,語意搜尋與統計分析的技術便相當重要。

Page 14: 大數據獲利模式 Ch 2

The End

Thank You !