大數據獲利模式 Ch 2
description
Transcript of 大數據獲利模式 Ch 2
大數據的獲利模式
第二章 支撐巨量資料的技術 Part 2
2013.09.28 Hans
創投也對Hadoop、NoSQL開發企業投以熱切的目光
Data Is the New Oil!!
結構化資料
非結構化資料
無法完全數字化的信息稱為非結構化信息 - MBA智庫
EX : 圖片跟影片
巨量資料時代的資料處理基礎
# Hadoop & NoSQL 火紅的原因是因為可以有效率
處理以前不能處理的非結構化巨量資料。
# 企業現有平台要處理巨量資料有相當的困難度,
就算能處理,效能也會不好。
# 對多數企業而言,砍掉重練不實際。
# 比較好的做法是先用Hadoop處理,在匯入現有平
台做分析。
備受矚目的分析資料庫有以下特點
1. 大規模平行處理架構
2. 無分享
3. 欄位導向
4. 資料壓縮功能
5. 可在通用硬體設備上運作
6. 以伺服器設備的型態所提供的解決方案
7. 對於Hadoop的支援
串流資料(即時資料)處理
# 串流資料不將資料存到硬碟,而是在記憶體做處
理。
# 上次處理完的資料會儲存成中期資料,下次就不
用從頭到尾對資料進行處理。
# 此技術可運用在即時監控塞車、交通事故。即時
的POS資料收集與分析與EC點擊串流資料之產品
推薦。
串流資料(即時資料)處理
軟體 記憶體 硬碟
不將資料存到硬碟,而是在記憶體做處理。
自行開發串流資料處理技術的網路公司
# Facebook、Twitter、Walmart、Amazon、
Linkedin、Google。
每個巨人的肚子裡都有一部份的你。
機器學習、統計分析
1. 機器學習 : 用演算法學習規律去預測
2. 資料探勘 : 找資料中的相互關係與Pattern
3. 資料分群 : 相似度分群 EX:興趣分群
4. 神經網路 : 電腦模擬人腦的處理資料方式
5. 迴歸分析 : 兩個以上多變數的相關分析
6. 決策樹 : 依機率/權重運算決策分析
7. 關聯分析 : 購物籃分析,研究關聯度。
自然語言處理、其他
1. 自然語言處理: Siri對話
2. 語意搜尋 : 詞類關聯性分析詞彙意義,提升準確
3. 連結探勘 : Social Networking Services (SNS)
4. A/B 測試 : 網站優化。
第二章重點整理
1. 在技術面支撐熱潮的是開源碼的Hadoop
2. Hadoop有好有壞,也是個正在發展中的技術。
3. 與傳統關聯式資料庫是互補的技術
4. 開源碼成本低,但找工程師的成本可能居高不下
5. 網路公司自行開發的案例越來越多($$)
6. 為了有效率的挖掘有用資訊,機器學習,資料探
勘,語意搜尋與統計分析的技術便相當重要。
The End
Thank You !