從社群資料來看 工人(群眾)智慧與人工智慧 的結合

Post on 10-Dec-2014

814 views 0 download

description

為甚麼要資料科學 系統分析的謬誤 跨領域到超越領域 自動產生候選資料 中間產品

Transcript of 從社群資料來看 工人(群眾)智慧與人工智慧 的結合

從社群資料來看

工人(群眾)智慧與人工智慧

的結合

Gene Hong (食夢黑貘)/2014-08-31

不一樣的概念

為甚麼要資料科學

系統分析的謬誤

跨領域到超越領域

自動產生候選資料

中間產品

Why Data Science

從資訊退化成資料的原因

資料, 資訊, 知識, 智慧

電腦是很笨的

推論, 歸納, …...演算法

大量的原始資料

看出人看不出的事情

但還是須要人的幫忙

God of Data Science

資訊的價值在於可再利用

天底下無新鮮事

沒有人是一樣的

甚麼是 Big Data

為甚麼 Big Data 被認為失敗

Big Data 有很多人都宣稱在做

不了解的人已被既定印像限制住了

宣稱用 Big Data 的服務都沒甚麼效用

用 Big Data 來募資已經募不到錢

系統分析的謬誤

1. 從上到下的系統分析

2. 目標與須求的鍊結

3. Big Data 的 Variety 與 Veracity4. 自動化/人工化?

軟體工程標準流程

由上到下思維的謬誤

1. 你可以要求社群照你的格式產生資料

2. 你可以要求臉書/Google照你的資料庫設計

由下到上真的可解決嗎?

1. Big Data 像煮飯

2. 須求與目標的連結, 資料與問題的連結

資料問題是如上 , 但重點還是人的問題

企業組織鍊失去的環節

Business DeveloperProduct ManagerSystem AnalyzerProgrammerUser/Operator

Product Manager 的迷思

一定要有 Profile一定要有區間

只做內部決策參考用

想要知道原因

資料科學家是最缺的?

資料科學須要甚麼樣的人

Full-Stack Maker (I)1. Server, Network, and Hosting Environment.2. Data Modeling3. Business Logic4. API layer / Action Layer / MVC5. User Interface6. User Experience7. Understanding what the customer and the business need

Full-Stack Maker (II)8. Marketing / Advertising9. Product and Resource Management10. Social Network Experience11. Content / Opinion Provider12. You have experience all above in these years13. You are still a User / Programmer / Engineer / Designer AFTER ALL!!!

考/唸過的系所

理: 數學(, 應數), 化學, 天文, 海洋, 資科, 物理

工: 資工, 電機, 電子

商: 商數

管: 管科, 資管

文: 圖書館, 翻譯, 教育評鑑

法: 社會, 宗教

資料 3V 之外的 4V 與 5V, Variety

Data Source Variety 來源

Data Durability Variety 持久

Data Type Variety 格式

Data Process Variety 處理

Data Usage Variety 使用

Data Customer Variety 客戶

真的在用 Big Data 嗎?

數量級

時間區間

即時性

應用範圍

實用性

演算法

真的沒有人在用 Big Data

1. 廣告

2. 社群

3. 行為

4. 內容產生?

理論與實用

訪來客

朋友的 cluster沒辦法拿到所有資料

推銷員演算法

O(n!)10^12 -> 10^8

林克傳說

0. 解決集體迷思 (Group Thinking)1. 近朱者赤, 近貘者黑

2.民意透明化

3. 全民政治

林克傳說的問題

議題的整理與比較

正負面判斷

相同內容篩選

分類

人工智慧

計算覆蓋率

算出重要連結

整合議題

工人(群眾智慧)

定義標籤

集合標籤

媒體定義

定義連結的屬性

定義議題的比較

媒體支持分布

工頭堅演算法

1. 語意很難判斷

2. 臉書 API 使用有限

3. 人很少表態

4. 解空間要足夠

彼得塔之鏡

計算一個人的傾向

林克傳說經驗

資料延伸的 Scale 是相當可怕的

資料的多樣性真的很巨大

資料跟實用的落差

中間產品就很有用了

人工與工人的結合

美好的時光就該浪費在美好事物上

人的價值在於電腦做不到的

開放林克

最新連結 (更新資料)熱門連結

議題熱度

意見領袖

謝謝大家可以醒過來了