當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享

27

Transcript of 當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享

• 美國新創公司,由MIT/Harvard/Stanford及業界數據專家組成

• 核心團隊玩了幾年的數據,深深感到數據取得的沒有效率

• 專注在數據交易的關鍵技術,串聯全世界的專業級數據

關於我

人生立志打造一個殺手級數據應用(產品),但是踩了一堆雷

• 4篇資料探勘應用於決策支援的期刊論文

• 創立TwCareer網站想幫助生涯規畫決策

• 創立負評網想用數據幫助消費者/廠商決策

加入Kyper Data擔任產品經理,共同努力打造數據平台

打造一個數據應用,比老闆們想像的更難

切身之痛 負評網打造使用者愛好智慧系統

一個完整的資料科學團隊應該包含

程式開發者、資料工程師、資料科學家、

分析師、產業專家

其實,他們都只是幻想中的同事

目前,最常見的就是只有一個人或是功能

相似的一組人

當我們想要導入外部數據

需要數個月的時間,冒著可能沒有成效不能退款的風險

我們還是平心靜氣,能把自家的數據處理

好就上天保佑,先別想外部數據了

要打造資料科學家交易數據的平台,解放更多創意

Standardized API

Automatic Tunnel

We have gained the trust of data publishers because we never store their data.

社群 電商數據用於信用評分管理

Data:社群/電商

• Email• 公司• 職稱• 網店數量• 網店評價• 商品數• 銷售額• 朋友數• 發文數• …• 上千特徵

特徵選取 智慧模型

模型1

模型2

模型3

模型4

模型5

模型6

模型9

身分

還款能力

還款意願

穩定性

信用評分

追蹤管理機器學習

國外相當成熟的產品,為什麼台灣沒有

1. 台灣電商來源多,無明顯霸主

2. 台灣部分電商發展早,並未跟上世界潮流提供有用數據

3. 爬數據本身就是個坑,有去無回

成本過高,能否賺回那麼多?

分析下去才知道,在商城賣衣服比資料科學家賺的多很多

數據商城 主題式瀏覽

數據商城 分類式瀏覽

數據商城 線上預覽 結合各式分析環境

在 中直接使用

在 中直接使用

直接在 雲端玩

直接在 雲端玩 視覺化

小提醒不能因為有強大的武器而忘記作戰方法

從數據中發掘Insight的能力是最重要的

迎接數據專業分工時代, 建議

1. 重視技能深度>廣度

2. 專業蒐集/整理數據的,應該讓更多人購買、應用,發揮價值

3. 專業分析建模的,應該用更低成本,更有效率方式使用數據

4. 原本就有完整數據應用的,可以將數據釋出,增加更多營收

專屬

請寄email給我,註明是R Taiwan 2015參與者

1. Insider Preview帳號

2. 免費體驗數據: 股票/期貨/新聞/天氣

3. 比全世界其他R社群更早使用