Talk to data science in 10 minutes

17
十分鐘談 資料科學的第一步 謝宗震 ([email protected]) DSP 智庫驅動 資料科學家 政治大學資科系 兼任助理教授 行政院青年諮詢委員會 委員

Transcript of Talk to data science in 10 minutes

Page 1: Talk to data science in 10 minutes

十分鐘談資料科學的第一步

謝宗震 ([email protected])DSP 智庫驅動 資料科學家

政治大學資科系 兼任助理教授

行政院青年諮詢委員會 委員

Page 2: Talk to data science in 10 minutes

1 + 1 = 2 ?

+ = ?

資料的極限

Page 3: Talk to data science in 10 minutes

1 + 1 = 2 ?數據化的記錄總會喪失部分訊息

一個問題是否能透過資料解決

和資料蒐集與記錄的方式有關

資料的極限

Page 4: Talk to data science in 10 minutes

淺談資料格式與資料清理主要內容取自

http://blog.muyueh.com/open-data-portal-problem/

Page 5: Talk to data science in 10 minutes

機器可讀

假若把資料包在網頁、doc、docx 檔、pdf 檔或著以圖檔釋出時,使用者要重複使用的話,就需要人一個字一個字 key-in,無法被機器閱讀。

給人看 ≠ 給機器看

https://blog.muyueh.com/open-data-portal-problem/

Page 6: Talk to data science in 10 minutes

機器可讀 文件、報表、資料

http://csr.taipower.com.tw/images/pdf/2015_tw.pdf

Page 7: Talk to data science in 10 minutes

機器可讀 文件、報表、資料

http://www.taipower.com.tw/UpFile/ClauseFile/104年統計年報.pdf

Page 8: Talk to data science in 10 minutes

機器可讀 文件、報表、資料

http://www.taipower.com.tw/UpFile/ClauseFile/104年統計年報.pdf

Page 9: Talk to data science in 10 minutes

機器可讀 文件、報表、資料

http://www.taipower.com.tw/content/announcement/ann01-5.aspx

• 文件 內的 報表 要獨立抽取出來• 報表 轉成 資料 要合併跨頁、移除額外的標頭、小計、階層、註釋

Page 10: Talk to data science in 10 minutes

機器可讀

同一筆資料,有不同的儲存結構,儘管機器可讀,卻會有不一樣的意義。

統一資料結構

Excel 版本 JSON 版本

Page 11: Talk to data science in 10 minutes

機器可讀

當沒有標記檔案編碼時,會讓機器不知道該如何解讀

檔案編碼沒有標記

Page 12: Talk to data science in 10 minutes

機器可讀

• 台電公司、台灣電力公司、臺灣電力公司、台灣電力股份有限公司• 民國105年、105年、105、2016

同一個東西有不同記錄方式

http://www.hsssfn.com/archives/40855

Page 13: Talk to data science in 10 minutes

機器可讀 寬資料與長資料

https://stackoverflow.com/

Page 14: Talk to data science in 10 minutes

資料的品質

資料品質的控管成敗與否,將影響之後

的資料分析、報表、決策指標。

Page 15: Talk to data science in 10 minutes

資料的品質

資訊系統 (表單設計)必填 vs. 非必填

Page 16: Talk to data science in 10 minutes

資料的品質

資料品質的控管,

可用資料儀表板規劃品管規則。

http://wush.ghost.io/data-team-hello-world/

Page 17: Talk to data science in 10 minutes

建立資料儀表板的意義

• 確認資料已經可以正確的被取出,並視覺化呈現• 讓組織中的不同團隊共享資料,提升全體素養• 減少資料科學團隊產生報表的需求,減少內耗• 建立信任感,初步展現資料科學團隊的價值