Talk to data science in 10 minutes
-
Upload
johnson-hsieh -
Category
Data & Analytics
-
view
1.174 -
download
2
Transcript of Talk to data science in 10 minutes
1 + 1 = 2 ?
+ = ?
資料的極限
1 + 1 = 2 ?數據化的記錄總會喪失部分訊息
一個問題是否能透過資料解決
和資料蒐集與記錄的方式有關
資料的極限
淺談資料格式與資料清理主要內容取自
http://blog.muyueh.com/open-data-portal-problem/
機器可讀
假若把資料包在網頁、doc、docx 檔、pdf 檔或著以圖檔釋出時,使用者要重複使用的話,就需要人一個字一個字 key-in,無法被機器閱讀。
給人看 ≠ 給機器看
https://blog.muyueh.com/open-data-portal-problem/
機器可讀 文件、報表、資料
http://csr.taipower.com.tw/images/pdf/2015_tw.pdf
機器可讀 文件、報表、資料
http://www.taipower.com.tw/UpFile/ClauseFile/104年統計年報.pdf
機器可讀 文件、報表、資料
http://www.taipower.com.tw/UpFile/ClauseFile/104年統計年報.pdf
機器可讀 文件、報表、資料
http://www.taipower.com.tw/content/announcement/ann01-5.aspx
• 文件 內的 報表 要獨立抽取出來• 報表 轉成 資料 要合併跨頁、移除額外的標頭、小計、階層、註釋
機器可讀
同一筆資料,有不同的儲存結構,儘管機器可讀,卻會有不一樣的意義。
統一資料結構
Excel 版本 JSON 版本
機器可讀
當沒有標記檔案編碼時,會讓機器不知道該如何解讀
檔案編碼沒有標記
機器可讀
• 台電公司、台灣電力公司、臺灣電力公司、台灣電力股份有限公司• 民國105年、105年、105、2016
同一個東西有不同記錄方式
http://www.hsssfn.com/archives/40855
機器可讀 寬資料與長資料
https://stackoverflow.com/
資料的品質
資料品質的控管成敗與否,將影響之後
的資料分析、報表、決策指標。
資料的品質
資訊系統 (表單設計)必填 vs. 非必填
資料的品質
資料品質的控管,
可用資料儀表板規劃品管規則。
http://wush.ghost.io/data-team-hello-world/
建立資料儀表板的意義
• 確認資料已經可以正確的被取出,並視覺化呈現• 讓組織中的不同團隊共享資料,提升全體素養• 減少資料科學團隊產生報表的需求,減少內耗• 建立信任感,初步展現資料科學團隊的價值