Machine Learning, Big Data, Insights
-
Upload
jeff-chu -
Category
Data & Analytics
-
view
354 -
download
4
Transcript of Machine Learning, Big Data, Insights
Machine Learning, Big Data, Insights
小朱技術顧問 / 軟體架構師 / Microsoft Azure MVP
奇豐資訊科技
Big Data
Big Data
• 來自四面八方的資料。• 客戶基本資料,交易資料。• 留言,按讚的記錄,朋友的連結關係。• 機器上的,或是 Web 主機上的 log 。• 圖片。• ...
• 物聯網 (IoT) 時代,資料量會比你想像的還要多很多。
Insights
洞察出資料內要表達的真正意義,才是 Big Data 的核心價值。
Machine Learning 是一種分析的作法,讓分析人員能在浩瀚的資料海中找出某些規則。
Machine Learning• 收集低階資料或資訊。• 運用統計或數學模型,找出可能的規則。• 決策樹 (Decision Tree)• 分類 (Classification)• 分群 (Clustering)• 迴歸 (Regression)• ...
• 將資料倒入規則中,檢視產出是否符合預期。• 調整演算法,繼續倒資料並檢視產出。• 當到達可信程度後,用真實資料進行推論。
建議系統 / 推薦系統Recommendation System
• PC Home 怎麼知道你想買的是什麼?
• YouTube 怎麼知道你想看哪些片子?
• 為什麼人家會比你早一步知道你想要什麼?
Facebook: 我們的人臉辨識成功率有 97.53% 。
http://www.extremetech.com/extreme/178777-facebooks-facial-recognition-software-is-now-as-accurate-as-the-human-brain-but-what-now
• 為什麼微軟能猜出你的年紀?
• 背後有數以百萬計的照片,以及一個 ( 可能還是會猜錯的 ) 模型。
• 為什麼微軟能猜出你和別人像不像?
Machine Learning 不只可以用來玩,也可以拿來找出潛在的風險。
• 你手邊的任何 log ,都有可能是一條潛在風險的線索 ( 例如機器快當機了 ) 。
• 利用這些可能沒什麼價值的資料,預測出你的機器或系統是否要出毛病。
Machine Learning Demo:
如果你上了鐵達尼號,你生還的機率有多少 ?
https://gallery.azureml.net/Experiment/01b2765fa75147ce99679e18482d280f
http://demos.datasciencedojo.com/demo/titanic/
Machine Learning 找出來的模型是基於充份又正確的訓練資料以及調整到位的演算法所保證,所以難免也會有錯誤的地方
• 不斷的試誤 (try and error) ,讓資料變得更加準確。
• Big Data 資料量夠大,能讓 Machine Learning 的價值更明顯。
結語• 機器學習是 Big Data 時代分析與洞察資料的利器之一。
• 機器學習需要訓練,就像人一樣。• 機器學習會因為訓練程度而有不同等級的誤差
• 不是所有資料分析都要用到機器學習 (SQL 能做到的事就免了 ) 。• 需要找出一定模式 (Model) 的才會用到機器學習。• 它可以協助你對傳入的資料進行推論。• 準確度則看你的訓練決定。
• 機器學習的應用很廣泛,而雲端架構下能讓它更加的容易實現
References
• 維基百科 : https://en.wikipedia.org/?title=Machine_learning
• Azure Machine Learning: http://azure.microsoft.com/zh-tw/services/machine-learning/
• Story of How-old.net: http://blogs.technet.com/b/machinelearning/archive/2015/05/04/fun-with-ml-stream-analytics-and-powerbi-observing-virality-in-real-time.aspx
• 鐵達尼號範例:http://demos.datasciencedojo.com/demo/titanic/