資料科學團隊人才培育分享 ─ 以 DSP 為例
-
Upload
fred-chiang -
Category
Education
-
view
12.583 -
download
0
description
Transcript of 資料科學團隊人才培育分享 ─ 以 DSP 為例
�
15 out of 20 attendants filled out the questionnaire. � �
資料科學團隊人才培育分享�以 為例�
���
精誠集團 負責人蔣居裕 ��
�
Who am I?� 蔣居裕 Fred Chiang
Open xxx 的愛好者
資料價值的探索者
Etu 負責人
精誠集團產品創新中心助理副總經理
! Blog —《Fred 豢養的雲中象》http://fredbigdata.blogspot.tw all about Hadoop and Big Data 台灣少見以探討 Big Data 趨勢、技術、商業價值為主軸的專業部落格
�
Big Data 的真實與想像
�
Big Data 要處理的資料量級 (sizing)�
• !Kilobyte�
• !Megabyte�
• !Ze$abyte�
• !Yo$abyte�
• !Gigabyte�
�
�
想像許多人正面臨 的問題
真實的應用尚未普遍化,具有針對性
�
�
當今的資料科學,大部分都還在面對 TB 以下的量級
Source: Analyzing the Analyzers, O’reilly (June, 2013)�
�
想像處理與分析的 是半 非結構化資料
真實多半要處理成結構化資料才能分析
�
�
聲音檔案 影片檔案 圖形檔案�
文件檔案 文字資料 XML檔案�
Web Logs 點擊事件�
社交網路 關聯圖譜 新聞 Feeds
感應器 嵌入設備
RFID Tags
地理資訊 GPS 點位
事件 其他
Big Data 精煉處理場�
New SQL�NoSQL�SQL�
New SQL�MPP�EDW�
商業智慧 與
線上分析�
Web, Mobile, CRM, ERP, SCM, …�
Dashboard, Report, Visualization, …�
商務交易 與
行為互動�
Original source: http://hortonworks.com/blog/big-data-refinery-fuels-next-generation-data-architecture�
" 傳統 ETL�
# 預處理�
$ 回饋/歷史資料�
$% 回饋/歷史資料�
& 多結構資料 儲存/彙整/轉換/運算
整合:從 Big Data 到 Total Data�OLTP�
OLAP�
�
想像要萃取 的價值,必須有資料科學家
真實資料科學家萬中選一,不如培養資料科學團隊�
�
Harvard Business Review October 2012 http://cromi.org/main/wp-content/uploads/2012/10/Davenport-2012-data-scientist.pdf
資料科學,�我們是要仰仗這位性感的傢伙嗎 �
�
No one person can be the perfect data scientist, �
Source: Next-Gen Data Scientist, Dr. Rachel Schutt�
Data Science Profiles�
�
Monetize Data
Ac0on!
Insight!
Knowledge!
Informa0on!
Data!
!資料價值驅動!
策略�
分析�
處理�
394 公里�
台灣南北全長 394 公里�
一般人騎單車的時速約 15 公里;台灣夏季吹南風,冬季吹東北風�
台灣夏季由北騎到南,一般人不可能達到平均時速 15 公里�
暑假計畫要從台灣南騎到北,目標在 3 天內完成�
詳情參見: http://fredbigdata.blogspot.tw/2013/05/big-data.html�
�
Data Science Process 現實版�
處理者�
分析者�策略者�
策略者�
Source: Next-Gen Data Scientist, Dr. Rachel Schutt�
70%~85% 的工作時間�
�
資料科學團隊成員定義�具備以下一項或多項技能與素質者 類別� 技能與素質�
策略者� • 設定議題 • 具備洞見 • 依據資料分析輔助決策,策劃行動�
分析者� • 問對問題 • 跨領域溝通 • 發現資料關聯性,用資料說故事 • 數理、統計、演算法則、建立模型、數據挖掘、機器學習 • 資料視覺化 • 資料統計/分析程式設計�
處理者� • 資料處理程式設計�計畫以分析者與處理者為主要培育對象。�
�
Data Science Program
�
緣起華山 – 2013.5.16 ������������������������� ��
�
Data Weekend #5 – 2013.8.17
http://www.slideshare.net/fchiangtw/data-weekend-5
�
Data Weekend #6 – 2013.9.28
�
Data Weekend #05 - �a�5[ÈkĮº¬ă�ÆVGĜø¾Įă�óô2
�
最後籌備期:2013.09.29 ~ 2013.12.13
執行委員會�
執行長 執行秘書�
行政部�
營運長 �
教學部�
課程長 �
行銷部�
行銷長 �
顧問團�
顧問長�
�
單位� 主要任務� � �執行委員會�
• 策略擬定�• 各種作業原則訂定�• 跨部溝通平台�• 顧問遴選�
• 執行長 �• 執行秘書 �
• 為執行委員會當然成員�
行政部� • 志工招募�• 總務�• 財會�• 講師 學員聯繫�• 課程執行支援�• 活動執行支援�
• 營運長�
�
教學部� • 課程開發�• 課程執行�• 課後檢定與追蹤�• 活動執行支援�
• 課程長�
行銷部� • 學員招募 設定 �• 網站 報名系統建置�• 社群經營�• 活動企劃與執行�• 企業贊助�• 公關宣傳�
• 行銷長�
顧問團� • 由各種專業資深人士組成,義務提供
專業諮詢�• 顧問由執委會聘任�
• 顧問長�
非優先項目,可在 年再行啟動�
�
執行委員會組成�預計 進入 �
�
代表 � 代表 � 代表 � 代表 � 代表 �
�
�
財務運作�• 學費由精誠資訊代收,存入「精誠資訊資料科學養成專戶」,發票亦由精誠
資訊開立。�• 相關費用支出 如講師費、教材製作費、餐點費用 作業原則如下:�
– 執委會屆時要如何決議每一筆錢該如何花用?�• 由執委會集體討論與決策,採過半數決。�
– 如何跟跟財務請款?�• 由行政部經手人拿著支出書面資料,上有執委員所有委員、經手人之簽名去跟財務請款。�
– 發票是由誰來開?�• 在 基金會正式成立前,發票由精誠資訊開立給學員 個人或具法人統編 。�
• 待 基金會正式成立後,即會將專戶結餘款撥給基金會;日後收入、支出、發票各項事務皆由 基金會接手。�
• 若 基金會日後因故未能設立,則在雙方 精誠與 籌備會 同意下,結餘款將捐贈給第三方公益單位。�
��
�
Data Science Program
【資料科學計畫 ─ 團訓班】 第 0 期實踐報告
2013.12.14 ~ 2014.1.11 �
�
《資料科學團隊養成計畫》Data Science Program (DSP)
人才為本
應用為價值�
在3年內,為台灣培養300位
資料科學團隊成員�
�
任務宣言�
資料的大量增長已經是事實,如何能夠提取資料的價值,也成了社會、
商業、政府共同的利益課題。綜觀資料價值的提取,資料科學的能量,
在不同的領域,均扮演關鍵的價值轉兌力量。
吾人已知資料科學是跨界的,與其寄希望於難覓的資料科學家一人,不
如更關注於如何培養一個專業分工的資料科學團隊。本計畫的宗旨,即
在希望透過對生活資料的收集、處理、分析、視覺化呈現、故事形塑、
擬定行動的過程,分門規劃,引發社會各界對資料科學的興趣,從中培
養對應人才,最終回饋於社會。�
�
http://j.mp/dsp-2013 報名開始…�
�
學員篩選 – 79 選 33�中研院、國研院、大學、太空中心、電信、網路服務、醫療、NPO、金融、資服、商業顧問、市調、高科技製造、法人
�
學員篩選 – 79 選 33�
�
專業分工組隊�
�
講師介紹�þWĠ (Johnson)İêÑøz3PİÁ+�º³Ñø°]�ġKį�_�Ñø�©åe#À�i#� RÀ±pİ��)¼ÑøqÔ4&�e#g.:�ġKö§BĢį
-�£ (Rafe) �ă��ĝYİC¤mă��^|îÒĥĆ�Ð�¸İ¼¡ZÀ&��©ħÄxėį·°�R3P¶HßºİĄď 20 O��À{�ĤİĄď�l �ëÀ Business Flight Ticketį
=�Ü (Jerry) °±tă�Àw¼ZĉÝį Á+°EÉä¯Æ}RVăù̸z3Pºİ@ďğâÆVåğ¢İIJ�ö§ćġKBĢİ#�!hÓĦ]ªIT¿d4w¼ġK。
�
講師介紹�
-D$ (CK) �ÓHÚEm�»�&�åA�ģBýûe�QhİÁ+��n÷M×Ó¸İ�Xĵ�\� r©¿ï�ĨJf�bĩēì�į]�æą1~ÛÃ�vĮă�&�åw¼Įopen dataĮdata journalismĮ�4"¥�¨į
ícð (Fred Chiang) ° Open SourceĮOpen DataĮOpen Development ÀtTå�`Ýİ´(�Ę�»?Ó¸ÀóĖİĴØH ºåßN��Ðę�À��åZĉĐįÁ+° Hadoop Big Data ?² Etu ĀĂ į
�
助教介紹�
�uÏ (Muyueh) ñ�ă�óô2İ6��TEDx®Ù¦Ëd Į8R�ÞĪ�Þăùóô2ī.�į�Â�TÀFï7�g.RY�%�TÀ§Xİóô2作品1<ıĪ¼ğ�µīĮĪÖf�;ī�4ĪħéĞĢīÊBĢį
į«L� (Tim) m�APP4ÕĈ�0ę¿e�İĚoJfĮ �ĮúøĮ,sÂĚġK��>·İ��ĚªÕĈÅ�ĮOpen DataĮĔfă�Į åăùĚ�ÊÿĢİ]�æą1~ČhzçċÎ'dõ��dõĬÈkxJfĭ�4ĔfĮjÍĮă�ÊÊ…ÕĈÅÛ¬/İüĕÈkĮă�åĔf¹ã�½ÀĚ�į
�
2013.12.11 (Sat) DSP 團訓班開課了
�
��
��
�
[課中分組專題 Pitch]
�
[心法傳授範例 1]
�
[心法傳授範例 2]
�
[心法傳授範例 3]
�
[心法傳授範例 4]
�
[課後檢討會議] 講師、助教、工作人員、學員代表
�
Dataset:內政部不動產實價登錄資料�
• 民國 101.08 ~ 102.09 • 全台灣 • 租賃、買賣、預售 • 約 47 萬筆資料
�
2014.1.11 Data Fiesta:DSP 結訓生死鬥�
�
1. yòx°Sà á��ě"9�
�
2. ĎijèU�
�
3. čĊ º�ĶģBá��ě"9�
�
4. �ħđI�0�
�租金�
人潮� 消費力�
�
�
5. āG© ĒÇ*��
�
參加 DSP 的 n 個理由
博士生要成為博士�
尋找資料科學團隊遺缺的夥伴�
迷惑者尋找資料分析的心法明燈重新認識資料分析 �
資深工作者重燃對資料分析的熱情�
您的理由 �
�
「DSP 結訓學員」使用說明
安全返回到工作崗位,回饋所學給親愛的公司� 結夥創業賺大錢� 結夥做資料科學公益� 加入 工作團隊:行政、行銷、教學� 繼續宣揚 精神,推薦更多下線�
台灣 ‧ 海外�顧問任務團�
校友團 【邀請制】�
�
DSP Positioning�
�
DSP Roadmap�
�
結論�
一位朋友說得好:當 都不想玩、玩不起來的時候,要 何用?�
對資料有感,讓應用有感,是資料科學訓練的成功關鍵要素。�
資料科學是一個連續的、 的資料科學過程,跨界專業分工團隊,是萃取資料價值的必要實踐。�
台灣不是沒人才,人才不是沒有競爭力,缺的可能是 的組織力。�
�
�
Taipei, Taiwan Add : 318, Rueiguang Rd., Taipei 114, Taiwan Tel : +886-2-77201888 Fax : +886-2-87986069 www.etusolution.com�
Beijing, China Add : Room B-26, Landgent Center, No. 24, East Third Ring Middle Rd., Beijing, China 100022 Tel : +86-10-84417988 Fax : +86-10-84417227 www.etusolution.com�