曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

49
Deloitte Data Analytics 1 2016 資料科學愛好者年會 沒有大數據怎麼辦? 會計師事務所的小數據科學 勤業眾信聯合會計師事務所 企業風險管理 Enterprise Risk Service 曾韵 副總經理 [email protected] July 2016

Transcript of 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Page 1: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 12016 資料科學愛好者年會

沒有大數據怎麼辦?

會計師事務所的小數據科學

勤業眾信聯合會計師事務所

企業風險管理 Enterprise Risk Service

曾韵 副總經理[email protected]

July 2016

Page 2: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 2

講師簡介

Page 3: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 3

About Deloitte

• 支援審計服務• 風險諮詢顧問服務

Page 4: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 4

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Page 5: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 5

你知道嗎,擁有大數據的公司其實沒有想像得多

WWW

首頁

案例A公司:成立30年,總資料量:5.5G

案例B公司:成立35年,總資料量:10+G

案例C公司:成立20年,總資料量:除了ERP

其他都紙本

辦公室OA系統(訂會議室、訂便當)

基本資料 交易紀錄

支援紀錄 客服紀錄

CRM

Page 6: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 6

HADOOP是什麼?大象的綽號嗎?

HADOOP不完全等於大數據,沒有HADOOP也可以體驗數據科學

最基本的分析工具:excel、SQL

免錢的進階分析工具:Weka、KNIME

再進階一些的分析工具:R、Python、也可以自己寫!

Source:socialmedialab.upenn.edu Source:ml.cmu.edu

Page 7: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 7

會計師事務所裡的資料分析(1) – 審計支援業務iData 工具的主要資料來源包含如下:

1. 財務數據資料 – 各項財務比率,來源為台灣經濟新報(TEJ) 資料庫,IFRS合併資料2. 營收/重大訊息 – 來源為公開資訊觀測站之公告資訊

iData:接案前過濾風險

Page 8: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 8

會計師事務所裡的資料分析(1) – 審計支援業務

AuditCloud:執行專案分析

Page 9: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 9

會計師事務所裡的資料分析(2) – 舞弊調查使用工具: (依需要轉換)

• ACL / Excel / Access

• MSSQL

• Tableau

• R

• VBScript

• IBM I2 (network)

• Intelly (email)

• EnCase (Forensics)

Page 10: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 10

會計師事務所裡的資料分析(2) – 舞弊調查

小蝦米 有事嗎?

財神爺 錢難賺

資料分析案例一銷售價格分析

Page 11: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 11

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Page 12: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 12

第一步,提出問題

促銷活動不夠造成貢獻低?

客戶貢獻太低怎麼提升

創新轉型法令規範

導入工具可以提高生產量嗎

客戶量不夠造成貢獻低?

利潤

1. 我的業務面臨哪些議題

2. 需求是什麼

3. 問題在哪裡

問題和需求是什麼只有自己最清楚但,數據科學可以幫你找出在哪裡

Page 13: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 13

案例分享(1) :提出問題問題:如何提早得知即將離職的員工

Page 14: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 14

案例分享(1) :提出問題模型建置流程

Page 15: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 15

開放資料的生態系(ecosystem)

•成功的開放資料生態系統通常由3個基本角色組成:政府、企業

及市民。各角色提供開放資料予其本身成員及其它角色,亦使用

其所獲得資料提供服務。

– 政府開放資料:進行資料產出、蒐集或購買,受到相

關法規、資訊安全、敏感性、隱私保護等因素限制。

– 企業(私部門)開放資料:進行資料產出或蒐集,並由企

業自行決定是否免費開放使用。

– 市民開放資料:將市民個人相關或非個人相關資料提

供至開放領域。

企業資料

企業資料

市民資料

企業

市民政府

企業資料

政府資料

市民資料

政府資料

市民資料

政府資料

提供資料使用資料提供服務

資料來源: Deloitte LLP

Page 16: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 16

案例分享(2):去識別化還能分析嗎?

去識別化

Page 17: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 17

案例分享(2):去識別化還能分析嗎?

只有一件

新北市 八里區 H14B23E1 02:23 04:41 02:23 04:55 遺留火種 0 0

去識別化後的資料驗證(1)

Page 18: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 18

案例分享(2):去識別化還能分析嗎?

臺南市 新市區 G14K08P1 103/11/08 15:35:03 103/11/08 15:49:03 遺留火種 1 0

6件裡面之有1件死亡火災

去識別化後的資料驗證(2)

Page 19: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 19

案例分享(3):變數少有少的做法

報名起始日

報名截止日

活動日期

地點

時間

姓名

生日

有個資法限制,客戶資料無法盡情蒐集

活動內容(text)

市話/手機

郵遞區號

學歷

報名人數

性別

(

六個屬性,一份紙本檔案)

活動資訊

(

六個屬性)

參加者資訊

Page 20: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 20

案例分享(3):變數少有少的做法

報名起始日

報名截止日

活動日期

地點

時間

姓名

生日

假日/平日

步行時間

景氣指標

活動當日天候

活動當日氣溫

區域平均人口

區域平均收入

活動內容(text)

市話/手機

郵遞區號

學歷

報名人數

是否連連假

性別

所屬區域

交通車站數

參加人數

是否寒暑假

居住區域

國籍

省籍年齡

星座

早上/中午/下午

活動階段

活動類型

報名總期間

是否跨長假

科系類別

(

六個屬性,一份紙本檔案)

活動資訊

(

六個屬性)

參加者資訊

Google Map

(

超過

個屬性)

最終所使用屬性

50

……

觀察屬性特色

相關係數

特徵選取

從一場活動開始的特徵挖掘:Feature Engineering

Page 21: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 21

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Page 22: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 22

假帳殺手-班佛定律(Benford's Law)

天文學家Simon Newcomb觀察到常用的對數表書籍中,1開頭那一頁比其他頁來得破舊,因此發表此觀點,公式第一位數為N之出現機率 = log(N + 1) − log(N)

奇異電器物理學家Frank Benford發現各種自然現象皆符合特定規則,擴展研究並廣泛測試於2萬多種數據中。

美國數學家Ted Hill提出混和分配仍會收斂於班佛定律的解釋,並提出嚴謹的證明

西班牙數學家發現,一般被認為是隨機分布的質數,其實每個質數的首位數字有明顯的分布規律,它可以被描述了質數的班佛定律。這項新發現除了提供對質數屬性的新洞見之外,進一步推動班佛定律應用於假帳和股票市場異常偵測。

1881年

1938年 1995年 2009年

Page 23: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 23

班佛定律的機率分配

除了首位數字的分配外,越後面的數字分佈會越來越均等

0

20

40

60

80

100

120

1 2 3 4 5 6 7 8 9

Actual v.s Expected

Actual Expected

※班佛定律的期望值:在 b進位制中,以n起頭的數出現的機率=

log (n + 1) − log (n)b b

Page 24: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 24

茫茫大海,假帳從哪裡開始查?

Page 25: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 25

實作案例分享

沒有資料分析工具怎麼辦?

班佛定律簡單到用excel就可以自己做!!

Page 26: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 27

競選經費班佛定律分析-支出

0

500

1000

1500

2000

2500

3000

3500

4000

1 2 3 4 5 6 7 8 9

支出 - 1位

Actual Expected

Page 27: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 28

適用狀況

Data須有代表

性,能反映觀

察事件的特質• 如公司股票價值能反

映公司的市場價值、

營收和銷售量。

數字不能

Max/Min

• 如股票經紀人之佣金;

然其每筆交易之佣金

有最小值。

數字不能

是用來識

別的數字

• 如身分證號

碼。

Page 28: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 29

資料筆數限制

觀察數字必須至少4位數以上

除了找到異常值,也可以觀察資料的偏誤情形。

資料筆數必須至少1000筆以上,分析經驗顯示3000

筆左右時多能符合Benford’s Law。

Page 29: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 30

競選經費班佛定律分析-支出再看一次

Page 30: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 31

就在你我身邊的班佛定律

老闆們,現在就開始用班佛定律檢驗公司的帳款吧

每個人都可以運用班佛定律成為政府的監督者

Page 31: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 32

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Page 32: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 33

企業機密資料外洩事件層出不窮但公司有十萬名員工,資料是誰偷的?怎麼知道誰正在偷公司的資料?

Page 33: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 34

讓我們回到可能掉資料的地方看看

偷!!偷!!

偷!!

員工偷的?約聘人員偷的?

廠商偷的?

系統被入侵了?

Page 34: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 37

實作案例分享

Page 35: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 38

先觀察看看資料(一)

最小值 中位數 90百分位數 99百分位數 最大值

存取個數 1 18 291 1339.36 18791

存取比例 0.00% 0.01% 0.12% 0.56% 7.88%

0

100

200

300

400

1 101 205 322 471 739 1567

存取檔案數量

90% 10%

常常整理資料夾?

Page 36: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 39

先觀察看看資料(二)

資料期間假日共130天

資料期間 最小值 中位數 90百分位數 99百分位數 最大值

存取檔案天數 1 2 10 29.69 118

註:假日為星期六、日

0

100

200

300

400

500

600

700

1 11 21 32 65

累積下班存取天數

90% 10%

真有那麼常加班?大部分的人都沒什麼在加班

Page 37: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 40

縮小調查範圍(一)

誰比較有問題?

存取次數

存取檔案個數

其實出現在這區的最有問題

Page 38: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 41

縮小調查範圍(二)

對特定檔案存取次數過高

???

總存取次數

對特定檔案存取次數

Page 39: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 42

縮小調查範圍(三)

非上班時間存取比例

使用V

PN

次數

上班時間卻用VPN登入?

經常在非上班時間使用VPN?

“總是”在非上班時間存取?(而且沒用VPN登入,表示人在公司,是在…?)

Page 40: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 43

沒有大數據、沒有HADOOP都沒關係!! 簡單的分析工具也可以帶來不同的業務 insight !

我們提供數據化決策依據

帶動客戶決策模式改變

數據會說話!

挖掘小數據的價值,全面提升企業資料驅動的決策力

我們致力於推動數據科學帶來的會計產業轉型

會計師事務所的小數據科學

Page 41: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 44

往大數據邁進24x7 Monitoring

Page 42: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 45

24x7 Dashboard

Page 43: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 46

Communication

Page 44: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 47

Geopolitical -1

Page 45: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 48

Geopolitical -2

Page 46: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 49

Supply Chain Observations

Page 47: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 50

往大數據邁進網路威脅情資分析平台

Page 48: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 51

往大數據邁進網路威脅情資分析平台

Page 49: 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 52

Q&A