曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Post on 12-Apr-2017

3.791 views 0 download

Transcript of 曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

Deloitte Data Analytics 12016 資料科學愛好者年會

沒有大數據怎麼辦?

會計師事務所的小數據科學

勤業眾信聯合會計師事務所

企業風險管理 Enterprise Risk Service

曾韵 副總經理christitseng@deloitte.com.tw

July 2016

Deloitte Data Analytics 2

講師簡介

Deloitte Data Analytics 3

About Deloitte

• 支援審計服務• 風險諮詢顧問服務

Deloitte Data Analytics 4

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Deloitte Data Analytics 5

你知道嗎,擁有大數據的公司其實沒有想像得多

WWW

首頁

案例A公司:成立30年,總資料量:5.5G

案例B公司:成立35年,總資料量:10+G

案例C公司:成立20年,總資料量:除了ERP

其他都紙本

辦公室OA系統(訂會議室、訂便當)

基本資料 交易紀錄

支援紀錄 客服紀錄

CRM

Deloitte Data Analytics 6

HADOOP是什麼?大象的綽號嗎?

HADOOP不完全等於大數據,沒有HADOOP也可以體驗數據科學

最基本的分析工具:excel、SQL

免錢的進階分析工具:Weka、KNIME

再進階一些的分析工具:R、Python、也可以自己寫!

Source:socialmedialab.upenn.edu Source:ml.cmu.edu

Deloitte Data Analytics 7

會計師事務所裡的資料分析(1) – 審計支援業務iData 工具的主要資料來源包含如下:

1. 財務數據資料 – 各項財務比率,來源為台灣經濟新報(TEJ) 資料庫,IFRS合併資料2. 營收/重大訊息 – 來源為公開資訊觀測站之公告資訊

iData:接案前過濾風險

Deloitte Data Analytics 8

會計師事務所裡的資料分析(1) – 審計支援業務

AuditCloud:執行專案分析

Deloitte Data Analytics 9

會計師事務所裡的資料分析(2) – 舞弊調查使用工具: (依需要轉換)

• ACL / Excel / Access

• MSSQL

• Tableau

• R

• VBScript

• IBM I2 (network)

• Intelly (email)

• EnCase (Forensics)

Deloitte Data Analytics 10

會計師事務所裡的資料分析(2) – 舞弊調查

小蝦米 有事嗎?

財神爺 錢難賺

資料分析案例一銷售價格分析

Deloitte Data Analytics 11

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Deloitte Data Analytics 12

第一步,提出問題

促銷活動不夠造成貢獻低?

客戶貢獻太低怎麼提升

創新轉型法令規範

導入工具可以提高生產量嗎

客戶量不夠造成貢獻低?

利潤

1. 我的業務面臨哪些議題

2. 需求是什麼

3. 問題在哪裡

問題和需求是什麼只有自己最清楚但,數據科學可以幫你找出在哪裡

Deloitte Data Analytics 13

案例分享(1) :提出問題問題:如何提早得知即將離職的員工

Deloitte Data Analytics 14

案例分享(1) :提出問題模型建置流程

Deloitte Data Analytics 15

開放資料的生態系(ecosystem)

•成功的開放資料生態系統通常由3個基本角色組成:政府、企業

及市民。各角色提供開放資料予其本身成員及其它角色,亦使用

其所獲得資料提供服務。

– 政府開放資料:進行資料產出、蒐集或購買,受到相

關法規、資訊安全、敏感性、隱私保護等因素限制。

– 企業(私部門)開放資料:進行資料產出或蒐集,並由企

業自行決定是否免費開放使用。

– 市民開放資料:將市民個人相關或非個人相關資料提

供至開放領域。

企業資料

企業資料

市民資料

企業

市民政府

企業資料

政府資料

市民資料

政府資料

市民資料

政府資料

提供資料使用資料提供服務

資料來源: Deloitte LLP

Deloitte Data Analytics 16

案例分享(2):去識別化還能分析嗎?

去識別化

Deloitte Data Analytics 17

案例分享(2):去識別化還能分析嗎?

只有一件

新北市 八里區 H14B23E1 02:23 04:41 02:23 04:55 遺留火種 0 0

去識別化後的資料驗證(1)

Deloitte Data Analytics 18

案例分享(2):去識別化還能分析嗎?

臺南市 新市區 G14K08P1 103/11/08 15:35:03 103/11/08 15:49:03 遺留火種 1 0

6件裡面之有1件死亡火災

去識別化後的資料驗證(2)

Deloitte Data Analytics 19

案例分享(3):變數少有少的做法

報名起始日

報名截止日

活動日期

地點

時間

姓名

生日

有個資法限制,客戶資料無法盡情蒐集

活動內容(text)

市話/手機

郵遞區號

學歷

報名人數

性別

(

六個屬性,一份紙本檔案)

活動資訊

(

六個屬性)

參加者資訊

Deloitte Data Analytics 20

案例分享(3):變數少有少的做法

報名起始日

報名截止日

活動日期

地點

時間

姓名

生日

假日/平日

步行時間

景氣指標

活動當日天候

活動當日氣溫

區域平均人口

區域平均收入

活動內容(text)

市話/手機

郵遞區號

學歷

報名人數

是否連連假

性別

所屬區域

交通車站數

參加人數

是否寒暑假

居住區域

國籍

省籍年齡

星座

早上/中午/下午

活動階段

活動類型

報名總期間

是否跨長假

科系類別

(

六個屬性,一份紙本檔案)

活動資訊

(

六個屬性)

參加者資訊

Google Map

(

超過

個屬性)

最終所使用屬性

50

……

觀察屬性特色

相關係數

特徵選取

從一場活動開始的特徵挖掘:Feature Engineering

Deloitte Data Analytics 21

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Deloitte Data Analytics 22

假帳殺手-班佛定律(Benford's Law)

天文學家Simon Newcomb觀察到常用的對數表書籍中,1開頭那一頁比其他頁來得破舊,因此發表此觀點,公式第一位數為N之出現機率 = log(N + 1) − log(N)

奇異電器物理學家Frank Benford發現各種自然現象皆符合特定規則,擴展研究並廣泛測試於2萬多種數據中。

美國數學家Ted Hill提出混和分配仍會收斂於班佛定律的解釋,並提出嚴謹的證明

西班牙數學家發現,一般被認為是隨機分布的質數,其實每個質數的首位數字有明顯的分布規律,它可以被描述了質數的班佛定律。這項新發現除了提供對質數屬性的新洞見之外,進一步推動班佛定律應用於假帳和股票市場異常偵測。

1881年

1938年 1995年 2009年

Deloitte Data Analytics 23

班佛定律的機率分配

除了首位數字的分配外,越後面的數字分佈會越來越均等

0

20

40

60

80

100

120

1 2 3 4 5 6 7 8 9

Actual v.s Expected

Actual Expected

※班佛定律的期望值:在 b進位制中,以n起頭的數出現的機率=

log (n + 1) − log (n)b b

Deloitte Data Analytics 24

茫茫大海,假帳從哪裡開始查?

Deloitte Data Analytics 25

實作案例分享

沒有資料分析工具怎麼辦?

班佛定律簡單到用excel就可以自己做!!

Deloitte Data Analytics 27

競選經費班佛定律分析-支出

0

500

1000

1500

2000

2500

3000

3500

4000

1 2 3 4 5 6 7 8 9

支出 - 1位

Actual Expected

Deloitte Data Analytics 28

適用狀況

Data須有代表

性,能反映觀

察事件的特質• 如公司股票價值能反

映公司的市場價值、

營收和銷售量。

數字不能

Max/Min

• 如股票經紀人之佣金;

然其每筆交易之佣金

有最小值。

數字不能

是用來識

別的數字

• 如身分證號

碼。

Deloitte Data Analytics 29

資料筆數限制

觀察數字必須至少4位數以上

除了找到異常值,也可以觀察資料的偏誤情形。

資料筆數必須至少1000筆以上,分析經驗顯示3000

筆左右時多能符合Benford’s Law。

Deloitte Data Analytics 30

競選經費班佛定律分析-支出再看一次

Deloitte Data Analytics 31

就在你我身邊的班佛定律

老闆們,現在就開始用班佛定律檢驗公司的帳款吧

每個人都可以運用班佛定律成為政府的監督者

Deloitte Data Analytics 32

Agenda

沒有大數據怎麼辦

一切就用數據來回答

假帳世界的數據科學

誰偷了我的機密資料?

Q&A

Deloitte Data Analytics 33

企業機密資料外洩事件層出不窮但公司有十萬名員工,資料是誰偷的?怎麼知道誰正在偷公司的資料?

Deloitte Data Analytics 34

讓我們回到可能掉資料的地方看看

偷!!偷!!

偷!!

員工偷的?約聘人員偷的?

廠商偷的?

系統被入侵了?

Deloitte Data Analytics 37

實作案例分享

Deloitte Data Analytics 38

先觀察看看資料(一)

最小值 中位數 90百分位數 99百分位數 最大值

存取個數 1 18 291 1339.36 18791

存取比例 0.00% 0.01% 0.12% 0.56% 7.88%

0

100

200

300

400

1 101 205 322 471 739 1567

存取檔案數量

90% 10%

常常整理資料夾?

Deloitte Data Analytics 39

先觀察看看資料(二)

資料期間假日共130天

資料期間 最小值 中位數 90百分位數 99百分位數 最大值

存取檔案天數 1 2 10 29.69 118

註:假日為星期六、日

0

100

200

300

400

500

600

700

1 11 21 32 65

累積下班存取天數

90% 10%

真有那麼常加班?大部分的人都沒什麼在加班

Deloitte Data Analytics 40

縮小調查範圍(一)

誰比較有問題?

存取次數

存取檔案個數

其實出現在這區的最有問題

Deloitte Data Analytics 41

縮小調查範圍(二)

對特定檔案存取次數過高

???

總存取次數

對特定檔案存取次數

Deloitte Data Analytics 42

縮小調查範圍(三)

非上班時間存取比例

使用V

PN

次數

上班時間卻用VPN登入?

經常在非上班時間使用VPN?

“總是”在非上班時間存取?(而且沒用VPN登入,表示人在公司,是在…?)

Deloitte Data Analytics 43

沒有大數據、沒有HADOOP都沒關係!! 簡單的分析工具也可以帶來不同的業務 insight !

我們提供數據化決策依據

帶動客戶決策模式改變

數據會說話!

挖掘小數據的價值,全面提升企業資料驅動的決策力

我們致力於推動數據科學帶來的會計產業轉型

會計師事務所的小數據科學

Deloitte Data Analytics 44

往大數據邁進24x7 Monitoring

Deloitte Data Analytics 45

24x7 Dashboard

Deloitte Data Analytics 46

Communication

Deloitte Data Analytics 47

Geopolitical -1

Deloitte Data Analytics 48

Geopolitical -2

Deloitte Data Analytics 49

Supply Chain Observations

Deloitte Data Analytics 50

往大數據邁進網路威脅情資分析平台

Deloitte Data Analytics 51

往大數據邁進網路威脅情資分析平台

Deloitte Data Analytics 52

Q&A