PART I Data Mining: 初探

PART IPART IData Mining: Data Mining: 初探初探

Chapter 1

1.1 Data Mining: 1.1 Data Mining: 定義定義

3

結束

Data Mining - 951

Data MiningData Mining

自整個資料庫中運用一種或多種電腦技術以自動分析或擷取知識的過程

The process of employing one or more computer learning techniques to automatically analyze and extract knowledge from data.

4

結束

Data Mining - 951

歸納法學習歸納法學習 (Induction-based Learning)(Induction-based Learning)

自資料探勘所獲得知識通常是資料的模型或是歸納。歸納法學習乃自概念明確、具體可知的例子中構造出通用的概念定義。See example on page 4.高爾夫球電視轉播贊助饒舌音樂購買習慣信用卡是使用模式

Knowledge Discovery in Databases (KDD)Knowledge Discovery in Databases (KDD)

知識挖掘 (KDD) 是一種通常用以與資料探勘互相使用的術語。技術上， KDD 是一種運用科學方法來作資料探勘的應用。See flow chart in next slide

The application of the scientific method to data mining. Data mining is one step of the KDD process.

6

結束

Data Mining - 951

知識挖掘流程知識挖掘流程

Data

………………………

………………………

Knowledge

Target Data

PreprocessedData

TransformedData

Patterns

Selection

Preprocessing

Transformation

Interpretation/Evaluation

Data Mining

Data

………………………

………………………

Knowledge

Target Data

PreprocessedData

TransformedData

Patterns

Selection

Preprocessing

Transformation

Interpretation/Evaluation

Data Mining

7

結束

Data Mining - 951

知識挖掘流程知識挖掘流程1. 選擇欲 KDD 的目標資料集合（ Data Selection ）2. 探勘前的資料處理（ Pre-processing ）（如資料過

濾 Data Cleaning ）3. 資料轉換（ Transformation ）（含資料減量 Data

Reduction ）4. 進行資料探勘（ Data Mining ）（依欲 KDD 的目

標及資料屬性形式選擇適合的資料探勘演算法，以尋找出資料關係的類型 Pattern ）

5. 探勘結果的釋意及所得關係類型的評估（ Interpretation/Evaluation ）（含知識的呈現Knowledge Presentation ）等五階段

8

結束

Data Mining - 951

1.2 1.2 為甚麼電腦可以學習為甚麼電腦可以學習 ??

資料探勘是一種學習資料探勘是一種學習

9

結束

Data Mining - 951

電腦學習的四個等級電腦學習的四個等級

事實 (Facts) ：事實即是真相的簡單敘述概念 (Concepts) ：由一個或一群物件、特徵、或是事件的集合。程序 (Procedures) ：為達成目的所採行之步驟。原則 (Principles) ：其表現為最高次的學習，以真相為基礎所形成的通則與定律。電腦擅長於概念學習，故 DM 產出概念結構。一般概念結構包括：樹狀、規則、網路圖、及數學方程式。

知識為黑箱概念、推理法則、經驗資料知識為黑箱概念、推理法則、經驗資料

10

結束

Data Mining - 951

三個概念觀三個概念觀

概念可自不同明顯關係中被觀察出，吾輩可自三種概念觀加以應用至 DM 。

1. 標準概觀 (classical view) ：表示所有具有確定定義屬性的概念。標準概念觀對於概念的定義為明確且無令人誤解的空間。範例規則如下：

若年收入 30,000

且目前職務的年資 5

且擁有自用住宅 = 是則優良信用風險 = 是

符合此三條件

11

結束

Data Mining - 951

可能性概念觀可能性概念觀 (probabilistic view)(probabilistic view)

可能式概觀可用以表達”哪些可能”可成為概念成員的屬性。假設人類會儲存概念並回想，那麼人類即可自個別範例中觀察並得出歸納 ( 經驗法則 ) 。因此如上例，其表達方式為：持續按時繳納貸款者，平均收入是 30000大部分擁有優良信用者，在同一家公司至少服務 5 年大多數擁有信用者，擁有自己的住宅。為優良信用者所呈現的普遍性的導引See also, on page 7.

12

結束

Data Mining - 951

範例概念觀範例概念觀 (exemplar view)(exemplar view)

Exemplar view: 若一個給定例子與一個或多個已知概念範例相似，則此範例可為一個特別概念範例。如上例，若申請者符合一個以上的候選條件，則申請人可被歸納為優良信用者。Example 1:年收入 = 32,000在同一家公司服務年資 = 6 年

持有房屋Example 2:年收入 = 52,000在同一家公司服務年資 = 16 年

目前租屋

See also example 3On page 8

13

結束

Data Mining - 951

監督式學習法監督式學習法 (Supervised (Supervised learning)learning)

自資料樣本中建立一個學習模型，利用此模型決定新型未知樣本的結論。監督式學習的目的：1. 使用監督式學習自包含正例與反例學習概念之資料

集中建立分類模型。2. 一旦分類模型建立後，則該類模型可被用以決定哪

些最近出現且未知其分類的範例。 See next slide for example demonstration.

14

結束

Data Mining - 951

Diagnosis example (Diagnosis example ( 診斷範例診斷範例 ))

Inputs

決策樹決策樹 (Decision Tree)(Decision Tree)

決策樹是一種簡單監督式學習程式，可以將輸入範例資料經學習建立成決策樹。A tree structure where non-terminal nodes represent tests on one or more attributes and terminal nodes reflect decision outcomes.

16

結束

Data Mining - 951

Tanagra 1.49Tanagra 1.49

屬性樣本

類別

類別型資料含有兩種值

http://eric.univ-lyon2.fr/~ricco/tanagra/index.html

http://eric.univ-lyon2.fr/~ricco/tanagra/index.html

17

結束

Data Mining - 951

Tanagra 1.49 (C4.5)Tanagra 1.49 (C4.5)

18

結束

Data Mining - 951


19

結束

Data Mining - 951


20

結束

Data Mining - 951

21

結束

Data Mining - 951

用以建立決策樹模型 ( 例子 ) 的樣本稱為訓練資料(Training data) ；為了測試模型正確分類的資料稱為測試集 (Test set) –都已分類過了。

決策樹訓練決策樹訓練

推論規則推論規則 (Production Rules)(Production Rules) 吾輩可將決策數轉換成 IF-Then 規則。

若前提條件則結果

由圖 1.1決策樹可產生三條規則：1. 若淋巴腺腫脹 = 是

則診斷結果為練球菌性喉炎2. 若淋巴腺腫脹 =否且發燒 = 是

則診斷結果為感冒3. 若淋巴腺腫脹 =否且發燒 =否

則診斷結果為過敏

Unsupervised ClusteringUnsupervised Clustering非監督式分群非監督式分群

勿需預先定義類別的一種資料探勘學習方法。A data mining method that builds models from data without predefined classes.

24

結束

Data Mining - 951

非監督式分群非監督式分群

資料範例會根據群集系統所定義之相似性函數，歸納成數個群，藉由一種或以上的評估技術用以幫助吾輩了解所形成群組意涵。表 1.3 假設資料 ( 用以區分監督與非監督式分群方法之差別 )

The Acme Investors Dataset The Acme Investors Dataset

假設利用資料探勘技術用以挖掘股票經紀交易資料可能特徵或樣式，常問問題：

1. 何以區分線上投資或交由經紀人進行投資者特性？(output: 交易別 )

2. 是否能找出在剛開始不是融資戶但未來可能成為融資戶的新顧客？ (output: 融資戶 )

3. 是否能正確預測一個新投資者每月交易量模式？(output: 每月平均交易量 )

4. 男性與女性投資者間不同特徵？ (output: 性別 )

26

結束

Data Mining - 951

切割問題切割問題

1. Acme公司投資者是具有何種相同屬性值而集群？2. 顧客群是因何種屬性值的差異而可以被切割？

Notes:

很多軟體需使用者提供一個初始最佳資料分群數，其餘則利用某種演算法找出最佳分群數目。See example in next slide.( 三群 )

27

結束

Data Mining - 951

20% 的錯誤率 50% 資料符合第一群前提條件

28

結束

Data Mining - 951

1.3 DM 1.3 DM 是用以解決各種問題是用以解決各種問題嗎嗎 ??

29

結束

Data Mining - 951

可解決問題之決策基礎可解決問題之決策基礎

1.問題可以清楚定義嗎？2.有潛在意義存在嗎？3.資料包含隱藏之事還是只能當作陳述用的

事實資料？4.處理資料過程所花費成本小於 DM專案所

得任何潛在資訊所可能帶來的利潤？

30

結束

Data Mining - 951

DMDM 還是資料查詢還是資料查詢藉由四種知識類型可幫助我們決定適用何者工具1. 膚淺知識 (Shallow knowledge) ：其本質上即為事

實，吾輩可利用資料庫中儲存與操作。 Such as SQL 。

2. 多維度知識 (Multidimensional) ：資料儲存於多維度格式中。可利用線上分析工具 (OLAP) 處理之。

3. 隱含知識 (Hidden) ：此類資料不容易由 SQL 找出樣式或規則。此即可運用 DM 處理之。

4. 深層知識 (Deep) ：經由指定一些我們想要獲得知識方向，方可自資料庫中找到知識。目前 DM 無法解決之。

31

結束

Data Mining - 951

DMDM 還是資料查詢還是資料查詢SQL 或 OLAP需要切確需求物件或具體陳述。See page. 16 for examples.

DM 可以做到甚麼？找出ㄧ般信用卡顧客的檔案資料之樣型以利於信用卡顧客帳單上做一些促銷活動。

可區分哪些可能準時繳款顧客但卻有不良信用風險的人。

…See page 16

32

結束

Data Mining - 951

DMDM 與資料查詢區別與資料查詢區別 - EXAMPLE- EXAMPLE

Use data query if you already almost know what you are looking for.( 若你已大概知道要找甚麼，則利用資料查詢 – SQL) 。 Use data mining to find regularities in data that are not obvious. (利用 DM 找出資料中不明顯的或不具有規則性解讀 )

找到假設 :

See page. 17 for more explanations

33

結束

Data Mining - 951

1.4 1.4 需要專家系統或資料探勘？需要專家系統或資料探勘？

一個擁有解決困難問題領域能力的人，可稱之為領域專家。將累積經驗儲存並利用規則庫表達或觸發問題案例用以推論出決策方案，稱為專家系統。故建構專家系統需要專家與知識工程師。專家系統： A computer program that emulates the problem-solving skills of one or more human experts.

知識工程師 (Knowledge Engineer): A person trained to interact with an expert in order to capture their knowledge.

34

結束

Data Mining - 951

35

結束

Data Mining - 951

1.5 1.5 簡單的簡單的 DMDM 處理模式處理模式

步驟：1. 組合並分析所蒐集資料2. 將此類資料置於 DM 應用軟體程式中3. 解釋結果4. 對新的問題或狀況推論或預測其結果

36

結束

Data Mining - 951

資料存取途徑資料存取途徑1.自資料倉儲 (Data warehouse) 存取資料2.自關連資料庫中存取資料3.自一般檔案或試算表中存取資料

ERP

CRM

資料倉儲

OLAP

Data Mining

37

結束

Data Mining - 951

資料倉儲資料倉儲一個資料集 (Data set) 即及合一個或以上的操作型資料庫。操作型資料庫 (Operational database) 為交易式(Transaction) 資料庫，其通常利用關聯式資料模型設計之。若資料倉儲不存在則須以結構化查詢語言 (SQL)寫出一個或多個查詢 (Query) 進行資料探勘。

38

結束

Data Mining - 951

探勘資料探勘資料將資料置於 DM軟體程式前，有以下選擇：1.該運用監督式或非監督式學習方式？2.哪些資料可做為建立模型資料樣本；哪些則

可用以測試模型？3.如何自可用屬性中挑出有用屬性？4.資料探勘學習參數選擇獲取最佳模型

39

結束

Data Mining - 951

解釋結果與應用解釋結果與應用

探勘結果解釋乃去檢視 DM軟體所輸出結果，並判斷其是否具有使用性 (Actionable)價值。若結果不是最佳，則可採用新的屬性以重複進行探勘步驟。應用 see page. 23, diaper and beer.

1.6 Why Not Simple Search?1.6 Why Not Simple Search?

Nearest Neighbor Classifier ( 最近芳鄰分類法 )Classification is performed by searching the training data for the instance closest in distance to the unknown instance. (利用訓練資料的搜尋而找出最接近資料點以達到分群目的 )缺點 : see page. 23.

K-nearest Neighbor Classifier (k 個最最近芳鄰分類法 )

以一個新的範例與他 k 個最近芳鄰點所形成一個共同類別 ) 。See page. 24.

41

結束

Data Mining - 951

Nearest Neighbor ClassifierNearest Neighbor Classifier

Condensed Nearest Neighbor (CNN),Hart, 1968

:

VQ Nearest Neighbor (VQ-NN),Xie, 1993

Adaptive VQ Nearest Neighbor (AVQ-NN), Yen et al., 2004

資料分類器 :

Class 1

Class 2

Class n

42

結束

Data Mining - 951

Nearest Neighbor ClassifierNearest Neighbor Classifier

Factors:1. 準度2. 多少個雛形 (prototypes)

43

結束

Data Mining - 951

資料探勘的應用資料探勘的應用

案例應用 : visit www.kdnuggest.com

1. 詐欺偵測 :AT&T 運用資料探勘偵測國際電話詐騙。HNC 所開發之 FALCON詐欺評估系統用以顯示可能的信用卡交易詐騙行為。See more on page 25 and 26.

2. 健康諮詢 : see page 26.

3. 企業金融 : 風險管理 and 交叉行銷 (Cross-selling).

4. 科學應用 : see page 27.

5. 運動與娛樂 : see page. 27.

44

結束

Data Mining - 951

顧客內含價值顧客內含價值

顧客內含價值是根據類似對顧客價值之預測值。DM 可用於建立顧客內含價值預測模型，一旦顧客內含價值決定後則可採取適當市場或行銷策略。

45

結束

Data Mining - 951

內含價

值

真實價值

顧客內含價值顧客內含價值

46

結束

Data Mining - 951

Question 5.Question 5.

有以下幾個可能 . a. 學期分數、總學分數、就學年數、每學期修課學

分數 ,校園活動、是否就業或經驗。b. 標準概觀 : 學期分數高於 85 、每學期平均修習 12 學

分以上、專修課程成績優。c. 可能性概念觀 : 學期成績高於平均值、高於修課平均學分

數、專修成績可。d. 範例概念觀可列出優良或不佳學生作為範例用以判斷其他學生程度。可以以上範例作為判例。

47

結束

Data Mining - 951

Question 2Question 2

Case #1 首先假設每一個產品是否被購買的屬性為” Yes” or

“No” 。若一個顧客買某一產品則其屬性值為” Yes” ；反之為否。

非監督式分群演算法可協助於決定哪些產品通常一起購買的品項。

Case #2 若產品別 (項目 ) 為輸出項，則吾輩可考量某些監督式分群方法以處理之。

48

結束

Data Mining - 951

Q3Q3

一般醫學院學學生可經由觀察或協助住院醫生作業以學習外科手術程序累積與結合觀察心得可將手術程序標準化，故此類學習為歸納法則。

49

結束

Data Mining - 951

Q6Q6

將喉嚨痛至於最上階節點。其可能狀況為 yes and no. 病人代號 1, 3, 4, 8, 10 為 yes ， 2, 5, 6, 7 & 9 為 no. 路徑喉嚨痛 = yes and no 皆有三種診斷結果 (喉炎、過敏、感冒 ).

藉由喉嚨痛 = yes 路徑並選擇有頭痛跡象之病人，為 1,3,4, 8 & 10. 有頭痛者 = yes 包括 1 (喉炎 ) ,8 ( 過敏 ), & 10 (感冒 ) 。無頭痛者 = no 有 3 (感冒 ) and 4 (喉炎 ).

接下來路徑頭痛 = yes 及選擇充血 ( 最後一個屬性 ) ，所有病人呈現充血 = yes, 因此此決策樹無法辨別此三例。同樣地可從路徑頭痛 = no繼續推演。因此此路徑喉嚨痛= yes 無法明確辨別五例的任一例。選擇任一病症作為最上階捷點皆無法辨別。

PART I Data Mining: 初探

Documents

Transcript of PART I Data Mining: 初探