判別分析 Discriminant Analysis

判別分析判別分析Discriminant AnalysisDiscriminant Analysis

謝寶煖台灣大學圖書資訊學系2006 年 6 月 3 日

[email protected]

量化研究與統計分析

Discriminant AnalysisDiscriminant Analysis 判別分析區別分析鑑別分析

判別分析判別分析是一種相依方法，其準則變數為事先訂定的類別或組別。例如，銀行在貸款給顧客時，通常都會依顧客基本資料，如學歷、收入、借貸記錄等等 .. ，將顧客區分為具信用之顧客與不具信用之顧客兩種，並且當有新的顧客進來時，也可比照同樣準則將新顧客的資料與這些巳存在的資料做一比較，看是否應借錢給這位新的顧客。

判別分析判別分析 vs. vs. 集群分析集群分析判別分析法（ discriminant analysis ），是在已知的分類之下，一旦遇到有新的樣本時，可以利用此法選定一判別標準，以判定如何該將新樣本放置於那個族群中。集群分析法（ cluster analysis ），則是希望將一群具有相關性的資料加以有意義的分類。假設有數個群體，對每一群體中的一些個體取幾個變量（說明變量）組，作成適當的判別標準時，即可辨別該群體的歸屬。在此處我們想要討論的情況，看起來與分群分析法類似，似乎都是要將觀察值分群分類，但是他們的使用前提及意義仍是不同的。

104易投網：市調專欄http://www.104poll.com.tw/Columan/Columan0910_2.asp

用簡單的例子來說，如果我們已知有兩群人：一群是韓國人，另一群的日本人。現在新來了一位某甲，我們想問：某甲是韓國人呢，還是日本人？回答這樣的問題，算是判別分析。再如我們有一大群人混在一起，這裡面包括了日本、韓國、泰國，馬來西亞、 .... ，如果我們想將他們一一分辨出來，這就是集群分析法。

判別分析法之用途很多，如動植物分類，醫學疾病診斷，社區種類劃分，氣象區（或農業氣象區）之劃分，商品等級分類，職業依能力分類，以及人類考古學上之年代及人種分類等等均可利用。

線性判別函數（ linear discriminant function, 簡稱 LDF ），是判別分析法中主要的工具。最早由 R.A. Fisher （ 1936 ）提出。 Fisher 提出線形判別函數，並應用於花卉分類上。他將花卉之各種特徵（ character ）（如花瓣長與寬、花萼長與寬等）利用線性組合（ linear

combination ）方法，將這些基本上是多變量的數據（ multivariate data ），轉換成單變量（ univariate data ）。再以這個化成單變量的線性組合數值來判別事物間的差別。

判別分析大意圖判別分析大意圖

典型相關 (canonical correlation) 判別函數的典型相關是組間平方和與總平方和比值的平方根。平方後，它就是由組間差異解釋的總變異量的比例。

注意事項：分組變數可以有兩個 ( 或以上 ) 的數值。但是，分組變數的代碼必須為整數，而且必須指定其最小值和最大值。觀察值的數值如果超出這個範圍，就不會分析它。

範例一般而言，溫帶國家的人，每天消耗的卡路里會比熱帶的人多，而且溫帶地區中，住在都市的人口比例也會比較高。研究人員想將這些資訊，併成一個函數，以便判斷受訪者對這兩個國家的人民，能細分到什麼樣的程度。研究人員認為，人口數量和經濟資訊，應該也相當重要。因此，使用判別分析，能讓您估計線性判別函數的係數，判別函數的運算式，看起來跟多重線性迴歸方程式的右側內容很像。亦即是，它也使用 a 、 b 、 c 和 d 係數，函數如下： D = a * 氣候 + b * 都市 + c * 人口 + d * 每人國民生產毛額

如果這些變數，有助於判別兩種不同的氣候區域，那麼溫帶國家和熱帶國家的 D 值就會不同。如果您使用逐步的變數選取法，可能會發現此函數中，不需要包含四個變數。統計量。對於每個變數而言，則有：平均數、標準差、單變量 ANOVA 。對於每種分析而言，則有： Box

M 、組內相關矩陣、組內共變異數矩陣、各組共變異數矩陣、總和的共變異數矩陣。對於每種典型判別函數而言，則有：特徵值、變異數百分比、典型相關、 Wilks’ Lambda 值、卡方。對每個步驟而言：事前機率、 Fisher 函數係數、未標準化函數係數、每個典型函數的 Wilks’ Lambda 值。

階層集群分析階層集群分析統計分析＞分類＞階層式集群 ... 如果要將觀察值分成集群的話，請至少選取一個數值變數。如果要將變數分成集群的話，請至少選取三個數值變數。或者，您可以選取識別變數做為觀察值的註解。

這個程序會根據您所選取的特性，試圖找出具有相對同質性的觀察值 ( 或變數 ) 組別。它所使用的演算法，會從個別集群中的每一個觀察值 ( 或變數 ) 開始，然後再與集群組合，直到只剩下一個為止。您可以分析原始資料，或從各種不同的標準化轉換中選擇。「近似性」程序會產生距離或相似性量數。每個階段都會顯示統計量，以協助您選出最適用的數值。

範例以電視節目為例，您可以根據電視節目所吸引的觀眾群，將這些節目加以分組。您可以使用階層集群分析，把電視節目 ( 觀察值 ) 根據觀眾特性分成相似的集群。這種方式也可用於市場區隔。或者，您可以把城市分成相似的集群，以便選取類似的城市來測試各種不同的行銷策略。

統計量在統計方面

群數凝聚過程距離 ( 或相似性 ) 矩陣單解（或解的範圍）的集群組員

在圖形方面樹狀圖冰柱圖

判別分析判別分析用於判別樣本所屬類型的一種方法

在社會、經濟、管理等領域的研究中，經常要對某一研究現象的歸屬作出判斷，例如在經濟學中，根據國民平均年收入所得、企業生產總額、國民平均消費水準等多種指標，來判定一個國家的經濟發展程度所屬類型。在醫學上，根據病人的各項檢查指標來判斷病情或病因等。

與集群分析相同，都是將相似的事物歸為一類，不同處在於集群分析預先不知道分類，而判別分析是在研究對象分類已知的情況下，根據樣本資料推導出一個或一組判別函數，同時指定一種判別規則，用以確定待判別樣本所屬的類型，使錯判率最小。

判別分析判別分析按判別組數分為：兩組判別和多組判別按數學模型不同分為：線性判別和非線性判別按判別方法不同分為：逐步判別和序貫判別按判別準則不同分為：距離判別、費雪

（ Fisher ）判別、貝依斯（ Bayes ）判別

線性判別函數線性判別函數 Linear Discriminant Function 對 k 個母體， G1、 G2 、 G3 、、、 Gk，如果各個樣本相互獨立且符合多元常態分配，則可建立線性判別函數，其形式如下：

Yi=a0+a1x1+a2x2+a3x3+……+anxn(I=1,2,…..k)

K ：判別組數 Y ：判別分數或判別值（ discriminant scores ） X1 x2……xn 是因變數或預測變數 A1 a2……an 是判別係數（ coefficient ）

典型判別函數典型判別函數 Canonical Discriminant Function 典型函數是原始因變數的線性組合，透過建立少量的典型變數，可以方便地描述各類之間的關係，用以計算判別分數、畫散點圖和區域圖等 SPSS針對 K 組研究對象，建立 K － 1 個典型判別函數，顯示標準化的典型判別函數係數

（ standardized canonical discriminant function coefficient ）和未標準化的典型判別函數係數

判別準則判別準則 Fisher 判別準則

根據線性 Fisher 函數值進行判別，通常用於兩組判別問題要求各組變數的平均值有顯著差異

Bayes 判別準則根據各母體的先驗機率（ prior

probabilities ），使誤判的平均損失最小進行判別，通常用於多組判別要求滿足三個假設條件：多元常態分配、各組變異數矩陣相等、各組變數平均值有顯著差異

建立判別函數的方法建立判別函數的方法全模型法（ Enter independent together ）

將研究者指定的全部變數作為判別函數的因變數，而不管該變數是否對研究對象顯著或對判別函數的貢獻大小是 SPSS預設的方法，適合於對研究對象的各變數有全面認識的時候使用，否則全部變數全部選用，可能用產生較大的偏差

逐步選擇法（ stepwise method ）選擇最能各映各類間差異的變數子集，建立判別函數的方法。模型是從沒有任何變數開始，每一步都對模型進行檢定，將模型外對模型的判別貢獻最大的變數加入到模型中。同時檢查在模型中是否存在由於新變數的加入，而對判別貢獻不太顯著的變數，若有則將其從模型中刪除，直到模型中的所有變數全部都符合引入模型的條件，而模型外的變數都不符合引入模型的條件為止。

SPSS 提供 5 種逐步選擇變數的方法使 Wilks’s 統計量最小化法使最近兩組間的 Mahalanbis 的距離最大化法使任何兩組間的最小的 F 比值最大化法使末被解釋的共變數和最小化法使 Roa V 統計量最大化法

輸出結果，通常可以用 F 值的大小作為變數進入模型的標準，即一個變數是否能進入模型，取決於共變數分析的 F 檢定的顯著水準

判別分析基本步驟判別分析基本步驟分析 (analyze)＞分類 (classify)＞判別

(discriminant) 選擇分組變數與自變數計算各組單變數敘述統計量，包括組內平均值、組內標準差、總平均值、總標準差、各組共變數矩陣、組間相關矩陣，並對組間平均值相等及共變數矩陣相等的假設進行檢定推導判別係數，進行檢定建立 Fisher 線性判別模型進行判別分組，根據 Bayes規則或 Fisher規則進行判別分組進行樣本判別分析，計算錯分率輸出結果

分組變數 (grouping variable) ：只能指定一個。必須是數值型變數，最少有 2 個水準值。

組別統計量

29.6000 8.2644 5 5.00054.6000 15.6301 5 5.00076.6000 12.1778 5 5.00043.5000 19.8746 4 4.00068.5000 11.9024 4 4.00062.0000 8.3666 4 4.00059.2000 22.9063 5 5.00059.6000 22.2104 5 5.00053.6000 25.0859 5 5.00044.1429 21.0306 14 14.00060.3571 17.1177 14 14.00064.2143 18.9541 14 14.000

造型性能價位造型性能價位造型性能價位造型性能價位

組別高效能

中效能

低效能

總和

平均數標準差未加權加權N ( )有效的列出

汽車展示中 14 款新車，依造型、性能、價位三要素，，可以區分為高效能、中效能、低效能三組，各有 5 、 4 、 5 輛車。

各組平均數的相等性檢定

.619 3.390 2 11 .071

.886 .707 2 11 .514

.711 2.236 2 11 .153

造型性能價位

Wilks'Lambda值 F檢定分子自由度分母自由度顯著性

變異數分析：造型、性能、價位之平均數差異，均未達顯著水準（ F值愈大，平均數的差異越大）

檢定結果

14.942.714

12497.328

.738

Box's M 共變數相等性檢定近似值分子自由度分母自由度顯著性

F檢定

相等母群共變數矩陣的虛無假設檢定。

組共變數相等的假設檢定：Box’s M 值＝ 14.942, 轉換成 F 值為 0.714， F檢定之 P 值為 0.738 ，未達顯著水準，接受虛無假設，三組母群體之共變數相等，符合判別分析的假定

特徵值

1.884a 93.7 93.7 .808.126a 6.3 100.0 .334

函數12

特徵值 %變異數的 %累積典型相關

2 分析時會使用前個典型區別函數。a.

特徵值（ Eigenvalue ）愈大，表示此函數愈有判別力典型相關係數：區別分數與組別間的關聯程度

Wilks' Lambda值

.308 11.776 6 .067

.888 1.185 2 .553

函數檢定1 2到2

Wilks'Lambda值卡方自由度顯著性

兩個典型區別函數值的顯著性檢定，兩個典型區別函數均未達顯著水準

以造型、性能、價位，三個變數作為判別分析，可以有效地判別各車的整體效能，而且判別率相當高。

依觀察值計算統計量

1 1 .7821 1 .6271 2** .8281 1 .7501 1 .8822 1** .9942 2 .8002 3** .6262 2 .7393 3 .4673 3 .2113 3 .7733 1** .9223 3 .2151 1 .796

觀察值個數12345678910111213141

原始的

交叉驗證a

實際組別預測組別 pP(D>d | G=g)

最高組別

** 分類錯誤的觀察值

分派錯誤率分派錯誤率（ error rate of misclassification ）

如果兩組資料有重疊（ overlap ）部分，則分派未知個體時會有錯誤發生，其分派錯誤的機會視兩組資料重疊部份之大小而定，其計算分派錯誤率的方法有兩種。第一種自原來的樣本資料直接來看：各組判別之中，判別的錯誤比例是多少？另一種則是利用機率函數來做計算。當然，在做第二種方法的時候，要假設 X= 的分布為多元常態（ multivariate normal ）。

判別分析的例子判別分析的例子美國某商學院的註冊組（ admission office ），向來以 GPA

及 GMAT 的分數作為他們審核申請研究所學生的一個指標。今以過去的一份資料來尋找判別的標準，此份資料將申請者分為 A ：接受（ admit ）， N ：拒絕（ not admit ）及 B ：備取（ borderline ）三種結果。（在此例中，申請者母體資料的分類乃是由該校的註冊組主任，依照他的經驗判斷而來的。另一方面由過去經驗顯示，那些 GPA 及 GMAT 分數較高者在研究所的表現也較好，而在此兩變項的閱讀能力較低者，通常在學習上也較困難。）另假設有一個新的申請者，其 GPA 為 3.21 ， GMAT 為 497 分，試以相同的事前機率下用此判別標準找出其入學許可之審核結果應當為哪一類。這是一個典型的判別分析問題：我們有三組數據（ m=3 的情形），而每一組的數據都是二維的（ p=2 的情形）。

判別分析 Discriminant Analysis

Documents

Transcript of 判別分析 Discriminant Analysis