第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K...

Post on 21-Dec-2015

269 views 6 download

Transcript of 第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K...

第七章第七章自動群集偵測自動群集偵測

Automatic Cluster DetectionAutomatic Cluster Detection

自動群集偵測自動群集偵測

簡介簡介 KK 平均法平均法 凝聚方法凝聚方法 變數的變化變數的變化 自動群集偵測的優自動群集偵測的優、、缺點缺點

何謂群集何謂群集 ( ( cluster cluster ))?? 把資料庫中的資料分類成群把資料庫中的資料分類成群 群內同質;群間異質群內同質;群間異質

用到幾何學、向量平均用到幾何學、向量平均 自動群集本身很少單獨使用自動群集本身很少單獨使用

一旦群集偵測出來後,必須利用其一旦群集偵測出來後,必須利用其他方法來了解群集的意義。他方法來了解群集的意義。

在許多案例中,雖然我們可能會懷疑一組非常雜亂的資料中,事實上是由一些更能表現出特性的群集所構成,但我們卻不知如何將其定義,這時候自動群集偵測 (automatic cluster detection) 就派上用場了。

三個例子

三個例子

三個例子

銀行發現 14 個群集,而且只對其中一個群集找到一個有用的闡釋。然而,這個群集的用途很大,因此沒有人在意其他 13個群集找不到適當闡釋。落在這個有用的群集中的人,許多是在該銀行中同時擁有個人和公司戶頭的客戶,以及很可能進行房屋抵押貸款的人。這個組合使得銀行採取一個新的行銷方針 - 鼓勵客戶進行房屋抵貸款以設立小型企業。

KK 平均法(平均法( K - meanK - mean ))

1.1. 選擇選擇 KK 個「種子」作為群集質心個「種子」作為群集質心 麥昆的演算法只採用前麥昆的演算法只採用前 KK 筆資料筆資料

2.2. 將每一資料點分配到質心最接近的群集中將每一資料點分配到質心最接近的群集中3.3. 計算每一個群集的質心計算每一個群集的質心

將群集中每一個點的位置加以平均將群集中每一個點的位置加以平均4.4. 找出新群集,每一點再次被分配到質心最接找出新群集,每一點再次被分配到質心最接

近的群集中。近的群集中。5.5. 重複進行直到群集邊界不再變動為止。重複進行直到群集邊界不再變動為止。

我們繼續討論這份 k 平均法,請特別注意被一個方形圍起來的那個點的命運。根據原本的種子,這個點被分配到第二號種子所控制的群集,因為這個點和這種子最接近。

一旦新群集被找出,每一個點再次被分配到質心最接近的群集中,圖 10.5 顯示新群集的邊界,如同前面,這個界線是由與兩個質心距離相等的點所構成,注意被方塊圖形圍繞的那個點,它原本屬於第二群集,現在被重新分配到第一群集,這種分配資料點到群集中再計算質心的過程一再重複,直到群集邊界不再變動為止。

自動群集偵側其實相當簡單 - 只要一點點幾何學,一些向量平均,一切就搞定了。 當我們談到這類的群集資料時,我們直覺的認為同屬一個集群的成員有某一種「自然關連」,它們之間的相似程度應該超過它們和其他群集的相似度。最常用的方法就是將所有變數換算成數值,這筆資料就可以被視為鑋間中的一個點。接著,如果就幾何學而言兩個點很接近,我們就假設它們代表資料庫中相似的資料。這項方法存在兩個問題 :其中就幾何學而言,每一個維度有同樣的重要性,但在我們的資料庫中,某一個變數的小改變也許比另一個變數的大改變還要重要。

變數的變化變數的變化 類別類別( ( CategoriesCategories ))

顏色顏色 排序排序( ( RanksRanks ))

可知可知 X>Y>ZX>Y>Z ;;但不知道但不知道 ((X-Y) > (Y-Z)X-Y) > (Y-Z) 區間區間( ( IntervalsIntervals ))

溫度溫度 實際測量實際測量( ( True measuresTrue measures ))

身高、體重、年齡、容量身高、體重、年齡、容量 從有意義的從有意義的 00 點做為起點做測量點做為起點做測量

適合程度增

解決之道是將相同的資料採用一套不同的幾何學解釋。我們不再將 x 和 y 當成空間中的點來測量它們的距離,而是把它們當成向量,測量它們之間角度。在此前題下,向量就是連結我們座標系統原點到由向量值所表示的那一個點的線段。一個向量同時具有大小 (原點到該點的距離 )與方向,就我們的目的而言,方向比較重要。

關聯性的正式測量 ( 距離 ,角度 )

兩個向量之間的角度提供我們衡量關連性的指標,因為這個向量的角度不會受到同量本身大小的影響 ( 見圖 10.6) 。事實上,這個角度的正弦值是一個更好的度量指標,因為正弦值是從 0 (兩個向量平行 ) 到 1 (兩個垂直 ) 。

凝聚凝聚(( agglomerationagglomeration ))方方法法

在 k 平均方法群集分析中,我們一開始採用固定數目的群集,將所有資料收入其中。還有另外的方法是採用「凝聚」 (agglomeration) 的方式。在這類方法中,我們一開始讓每資料點形成自己的群集,然逐漸合併這些群集,直到所有點聚集成一個大群集為止。這個過程剛開始時,所有群集都很小很單純。每一個群集的成員很少,但密切相關到了過程結束時,群組變得很大而且較沒有明確定義。整個過都被保存下來,因此你可以選擇最適合你工作目標的群集層次。

凝聚凝聚(( agglomerationagglomeration ))方方法法

創造一個「相似矩陣」(創造一個「相似矩陣」( similarity similarity matrixmatrix ))

在相似矩陣中找出最小值在相似矩陣中找出最小值創造層級式群集創造層級式群集 群集之間的距離群集之間的距離

單一連結(單一連結( single linkagesingle linkage )) 完整連結(完整連結( complete linkagecomplete linkage )) 比較質心(比較質心( comparison of centroidscomparison of centroids ))

凝聚凝聚(( agglomerationagglomeration ))方方法法

在單一連結法中,兩個群集之間以兩者之間「最接近」的成員距離為準。這個方法產生的群集特質在於,一個群集中每一個成員至少會和一個相同群集成員關連性超過群集外的任一點。   在完整連結法中,兩群集之間的距離是以集群中「距離最遠」的成員距離為準。這個方法產的群集特質在於,群集中所有成員都位於一個己知的最大範圍之內。  在第三個方法中,兩個群集的距離是以彼此的質心距離為準。一個群集的質心就是其組成單元的平均。

自動群集偵測的優點自動群集偵測的優點

非監督式的知識發現技術非監督式的知識發現技術 可以不需事前鎖定探索主題的情況下可以不需事前鎖定探索主題的情況下使用使用

適用於不同形式的資料適用於不同形式的資料 在類別、數值、順序、與區間等各種在類別、數值、順序、與區間等各種變數資料都可使用變數資料都可使用

應用方便應用方便 只需要少量的資料輸入只需要少量的資料輸入 不需要確認特定的輸入或輸出變數不需要確認特定的輸入或輸出變數

自動群集偵測的缺點自動群集偵測的缺點

加權與度量的困難加權與度量的困難 有可能很難選擇正確的有可能很難選擇正確的測量間隔測量間隔與與加權加權

對原始的參數相當敏感對原始的參數相當敏感 一開始選擇的一開始選擇的 KK 值決定了形成群集值決定了形成群集的數目的數目

難以解釋結果難以解釋結果 找出來的群集無法保證擁有任何實找出來的群集無法保證擁有任何實用價值用價值