第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K...

第七章第七章自動群集偵測自動群集偵測

Automatic Cluster DetectionAutomatic Cluster Detection

自動群集偵測自動群集偵測

簡介簡介 KK 平均法平均法凝聚方法凝聚方法變數的變化變數的變化自動群集偵測的優自動群集偵測的優、、缺點缺點

何謂群集何謂群集（（ cluster cluster ））？？把資料庫中的資料分類成群把資料庫中的資料分類成群群內同質；群間異質群內同質；群間異質

用到幾何學、向量平均用到幾何學、向量平均自動群集本身很少單獨使用自動群集本身很少單獨使用

一旦群集偵測出來後，必須利用其一旦群集偵測出來後，必須利用其他方法來了解群集的意義。他方法來了解群集的意義。

在許多案例中，雖然我們可能會懷疑一組非常雜亂的資料中，事實上是由一些更能表現出特性的群集所構成，但我們卻不知如何將其定義，這時候自動群集偵測 (automatic cluster detection) 就派上用場了。

三個例子

銀行發現 14 個群集，而且只對其中一個群集找到一個有用的闡釋。然而，這個群集的用途很大，因此沒有人在意其他 13個群集找不到適當闡釋。落在這個有用的群集中的人，許多是在該銀行中同時擁有個人和公司戶頭的客戶，以及很可能進行房屋抵押貸款的人。這個組合使得銀行採取一個新的行銷方針 - 鼓勵客戶進行房屋抵貸款以設立小型企業。

KK 平均法（平均法（ K - meanK - mean ））

1.1. 選擇選擇 KK 個「種子」作為群集質心個「種子」作為群集質心麥昆的演算法只採用前麥昆的演算法只採用前 KK 筆資料筆資料

2.2. 將每一資料點分配到質心最接近的群集中將每一資料點分配到質心最接近的群集中3.3. 計算每一個群集的質心計算每一個群集的質心

將群集中每一個點的位置加以平均將群集中每一個點的位置加以平均4.4. 找出新群集，每一點再次被分配到質心最接找出新群集，每一點再次被分配到質心最接

近的群集中。近的群集中。5.5. 重複進行直到群集邊界不再變動為止。重複進行直到群集邊界不再變動為止。

我們繼續討論這份 k 平均法，請特別注意被一個方形圍起來的那個點的命運。根據原本的種子，這個點被分配到第二號種子所控制的群集，因為這個點和這種子最接近。

一旦新群集被找出，每一個點再次被分配到質心最接近的群集中，圖 10.5 顯示新群集的邊界，如同前面，這個界線是由與兩個質心距離相等的點所構成，注意被方塊圖形圍繞的那個點，它原本屬於第二群集，現在被重新分配到第一群集，這種分配資料點到群集中再計算質心的過程一再重複，直到群集邊界不再變動為止。

自動群集偵側其實相當簡單 - 只要一點點幾何學，一些向量平均，一切就搞定了。當我們談到這類的群集資料時，我們直覺的認為同屬一個集群的成員有某一種「自然關連」，它們之間的相似程度應該超過它們和其他群集的相似度。最常用的方法就是將所有變數換算成數值，這筆資料就可以被視為鑋間中的一個點。接著，如果就幾何學而言兩個點很接近，我們就假設它們代表資料庫中相似的資料。這項方法存在兩個問題 :其中就幾何學而言，每一個維度有同樣的重要性，但在我們的資料庫中，某一個變數的小改變也許比另一個變數的大改變還要重要。

變數的變化變數的變化類別類別（（ CategoriesCategories ））

顏色顏色排序排序（（ RanksRanks ））

可知可知 X>Y>ZX>Y>Z ；；但不知道但不知道 ((X-Y) > (Y-Z)X-Y) > (Y-Z) 區間區間（（ IntervalsIntervals ））

溫度溫度實際測量實際測量（（ True measuresTrue measures ））

身高、體重、年齡、容量身高、體重、年齡、容量從有意義的從有意義的 00 點做為起點做測量點做為起點做測量

適合程度增

解決之道是將相同的資料採用一套不同的幾何學解釋。我們不再將 x 和 y 當成空間中的點來測量它們的距離，而是把它們當成向量，測量它們之間角度。在此前題下，向量就是連結我們座標系統原點到由向量值所表示的那一個點的線段。一個向量同時具有大小 (原點到該點的距離 )與方向，就我們的目的而言，方向比較重要。

關聯性的正式測量 ( 距離 ,角度 )

兩個向量之間的角度提供我們衡量關連性的指標，因為這個向量的角度不會受到同量本身大小的影響 ( 見圖 10.6) 。事實上，這個角度的正弦值是一個更好的度量指標，因為正弦值是從 0 (兩個向量平行 ) 到 1 (兩個垂直 ) 。

凝聚凝聚（（ agglomerationagglomeration ））方方法法

在 k 平均方法群集分析中，我們一開始採用固定數目的群集，將所有資料收入其中。還有另外的方法是採用「凝聚」 (agglomeration) 的方式。在這類方法中，我們一開始讓每資料點形成自己的群集，然逐漸合併這些群集，直到所有點聚集成一個大群集為止。這個過程剛開始時，所有群集都很小很單純。每一個群集的成員很少，但密切相關到了過程結束時，群組變得很大而且較沒有明確定義。整個過都被保存下來，因此你可以選擇最適合你工作目標的群集層次。

創造一個「相似矩陣」（創造一個「相似矩陣」（ similarity similarity matrixmatrix ））

在相似矩陣中找出最小值在相似矩陣中找出最小值創造層級式群集創造層級式群集群集之間的距離群集之間的距離

單一連結（單一連結（ single linkagesingle linkage ））完整連結（完整連結（ complete linkagecomplete linkage ））比較質心（比較質心（ comparison of centroidscomparison of centroids ））

在單一連結法中，兩個群集之間以兩者之間「最接近」的成員距離為準。這個方法產生的群集特質在於，一個群集中每一個成員至少會和一個相同群集成員關連性超過群集外的任一點。　　在完整連結法中，兩群集之間的距離是以集群中「距離最遠」的成員距離為準。這個方法產的群集特質在於，群集中所有成員都位於一個己知的最大範圍之內。　　在第三個方法中，兩個群集的距離是以彼此的質心距離為準。一個群集的質心就是其組成單元的平均。

自動群集偵測的優點自動群集偵測的優點

非監督式的知識發現技術非監督式的知識發現技術可以不需事前鎖定探索主題的情況下可以不需事前鎖定探索主題的情況下使用使用

適用於不同形式的資料適用於不同形式的資料在類別、數值、順序、與區間等各種在類別、數值、順序、與區間等各種變數資料都可使用變數資料都可使用

應用方便應用方便只需要少量的資料輸入只需要少量的資料輸入不需要確認特定的輸入或輸出變數不需要確認特定的輸入或輸出變數

自動群集偵測的缺點自動群集偵測的缺點

加權與度量的困難加權與度量的困難有可能很難選擇正確的有可能很難選擇正確的測量間隔測量間隔與與加權加權

對原始的參數相當敏感對原始的參數相當敏感一開始選擇的一開始選擇的 KK 值決定了形成群集值決定了形成群集的數目的數目

難以解釋結果難以解釋結果找出來的群集無法保證擁有任何實找出來的群集無法保證擁有任何實用價值用價值

第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K...

Documents

Transcript of 第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測 簡介 簡介 K...

人臉偵測應用於學習專注力 與群組參與度之分析

F 分布 兩族群變方相等性檢定 變方分析 (ANOVA) 試驗設計

2015.11.08 為愛改變：改變成真（摩西）

2015.11.22 為愛改變：改變成真（路得）

Endpoint Detection ( 端點偵測 )

「邊界」省思 ──從日治時期的族群政治與熟番身分變遷談起

023形狀拼貼變變變isbn978 986-587-207-6

2.3 使用 OllyDbg 進行偵錯epaper.gotop.com.tw/PDFSample/ACN028200.pdf · 2015-09-04 · 2.3 使用OllyDbg 進行偵錯 2-5 2.3 使用 OllyDbg 進行偵錯 要改變程式的流程，關鍵在於要瞭解上述原始程式碼中，函式func

衛星遙測在變遷偵測之應用 Satellite Remote Sensing for Land-Use/Land-Cover Change Detection

作文奇案03 名偵探柯西

照明探偵団通信 - shomei-tanteidan.orgshomei-tanteidan.org/wp-content/uploads/2017/03/c7d657f8718070b7... · 照明探偵団通信 vol. 78 Shomei Tanteidan Tsu-shin 1 照明探偵団通信

照明探偵団通信 - shomei-tanteidan.orgshomei-tanteidan.org/wp-content/uploads/2014/08/vol43.pdf · 1 照明探偵団通信 vol. 43 照明探偵団通信 vol. 43 Shomei Tanteidan

受邀相親「剩男」減半 聲名遠揚遊客倍增 十八變 變 變 變 變 變 變 …pdf.wenweipo.com/2016/09/20/a16-0920.pdf · 指，大家都希望她能如願考上大學，走向外面

第六章 生物與環境 第一節 族群與群落trial.dl.samebest.com.tw/BY/high shool biology-6.pdf · 基礎生物(6) 79 (c)食物的不足是使族群變小的主要原因 (d)捕食因素是控制族群大小的主要因素。

アイヌ探偵ナコ＆ナコhamachikumi.plala.jp/mizuki/COMIC/PDF/samspi.pdfTitle アイヌ探偵ナコ＆ナコ.indd Created Date 9/11/2010 2:49:14 AM

光偵測器 Photodetectors

2018社群大數據分析應用發表會 - OpView · 日舉辦兩場社群大數據分析應用發表會，獨家發布台灣整體社 群輿情白皮書，展示社群媒體用戶行為在2015至2017年間的變

マサカリ駆動学習 #1 〜 群, アーベル群, 半群, モノイド

教師群英會2 -改變 雅麗主任

第十章 單變量變異數分析

第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K...

Transcript of 第七章自動群集偵測 Automatic Cluster Detection. 自動群集偵測簡介簡介 K...

人臉偵測應用於學習專注力與群組參與度之分析

F 分布兩族群變方相等性檢定變方分析 (ANOVA) 試驗設計

2.3 使用 OllyDbg 進行偵錯epaper.gotop.com.tw/PDFSample/ACN028200.pdf · 2015-09-04 · 2.3 使用OllyDbg 進行偵錯 2-5 2.3 使用 OllyDbg 進行偵錯要改變程式的流程，關鍵在於要瞭解上述原始程式碼中，函式func

受邀相親「剩男」減半聲名遠揚遊客倍增十八變變變變變變變 …pdf.wenweipo.com/2016/09/20/a16-0920.pdf · 指，大家都希望她能如願考上大學，走向外面

第六章生物與環境第一節族群與群落trial.dl.samebest.com.tw/BY/high shool biology-6.pdf · 基礎生物(6) 79 (c)食物的不足是使族群變小的主要原因 (d)捕食因素是控制族群大小的主要因素。

2018社群大數據分析應用發表會 - OpView · 日舉辦兩場社群大數據分析應用發表會，獨家發布台灣整體社群輿情白皮書，展示社群媒體用戶行為在2015至2017年間的變

マサカリ駆動学習 #1 〜群, アーベル群, 半群, モノイド

教師群英會2 -改變雅麗主任

第十章單變量變異數分析