クラスター分析 Cluster analysis,...

28
クラスター分析 Cluster analysis, Clusteringデータマイニング特論 8

Transcript of クラスター分析 Cluster analysis,...

クラスター分析(Cluster analysis, Clustering)

データマイニング特論

第8回

第8回目 データマイニング特講 2

クラスター分析 (Cluster analysis)目的(Purpose)◼ 複数の変数の情報から類似しているケースをグループ化する(Grouping)◼ 複数の変数を類似したグループにクラスタリングする(clustering)

データの特徴(data)◼ 基準(目的)変数なし(unsupervised learning)、量的・度数・2値データ

利点(advantage)◼ 有効な分類軸が分かっていないデータを、興味のある情報に基づいてグループ化できる◼ 他の手法で得られた次元得点などによりケースをクラスタリングすることもできる

手法(methods)◼ 非階層クラスタ分析:k-means法。高速。あらかじめクラスタ数を設定(nonー

hierarchical)

◼ 階層クラスタ分析:クラスタ化の方法により多種の方法がある(hierarchical)

重要な出力(major output)◼ 所属クラスタ、デンドログラム(階層型の場合)

注意点◼ 選択する距離測定手法やクラスタ化の方法によってかなり異なる結果となりうる◼ クラスタ数の決定は恣意的

Quantitative variable, counts, binary data

第8回目 データマイニング特講 3

2次元データに基づくグルーピング

価格(Price)

画素数(pixels)

デジタルカメラ(Digital camera)

第8回目 データマイニング特講 4

階層的クラスターの距離

重心法(Centroid method)◼ クラスターの重心の距離を用いる。

ウォード法(Ward method)◼ 各ステップで形成される任意の2つのクラスターの平方和を最小にするようにクラスター生成を行う。

群平均法(Group average method)◼ 2つのクラスター間の距離は、2つのクラスター内のすべてのもののペアの距離の平均して定義する

最近隣法(complete linkage method, minimum distance method)◼ 2つのクラスター間の距離はそれぞれのクラスター内の最も近いもの間の距離として定義

最遠隣法(maximum distance method)◼ クラスター間の距離は、それぞれのクラスター内の任意の2つのもの間の距離の最大値として定義される。

重み付き群平均法(weighted group average method)

◼ 各クラスターの大きさを重みとする点を除けば、群平均法と同じで,クラスターサイズが非常に異なる場合に適切

第8回目 データマイニング特講 5

クラスターの作成

価格(Price)

画素数(pixels)

デジタルカメラ(Digital camera)

近いものから結合しクラスターとする

第8回目 データマイニング特講 6

例題)各国のエイズ患者数(Aids)

「エイズ患者数(人口10万人あたり)」と「新聞の発行部数(人口100人あたり)」に注目し、ヨーロッパの11カ国のセグメンテーションを行う

“The number of HIV patients(Aids)” and “Circulation of Newspaper per 100 person” of 11 countries in Europa.

The number of AIDS patients

第8回目 データマイニング特講 7

階層型クラスタ分析の設定

指定すると非階層型(input number means non-hierarchical)

自動は階層型(automatics means hierarchical)

クラスタ作成方法(Clustering method)

・Ward法・Average(群平均法)・Centroid(重心法)

第8回目 データマイニング特講 8

非階層的クラスタ分析(non-hierarchical clustering)

K-means法

1. クラスタ数(=K)に最初に決定

2. 乱数の初期値によりK個のデータ点を選択

3. 選ばれたK個のデータ点に基づき、クラスタ境界を決定する(図4.3)

4. 新しいクラスタ重心の計算(図4.4)

5. 新しいクラスタ重心に基づきクラスタの再構成

6. クラスタが固定されるまで4.-5.の繰り返し

第8回目 データマイニング特講 9

Seed 3

Seed 2

Seed 1

初期シードによるクラスター境界

第8回目 データマイニング特講 10

Cluster 2

クラスター重心の計算

Cluster 1

Cluster 3

第8回目 データマイニング特講 11

Cluster 2

クラスター重心による再クラスター化

Cluster 1

Cluster 3

第8回目 データマイニング特講 12

クラスタ2

クラスター重心による再クラスター化

クラスタ1

クラスタ3

第8回目 データマイニング特講 13

クラスタ2

クラスター重心による再クラスター化

クラスタ1

クラスタ3

第8回目 データマイニング特講 14

非階層クラスター分析:留意点

類似性、関連性について

◼ 「似かよっている」ことをどう表現するか

◼ カテゴリカル変数の距離の定義

◼ 各変数の測定尺度

変数の多様性

◼ 変数の型

◼ 距離

ユークリッド距離(Euclid distance)

マンハッタン距離(Manhattan distance)

内積(Inner product)

「探索」「クラスタ」

第8回目 データマイニング特講 15

階層型クラスター分析

第8回目 データマイニング特講 16

平均:群平均法重心:重心法Ward:Ward法

クラスター分析の結果「Ward」

第8回目 データマイニング特講 17

6クラスター

結果の表示

第8回目 データマイニング特講 18

結果の表示(ツリー)

第8回目 データマイニング特講 19

結果の表示(クラスターの近傍度)

第8回目 データマイニング特講 20

クラスター分析の結果「平均」

第8回目 データマイニング特講 21

2クラスター

第8回目 データマイニング特講 22

非階層型クラスター分析

第8回目 データマイニング特講 23

結果

第8回目 データマイニング特講 24

グラフ・・・マージ/変数の設定

第8回目 データマイニング特講 25

散布図

第8回目 データマイニング特講 26

第8回目 データマイニング特講 27

セグメンテーションの流れ

セグメンテーションに関係を与えそうな変数の選択

分析次元の抽出(次元の縮約)

◼ 数値変量

因子分析、主成分分析など

◼ カテゴリ変量

コレスポンデンス分析、数量化III類など

生成された総合指標や得点に対してクラスター分析を実施し、カテゴリ化を行う

一般的なクラスター分析の利用のされ方

第8回目 データマイニング特講 28

参考図書

SASインスティチュートジャパン共訳『データマイニング手法 2訂版』 2005 海文堂

竹内啓、前川眞一『SASによる多変量データの解析』東京大学出版会

山口和範, 高橋淳一, 竹内光悦 (2004) 『図解入門 よくわかる多変量解析の基本と仕組み』,秀和システム