授業概要(シラバス) - tist.ac.jp · 3C、PEST分析 SWOT分析、ファイブフォース分析、バリューチェーン分析 マーケティング戦畠 各戦畠のポイント
クラスター分析 Cluster analysis,...
Transcript of クラスター分析 Cluster analysis,...
第8回目 データマイニング特講 2
クラスター分析 (Cluster analysis)目的(Purpose)◼ 複数の変数の情報から類似しているケースをグループ化する(Grouping)◼ 複数の変数を類似したグループにクラスタリングする(clustering)
データの特徴(data)◼ 基準(目的)変数なし(unsupervised learning)、量的・度数・2値データ
利点(advantage)◼ 有効な分類軸が分かっていないデータを、興味のある情報に基づいてグループ化できる◼ 他の手法で得られた次元得点などによりケースをクラスタリングすることもできる
手法(methods)◼ 非階層クラスタ分析:k-means法。高速。あらかじめクラスタ数を設定(nonー
hierarchical)
◼ 階層クラスタ分析:クラスタ化の方法により多種の方法がある(hierarchical)
重要な出力(major output)◼ 所属クラスタ、デンドログラム(階層型の場合)
注意点◼ 選択する距離測定手法やクラスタ化の方法によってかなり異なる結果となりうる◼ クラスタ数の決定は恣意的
Quantitative variable, counts, binary data
第8回目 データマイニング特講 4
階層的クラスターの距離
重心法(Centroid method)◼ クラスターの重心の距離を用いる。
ウォード法(Ward method)◼ 各ステップで形成される任意の2つのクラスターの平方和を最小にするようにクラスター生成を行う。
群平均法(Group average method)◼ 2つのクラスター間の距離は、2つのクラスター内のすべてのもののペアの距離の平均して定義する
最近隣法(complete linkage method, minimum distance method)◼ 2つのクラスター間の距離はそれぞれのクラスター内の最も近いもの間の距離として定義
最遠隣法(maximum distance method)◼ クラスター間の距離は、それぞれのクラスター内の任意の2つのもの間の距離の最大値として定義される。
重み付き群平均法(weighted group average method)
◼ 各クラスターの大きさを重みとする点を除けば、群平均法と同じで,クラスターサイズが非常に異なる場合に適切
第8回目 データマイニング特講 6
例題)各国のエイズ患者数(Aids)
「エイズ患者数(人口10万人あたり)」と「新聞の発行部数(人口100人あたり)」に注目し、ヨーロッパの11カ国のセグメンテーションを行う
“The number of HIV patients(Aids)” and “Circulation of Newspaper per 100 person” of 11 countries in Europa.
The number of AIDS patients
第8回目 データマイニング特講 7
階層型クラスタ分析の設定
指定すると非階層型(input number means non-hierarchical)
自動は階層型(automatics means hierarchical)
クラスタ作成方法(Clustering method)
・Ward法・Average(群平均法)・Centroid(重心法)
第8回目 データマイニング特講 8
非階層的クラスタ分析(non-hierarchical clustering)
K-means法
1. クラスタ数(=K)に最初に決定
2. 乱数の初期値によりK個のデータ点を選択
3. 選ばれたK個のデータ点に基づき、クラスタ境界を決定する(図4.3)
4. 新しいクラスタ重心の計算(図4.4)
5. 新しいクラスタ重心に基づきクラスタの再構成
6. クラスタが固定されるまで4.-5.の繰り返し
第8回目 データマイニング特講 14
非階層クラスター分析:留意点
類似性、関連性について
◼ 「似かよっている」ことをどう表現するか
◼ カテゴリカル変数の距離の定義
◼ 各変数の測定尺度
変数の多様性
◼ 変数の型
◼ 距離
ユークリッド距離(Euclid distance)
マンハッタン距離(Manhattan distance)
内積(Inner product)
第8回目 データマイニング特講 27
セグメンテーションの流れ
セグメンテーションに関係を与えそうな変数の選択
分析次元の抽出(次元の縮約)
◼ 数値変量
因子分析、主成分分析など
◼ カテゴリ変量
コレスポンデンス分析、数量化III類など
生成された総合指標や得点に対してクラスター分析を実施し、カテゴリ化を行う
一般的なクラスター分析の利用のされ方