Data Clustering: A Review
-
Upload
allegra-pope -
Category
Documents
-
view
25 -
download
7
description
Transcript of Data Clustering: A Review
Data Clustering: A Review 4 Similarity Measure (類似性測定) 4 月 21日(水)
発表者:藤井 丈明
クラスタの定義
同特徴空間上から取り出されたパターン間の類似性測定が最も重要
パターン間の相違性
特徴空間上に定義された距離の指標連続的なパターンに焦点
特徴の測定基準ユークリッド距離
ミンコフスキーの測定基準
2
21
1
2,,2 ),(
ji
d
kkjkiji xxd
xx
xx
*ミンコフスキーの測定基準の特別なケース( 2 次元の場合)
pji
pd
k
p
kjkijip xxd
xx
xx
1
1,,),(
ユークリッド距離の特徴ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断
ミンコフスキーの測定基準の特徴
ミンコフスキーの測定基準:欠点として、他を支配する最も大きくスケーリングされた特徴の傾向が挙げられる
特徴の線形相関はマハラノビス距離によって歪める事が可能
解決
特徴の正規化
マハラノビス距離
マハラノビス距離
TjijijiMd xxxxxx 1,
1
ix
jx
,Md
:共分散行列
:列ベクトル
:列ベクトル
:異なった重りをそれらの変化に基づく異なった特徴に割り当て
パターンの近接手段元のパターンセット 近接値のマトリクス
近接手段の発展・様々な報告がされていった。(最近の例とし
て、カウントに基づく連続した特徴と距離における、名目上の属性のためのメートル法の変更されたミンコフスキーの組み合わせ )
パターンの表現
文字列構造、木構造を用いることでパターンの表現が可能。
様々な報告がされたが、結果的に劣っていた
(1)mutual neighbor distance (MND)
距離測定が考えられた。
MND),(),(),( ijjiji NNNNMND xxxxxx
),,(),( jiji fs xxxx :文脈類似性を測る関数
:Neighbor NumberNN
(2)mutual neighbor distance (MND)
AA
B
C
AA
B
AA
B
C
DEF
図4 図5A にとって B は最も近いB にとって A は最も近い
2),( BAMND1),( ABNN
1),( BANNB にとって C は 2 番目
2),( BCNNC にとって B は1番目
1),( CBNN
3),( CBMND
よって A と B の方が類似
B と C の方が類似
みにくいアヒルの子の定理(1)
醜いアヒルの子と普通のアヒルの子、すなわち、白鳥の子とアヒルの子とは、似通った 2 羽のアヒルの子が似ているのと同じ程度に似ている
追加情報を使用しない場合、どんなパターンも等しく同様である
みにくいアヒルの子の定理(2)
),,,(),( jiji fs xxxx
概念的なクラスタリングの場合、類似性は が1 セットの事前に定義された概念である関数と定義される。
図6により例証
図6
AB
C *ユークリッド距離は A,B間の方が少ないが、 B とC は同一円上であるため、B と C の方が類似している
*概念的な類似性測定は最も一般的な類似性測定。実践的な問題はセクション 5 に続く。