Data  Clustering:  A  Review

12
Data Clusterin g: A Review 4 Similarity Mea sure 類類類類類類 () 4 類 21 類類 () 類類類 類類 類類

description

Data  Clustering:  A  Review. 4  Similarity  Measure   (類似性測定) 4 月 21 日(水) 発表者:藤井 丈明. クラスタの定義. 同特徴空間上から取り出されたパターン間の類似性測定が最も重要 パターン間の相違性    特徴空間上に定義された距離の指標 連続的なパターンに焦点. 特徴の測定基準. ユークリッド距離 ミンコフスキーの測定基準. *ミンコフスキーの測定基準の特別なケース( 2 次元の場合). ユークリッド距離の特徴. ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断. - PowerPoint PPT Presentation

Transcript of Data  Clustering:  A  Review

Page 1: Data  Clustering:  A  Review

Data  Clustering:  A  Review   4  Similarity  Measure  (類似性測定)            4 月 21日(水)

発表者:藤井 丈明

Page 2: Data  Clustering:  A  Review

クラスタの定義

同特徴空間上から取り出されたパターン間の類似性測定が最も重要

パターン間の相違性   

特徴空間上に定義された距離の指標連続的なパターンに焦点

Page 3: Data  Clustering:  A  Review

特徴の測定基準ユークリッド距離

ミンコフスキーの測定基準

2

21

1

2,,2 ),(

ji

d

kkjkiji xxd

xx

xx

*ミンコフスキーの測定基準の特別なケース( 2 次元の場合)

pji

pd

k

p

kjkijip xxd

xx

xx

1

1,,),(

Page 4: Data  Clustering:  A  Review

ユークリッド距離の特徴ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断

Page 5: Data  Clustering:  A  Review

ミンコフスキーの測定基準の特徴

ミンコフスキーの測定基準:欠点として、他を支配する最も大きくスケーリングされた特徴の傾向が挙げられる

特徴の線形相関はマハラノビス距離によって歪める事が可能

解決

特徴の正規化

Page 6: Data  Clustering:  A  Review

マハラノビス距離

マハラノビス距離

TjijijiMd xxxxxx 1,

1

ix

jx

,Md

:共分散行列

:列ベクトル

:列ベクトル

:異なった重りをそれらの変化に基づく異なった特徴に割り当て

Page 7: Data  Clustering:  A  Review

パターンの近接手段元のパターンセット  近接値のマトリクス

近接手段の発展・様々な報告がされていった。(最近の例とし

て、カウントに基づく連続した特徴と距離における、名目上の属性のためのメートル法の変更されたミンコフスキーの組み合わせ )

Page 8: Data  Clustering:  A  Review

パターンの表現

文字列構造、木構造を用いることでパターンの表現が可能。

様々な報告がされたが、結果的に劣っていた

Page 9: Data  Clustering:  A  Review

(1)mutual neighbor distance (MND)

距離測定が考えられた。

MND),(),(),( ijjiji NNNNMND xxxxxx

),,(),( jiji fs xxxx :文脈類似性を測る関数

:Neighbor NumberNN

Page 10: Data  Clustering:  A  Review

(2)mutual neighbor distance (MND)

AA

B

C

AA

B

AA

B

C

DEF

図4 図5A にとって B は最も近いB にとって A は最も近い

2),( BAMND1),( ABNN

1),( BANNB にとって C は 2 番目

2),( BCNNC にとって B は1番目

1),( CBNN

3),( CBMND

よって A と B の方が類似

B と C の方が類似

Page 11: Data  Clustering:  A  Review

みにくいアヒルの子の定理(1)

醜いアヒルの子と普通のアヒルの子、すなわち、白鳥の子とアヒルの子とは、似通った 2 羽のアヒルの子が似ているのと同じ程度に似ている

追加情報を使用しない場合、どんなパターンも等しく同様である

Page 12: Data  Clustering:  A  Review

みにくいアヒルの子の定理(2)

),,,(),( jiji fs xxxx

概念的なクラスタリングの場合、類似性は  が1 セットの事前に定義された概念である関数と定義される。

図6により例証

図6

AB

C *ユークリッド距離は A,B間の方が少ないが、 B とC は同一円上であるため、B と C の方が類似している

*概念的な類似性測定は最も一般的な類似性測定。実践的な問題はセクション 5 に続く。