データサイエンティスト協会 木曜勉強会 #04...

73
クラスター分析の基礎と総合通販会社での活用例 ~ビッグデータ時代にクラスター分析はどう変わるか~ 2014年12月11日(木) 山川 義介 株式会社ALBERT 代表取締役会長 明治大学大学院グローバルビジネス研究科 兼任講師 関東学院大学 人間環境研究所 客員研究員 データサイエンティスト協会 木曜勉強会 04

Transcript of データサイエンティスト協会 木曜勉強会 #04...

クラスター分析の基礎と総合通販会社での活用例

~ビッグデータ時代にクラスター分析はどう変わるか~

2014年12月11日(木)

山川 義介株式会社ALBERT 代表取締役会長明治大学大学院グローバルビジネス研究科 兼任講師関東学院大学 人間環境研究所 客員研究員

データサイエンティスト協会 木曜勉強会 #04

(C)株式会社ALBERT

目次

1

1.はじめに

2.クラスター分析概要

3.階層クラスター分析

4.非階層クラスター分析

5.クラスター分析の課題

6.総合通販会社での活用例

(C)株式会社ALBERT 2

自己紹介

1981年 横浜国立大学工学部材料化学科卒業(ナイロンの光化学反応機構の分析)

1981年 TDK株式会社入社

磁気テープ研究部~記録メディア事業部(8ミリビデオ、S-VHSビデオ開発)

1989年 商品企画課(カセットテープ、ミニディスク[MD])

1992年 株式会社マルマン入社

常務取締役家電事業部長 兼 マーケティング部長

1995年 株式会社エムアンドシー設立

インターネット通販

インターネットリサーチシステム構築

2000年 株式会社インタースコープ設立

インターネットリサーチ&マーケティングコンサルティング

2005年 株式会社ALBERT設立

レコメンデーションの専門企業(レコメンドエンジン、CRMソリューション)

詳細はWikipediaをご参照ください。

(C)株式会社ALBERT

著作のご紹介

3

出版社: 東京図書ISBN-10: 4489021712 ISBN-13: 978-4489021718 発売日: 2014/01/09

(C)株式会社ALBERT

ビッグデータとは

3V=Volume/Variety/Velocity 4V=Volume/Variety/Velocity/Veracity 4V=Volume/Variety/Velocity/Value

Volume(容量の大きさ)ビッグデータの第一の特徴は、その名前の通り容量が大きいことです。企業に限らず、情報技術の進化により、黙っていてもどんどんデータが集まるようになり、データ量はテラバイトからペタバイトオーダーにもなっています。データ量が大きいことだけがビッグデータの特徴だと思われがちですが、他にも以下のようなポイントがあります。

Variety(多様性、種類)ビッグデータは、通常表計算などで扱っているように、数値化され関連づけをされたデータ(構造化データ)であるとは限りません。テキスト、音声、画像、動画などのさまざまな構造化されていないデータ(非構造化データ)もあり、これらのデータをテキストマイニングや音声、画像解析などを行ない構造化し、ビジネスに活用する動きが広まっています。

Velocity(スピード、頻度)サーバーのアクセスログや、東京ゲートブリッジ橋梁モニタリングシステムなど、ものすごい頻度、スピードでインターネット上やセンサーからデータが生成され、取得、蓄積されています。変化の著しい現代社会では、これらのデータをリアルタイムに処理し、対応することが求められています。

Veracity(正確さ)従来は、サンプリングによって一部のデータで全体を推測する方法が主流でした。それに対し、ビッグデータは全てのデータを取得することも不可能ではないので、正確であり推測による曖昧さや不正確さなどを排除して、本当に信頼できるデータによる意思決定が可能です。

Value(価値)ビッグデータは、容量の大きさや多様性、スピードに価値があるのではありません。得られたデータを分析し有用な知識や知恵を導出し、モデル構築、検証し、課題解決をすることが本質的なビッグデータの価値です。

4

ビッグデータの明確な定義はない!

(C)株式会社ALBERT 5

トーマス・Hダベンポート氏は2014年

に発刊した「データ・アナリティクス

3.0」の中で、『「Venality(金次第)」

も加わり「6V」になる』と(おそらく多

少の揶揄をこめて)予想している。

さらに彼は、『このように定義上の問

題があるため、私は(そして他の専門家た

ちも)この不幸な言葉が早晩消え去るだろ

うと予測している。だからと言って、

「ビッグデータと呼ばれている現象」がど

こかに消えるわけではない。そして多種多

様の情報源から大量のデータが流れ込むと

いう、ここ10年ほどの状況について何ら

かの言葉を当てはめようとするなら、今の

ところ「ビッグデータ」以上の言葉は見当

たらない』と結論づけている。

「ビッグデータ」という言葉はバズワード?

2008年発売

2011年発売

2014年発売

(C)株式会社ALBERT 6

ALBERTがご提供しているマーケティングプラットフォーム

(C)株式会社ALBERT 7

1.はじめに

2.クラスター分析概要

3.階層クラスター分析

4.非階層クラスター分析

5.クラスター分析の課題

6.総合通販会社での活用例

(C)株式会社ALBERT

クラスター(cluster)とは、英語で「房」「集団」「群れ」のことで、

似たものがたくさん集まっている様子を表します。

クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに

似た性質を持つものを集め、クラスターを作る方法です。

対象となるサンプル(人、行)や変数(項目、列)をいくつかのグループ

に分ける、簡単にいえば「似たもの集めの手法」です。

クラスター分析は、あらかじめ分類の基準が決まっておらず、分類のため

の外的基準や評価が与えられていない「教師無しの分類法」です。従って、

データを単純に男女別や年代別に分けた塊をクラスターとは呼びません。

クラスター分析概要

8

(C)株式会社ALBERT

クラスター分析の迷路

①計算法のバリエーションが多すぎる

→ともかくメジャーな解法に従う

②最適クラスターを決める基準がない

→クロス集計で決着をつける

③どうやったらクラスターにアクセスできのかわからない

→クラスターとデモグラフィック変数との対応をつける

→ビッグデータは全員分析するのでアクセスできる

朝野熙彦(2000)「入門多変量解析の実際 第2版」講談社.

9

(C)株式会社ALBERT

クラスター分析を始めるときに決めなくてはならないことは、一般的に

は以下の4つで、それぞれ、どれを選択するかがポイントになります。

1)グループ分けの対象

サンプルを分けるのか、変数を分けるのか。

2)分類の形式(種類、生成)

階層的方法か非階層的方法か

3)分類に用いる対象間の距離(類似度)

ユークリッド距離、マハラノビス距離、コサイン距離 ・・・

4)クラスターの合併(生成)方法(クラスター間の距離の測定方法)

ウォード法、群平均法、最短距離法、最長距離法・・・

クラスター分析のポイント

10

(C)株式会社ALBERT 11

1)グループ分けの対象

どちらを分けるのか?

人なのか商品なのか?

(C)株式会社ALBERT 12

2)分類の形式

クラスター分析

階層クラスター分析 非階層クラスター分析

(C)株式会社ALBERT

クラスター分析は、「似たもの集めの手法」ですから、似ているものを集

める必要があります。「類似度」と似ていることばに「距離」があります。

類似度と距離の関係は、

似ている=類似度が高い=距離が近い(小さい)

似ていない=類似度が低い=距離が遠い(大きい)

ということになりますが、クラスター分析では、この(非)類似性を、各

データのもつ性質の差を距離ととらえることで、その大小により類似性を

表現します。データ間の差を用いた距離にはいくつか種類がありますが、

最も優れているというものはなく、そのデータの性質により用いる距離を

選択する必要があります。

3)分類に用いる対象間の距離(類似度)

13

(C)株式会社ALBERT

距離の公理

(1)距離はマイナスにはならない

(2)同一点であれば距離はゼロ

(3)2つの距離はどちらから測っても同じ

(4)三角形の2辺の距離の合計は、もう1辺の距離より大きい

この距離の公理を満たす定義は、無限にあります。我々が最もよく使う距

離はユークリッド距離といわれるもので、ピタゴラスの定理で求められる

ような直線距離を指します。

距離とは何か

14

(C)株式会社ALBERT

(1)ユークリッド距離(平面ならピタゴラスの定理)

日常で用いる距離で、もっとも一般的なものです。平面なら2点の座標が求まればピタゴラスの定理で表せます。これをn次元空間に拡張したものが、以下の式で表されます。

n次元ベクトルの距離

(2)標準化(平均)ユークリッド距離

各データを標準偏差で割って計算したもので、以下の式で表されます。

15

(C)株式会社ALBERT 16

通常のユークリッド距離は式からわかるとおり、各データの性質の差の2乗和の

平方根です。よって、簡単に言えばこの距離は、各性質の単位を無視していると

いうことになります。例えば、長さの差3m(メートル)と気温の差3℃が同等の

割合で性質の差(クラスターの割り当て)に影響すると考える、ということです。

それに対して、標準化ユークリッド距離はその逆で、標準化を行なうことでデー

タの持つ性質の差が性質ごとに開きがないように配慮しているわけです。

標準化ユークリッド距離は各性質の差を標準化していますが、標準化ユークリッ

ド距離のほうがユークリッド距離よりも優れているということではありません。

なぜなら、標準化するということは、性質ごとの影響力、重みをなくすというこ

とであり、本来影響力がある性質の差も、ほとんど影響のない性質の差も等しく

扱うということになってしまうからです。

クラスター分析における距離の標準化の意味

n次元ベクトルの距離

3m 3℃

(C)株式会社ALBERT 17

(3)マハラノビス距離

変数同士に相関があるとき用いられます。相関が強い方向の距離は実際の距離よりも相対的

に短くするという考え方です。下図では、ユークリッド距離では、AX=APとなりますが、

マハラノビス距離ではそうではなく、AX ≠ AP=AQ=AR=ASということになります。

n次元ベクトルの距離

(C)株式会社ALBERT 18

(4)マンハッタン距離(市街化距離)

マンハッタンや京都のような碁盤の目の様な街を移動す

る時の距離であり、どこを通っても最短距離は等しくな

ります。例えば、地点Pから地点Qに行く時には最低で

も10ブロックを通過しなくてはなりません。2乗してい

ないので外れ値の影響を抑えることができます。将棋で

いえば、飛車の動いた距離ということになります。

(5)チェビシェフ距離

ユークリッド距離が、原点を中心に円状に広がっていく

のにたいし、チェビシェフの距離は、斜めも同じ距離と

考えるので、正方形上に広がってく距離です。将棋でい

くつ動かすかを考えたとき、マンハッタン距離が飛車だ

けだとすると、チェビシェフの距離は飛車も角も当ては

まるといったイメージでしょうか。同じ次元の変数を、

別の次元の変数とみなしたい場合に使います。

n次元ベクトルの距離

(C)株式会社ALBERT

各距離について、原点から等距離にあ

る点を結ぶと右図のように表せます。

(6)ミンコフスキー距離

ユークリッド距離を一般化したもので、非常に

離れた距離の重みを増やしたり、減らしたりで

きます。a=b=1がマンハッタン距離、a=b=2

がユークリッド距離、a=b=∞がチェビシェフ

距離に一致します。

n次元ベクトルの距離

19

(C)株式会社ALBERT 20

n次元ベクトルの向きの類似性を表す値で、cosθを用います。ベクトルの向きが一致してい

る時、最大値の1をとり、直交ならば0、向きが逆ならば最小値のー1をとります。具体的

な値としては、ベクトルX,Yの内積X・Yをそれぞれの長さ|X|,|Y|で割ったものです。距離

という基準を用いずに、n次元空間でのベクトルの類似性を求めることができます。購買

データの分析には、このコサイン類似度を用いるケースがよくあります。

(1)コサイン類似度

n次元ベクトルの類似度

𝑥 ∙ 𝑦

𝑥 | 𝑦|= 𝑥

𝑥∙ 𝑦

| 𝑦|

𝑖=1

|𝑣|

𝑥𝑖2

𝑖=1

|𝑣|

𝑦𝑖2

𝑖=1

|𝑣|

𝑥𝑖𝑦𝑖

=

(C)株式会社ALBERT 21

■ベクトルの内積

ベクトルとは大きさと向きを兼ね備えた量です。内積は以下のように表します。

60°

𝑦| =2|

𝑥| =3|例えば右図のように、60°の方向の大きさが3と2のベクト

ルがあった場合、ベクトルの内積は以下のようになります。

𝑥・ 𝑦ベクトルの内積= = | | 𝑥 | | 𝑦・ cos 𝜃

3×2×cos60°= 6×(1/2)= 3

ここでcos類似度は、ベクトルの内積をそれぞれの大きさで割っていますから、

3/(3×2)=0.5にとなり、長さが1のベクトルになるので、cosθと一致します。

n次元ベクトルの類似度

(C)株式会社ALBERT 22

■n次元ベクトルのcos類似度計算方法(1/0データの場合)

n次元ベクトルの類似度

P1 P2 P3 P4 P5

s1 1 1 0 1 1

s2 1 0 0 0 1

1の数=4

1の数=2

s1、s2が両方1である数=2 cos類似度=2

4× 2=2

1=0.71

P1 P2 P3 P4 P5

s1 1 1 0 1 0

s2 1 0 1 0 1

1の数=3

1の数=3

s1、s2が両方1である数=1 cos類似度=1

3× 3= 1 =0.33

3

cos類似度は文章の類似度を計算する場合に用いられますが、購買履歴データで、購入したかしないかのデータとも相性がよいことが知られています。

(C)株式会社ALBERT 23

n次元ベクトルの類似度

(2)ピアソンの相関係数

相関係数𝑅 =[𝑥と𝑦の共分散]

𝑥の標準偏差 [𝑦の標準偏差]

1

𝑛

𝑖=1

𝑛

(𝑥𝑖 − 𝑥)2

1

𝑛

𝑖=1

𝑛

(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)

1

𝑛

𝑖=1

𝑛

(𝑦𝑖 − 𝑦)2

=

𝑖=1

𝑛

(𝑥𝑖 − 𝑥)2

𝑖=1

𝑛

(𝑦𝑖 − 𝑦)2

=

(C)株式会社ALBERT 24

n次元ベクトルの類似度

(2)ピアソンの相関係数

相関係数𝑅 =[𝑥と𝑦の共分散]

𝑥の標準偏差 [𝑦の標準偏差]

1

𝑛

𝑖=1

𝑛

(𝑥𝑖 − 𝑥)2

1

𝑛

𝑖=1

𝑛

(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)

1

𝑛

𝑖=1

𝑛

(𝑦𝑖 − 𝑦)2

=

𝑖=1

𝑛

(𝑥𝑖 − 𝑥)2

𝑖=1

𝑛

(𝑦𝑖 − 𝑦)2

=

(C)株式会社ALBERT

分散と標準偏差の復習

X1~X6まで6つのデータがあった時の平均、分散、標準偏差の考え方

分散は正方形の面積の平均、標準偏差は平均面積の1辺の長さ25

平均X1 X2 X3 X4 X5 X6 X

面積= X1 − X2

(C)株式会社ALBERT

共分散を理解する

共分散とは、Xの平均との差×Yの平均との差(長方形の面積)の合計をサンプル数で割ったもの。

ここの面積はマイナスと考える

ここの面積はマイナスと考える

X Y

s1 10 10

s2 4 5

s3 2 5

s4 2 4

s5 8 4

s6 9 6

s7 7 6

s8 5 2

s9 1 1

s10 3 2

s11 4 7

s12 6 7

s13 8 9

s14 11 8

s15 6 4

平均 5.7 5.3

26

(C)株式会社ALBERT 27

上記2つの類似度は、ー1から1の値をとりますので、距離に変換する場合は、

距離=1ー類似度等を用います。

その他、類似度を距離に変換する場合、expを取ることもあります。

距離=exp(-類似度)

類似度を距離に変換する方法

(C)株式会社ALBERT 28

1.はじめに

2.クラスター分析概要

3.階層クラスター分析

4.非階層クラスター分析

5.クラスター分析の課題

6.総合通販会社での活用例

(C)株式会社ALBERT 29

階層クラスター分析とは、最も似ている組合せから順番にまとまり(クラスター)にしていく方法で、途中過程が階層のように表せ、最終的に下図のような樹形図(テンドログラム)ができます。

階層クラスター分析とは

(C)株式会社ALBERT 30

・2つのクラスターP,Qを結合したと仮定したとき、それにより移動したクラスターの重心とクラスター内の各サンプルとの距離の2乗和,L(P∪Q)と、元々の2つのクラスター内での重心とそれぞれのサンプルとの距離の2乗和,L(P),L(Q)の差

Δ= L(P∪Q)-L(P)-L(Q)

が最小となるようなクラスター同士を結合する手法。

Δの値を情報ロス量という。

→計算量は多いが分類感度がかなり良い。そのため、よく用いられる。

・各クラスター同士で、全ての組み合わせのサンプル間距離の平均をクラスター間距離とする手法。

→鎖効果や拡散現象を起こさないため、用いられることが多い。

(1)ウォード法

(2)群平均法

クラスター間距離の測定方法

(C)株式会社ALBERT 31

・2つのクラスターのサンプル同士で最も小さいサンプル間距離をクラスター間の距離とする手法。

→鎖効果により、クラスターが帯状になってしまい、分類感度が低い。計算量が少ない。

(3)最短距離法

・最短距離法の逆で各クラスター中、最大のサンプル間距離をクラスター間距離とする。

→分類感度は高いが、クラスター同士が離れてしまう拡散現象が生じる。計算量が少ない。

(4)最長距離法

クラスター間距離の測定方法

(C)株式会社ALBERT 32

階層クラスター分析の長所と短所

階層クラスター分析は、近いものから順番にくくるという方法をとるので、あらかじめクラスター数を決

める必要がなく、最大の長所です。ただ分類するだけでなく、結果として出力される樹形図から、分類の

過程でできるクラスターがどのように結合されていくかを一つひとつ確認できるので、クラスター数を後

から決めることができます。例えば、3つに分けようと思えば、縦の線を3本横切るような線を引き、その

線から下に繋がっている要素を1つのクラスターと考えれば、任意のクラスター数に分けることができま

す。最小は全体である1クラスタ、最大は要素数(ここでは5)に等しくなります。

左図の場合

・AとBはかなり似ている

・CとDは似ている

・Eは孤立している

ということがわかります。クラスター分割(樹形図のスライス)は、上から横線を下ろしていきますが、分析は下から上に向かって進めているので、全体を先に2とか3つに分ける手法ではありません。

階層型クラスターの短所は、分類の対象が非常に多い場合、計算量が多くなり実行が困難になったり、系統図が巨大になり結果が不明瞭になったりすることです。非常に多くのデータを対象とするクラスター分析では、次に述べる非階層型クラスター分析を用いるのが一般的です。対象数は数十個以下が目安といわれています。

4つに分ける

3つに分ける

2つに分ける

(C)株式会社ALBERT

県名 人口(人)降雪量(cm)

漁獲量(人口10万人当たりの収穫トン)

畜産農家(人口10万人当たりの軒数)

神社(社)

Jリーガー出身(10万人あたり人)

温泉数(軒)

樹園地ゴルフ場の施設数(軒)

北海道 5,507,000 597 26,448 54 813 0.50 468 2,970 186青森県 1,379,000 669 17,212 92 889 0.07 294 23,400 19岩手県 1,340,000 272 16,019 582 871 0.29 72 3,770 28宮城県 2,336,000 71 16,383 260 949 0.43 142 1,460 27秋田県 1,096,000 377 1,120 127 1,152 0.27 201 2,520 15山形県 1,179,000 426 699 90 1,751 0.33 147 11,100 14福島県 2,040,000 189 5,055 228 3,073 0.34 196 7,300 54茨城県 2,960,000 16 6,590 32 2,490 1.21 117 7,210 123栃木県 2,006,000 28 64 72 1,921 0.55 277 2,500 135群馬県 2,007,000 24 29 41 1,220 1.04 257 3,730 74埼玉県 7,130,000 22 1 3 2,033 1.00 64 3,410 91千葉県 6,139,000 1 3,164 7 3,194 1.03 149 3,660 156東京都 12,868,000 11 819 0 1,467 0.74 131 1,680 22神奈川県 8,943,000 13 641 1 1,157 0.62 183 4,070 64新潟県 2,378,000 217 1,546 14 4,780 0.33 203 2,590 54富山県 1,095,000 383 4,252 6 2,296 0.81 63 755 20石川県 1,165,000 281 5,695 9 1,898 0.68 109 1,320 37福井県 808,000 286 2,158 7 1,718 0.49 45 782 9山梨県 867,000 29 142 10 1,296 0.91 125 10,700 35長野県 2,159,000 263 99 35 2,474 0.23 729 16,000 91岐阜県 2,092,000 47 80 37 3,285 0.38 93 3,780 88静岡県 3,792,000 0 5,339 6 2,849 2.21 571 29,600 104愛知県 7,418,000 16 1,619 7 3,365 0.22 98 6,050 59三重県 1,870,000 7 10,719 13 854 1.28 100 6,430 71滋賀県 1,405,000 104 56 8 1,447 1.07 25 1,070 35京都府 2,622,000 19 507 5 1,764 0.72 66 3,050 32大阪府 8,801,000 3 233 0 739 0.74 87 2,180 44兵庫県 5,583,000 2 1,790 37 3,862 0.84 196 1,760 158奈良県 1,399,000 8 2 5 1,387 0.78 67 3,740 28和歌山県 1,004,000 2 3,775 8 442 0.59 22 21,900 32鳥取県 591,000 214 9,995 87 826 0.50 54 1,840 20島根県 718,000 89 16,264 254 1,171 0.68 91 1,740 14岡山県 1,942,000 3 1,431 38 1,665 0.97 110 3,900 56広島県 2,863,000 12 4,138 34 2,695 0.84 112 6,320 41山口県 1,455,000 4 3,404 53 752 0.88 135 3,330 43徳島県 789,000 4 3,977 39 1,319 1.13 57 4,370 13香川県 999,000 3 5,042 32 806 0.20 73 3,180 23愛媛県 1,436,000 2 11,869 19 1,257 0.83 117 22,400 17高知県 766,000 1 14,693 34 2,184 0.77 51 3,830 15福岡県 5,053,000 4 2,011 5 3,422 0.57 126 10,200 55佐賀県 852,000 6 11,633 116 1,104 0.23 142 6,050 20長崎県 1,430,000 4 22,588 282 1,325 0.90 122 6,760 18熊本県 1,814,000 2 5,055 217 1,394 1.53 319 16,400 49大分県 1,195,000 2 5,244 184 2,138 0.91 369 4,800 27宮崎県 1,132,000 0 8,999 879 677 0.70 116 4,900 31鹿児島県 1,708,000 4 8,857 811 1,136 1.56 560 14,100 38沖縄県 1,382,000 0 2,425 226 13 0.80 8 2,030 38

都道府県の階層クラスター分析例に用いたデータ

階層クラスター分析を行なう上で、クラス

ター間の距離、サンプル間の距離は何を選択

すべきか、これといった規則はありません。

試行錯誤でよりよいクラスターにするには、

どれを選択すべきかを決めているのが現状だ

と思います。そこで、右のような都道府県の

いくつかの特徴を表すデータを用いて、いく

かの距離の組合せによって、結果がどう変わ

るかを次ページに示しました。

33

(C)株式会社ALBERT 34

都道府県の特徴を用いた階層クラスター分析結果

平均ユークリッド距離

cos距離

マハラノビス距離

ウォード法 群平均法

(C)株式会社ALBERT 35

平均ユークリッド距離、ウォード法の結果(例)

(C)株式会社ALBERT 36

平均ユークリッド距離、ウォード法の結果(例)

(C)株式会社ALBERT 37

1.はじめに

2.クラスター分析概要

3.階層クラスター分析

4.非階層クラスター分析

5.クラスター分析の課題

6.総合通販会社での活用例

(C)株式会社ALBERT 38

非階層クラスター分析とは

非階層クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに似た性質を持

つものを集め、クラスターを作る方法の1つですが、階層クラスター分析と異なり、階層的な

構造を持たず、あらかじめいくつのクラスターに分けるかを決め、決めた数の塊(排他的部分

集合)にサンプルを分割する方法といえます。

階層クラスター分析と違い、サンプル数が大きいビッグデータを分析するときに適しています。

ただし、あらかじめいくつのクラスターに分けるかは、分析者が決める必要があり、最適クラ

スター数を自動的には計算する方法は確立されていません。

サンプル数:100

クラスター数:5

非階層クラスター分析のイメージ

サンプル数:100

(C)株式会社ALBERT 39

1.はじめに

2.クラスター分析概要

3.階層クラスター分析

4.非階層クラスター分析

5.クラスター分析の課題

6.総合通販会社での活用例

(C)株式会社ALBERT 40

5-1 よいクラスターとは何か?

(C)株式会社ALBERT 41

評価基準 内容

実質性 各グループが十分大きく、かつ利益に繋がる(グループが小さかったり儲けが少なければ施策を出すコストの方が大きくなる)

到達可能性 各顧客に対して、観測データから各グループに割り振れる

識別性 グループ同士が概念上異なっており、施策の反応も異なる

実行可能性 各グループに対して、有効な施策が作れる

安定性各グループが時間と共に著しく変化をしない(よって、各グループに対して有効なマーケティング戦略を出せる)

オッカムの剃刀各グループに効率的かつ有効な施策を出すため、異なる重要なグループをまとめることなく、かつなるべく少ないグループ数で特定している

理解可能性 意思決定に使うため、各グループの特徴が誰でも理解できる

関連性 各グループが企業の目的と関連している

密集性 グループ内では似ており、別のグループとは似ていない

親和性グループ化の結果が他の施策の必須条件を満たしている(他の施策と矛盾した施策にならない)

クラスターの評価基準

出典: A Concise Guide to Marketing Research (Mooi and Sarstedt)

(C)株式会社ALBERT 42

クラスター数自動決定法(参考)

1.Jain-Dubes法

2.x-means法

3.Upper Tail法

4.その他

Jain, A.K. and Dubes, R.C. (1988): Algorithms for clustering data, Englewood Cliffs,NJ:Prentice-Hall.

石岡 恒憲 (2006): x-means 法改良の一提案 —k-means 法の逐次繰り返しとクラスターの再併合—, 『計算機統計学』, 18(1), 3-13.

Mojena, R. (1977): Hierarchical grouping methods and stopping rules: an evaluation,The Computer Journal, 20, 359-363.

Hardy, A. (1996): On the number of clusters, computational Statistics and Data Analysis, 23, 83-96.

Wolfe, J.H. (1970): Pattern clustering by multivariate mixture analysis. Multivariate Behavioral Res., 5, 329-350.

Mojena, R. (1977): Hierarchical grouping methods and stopping rules: an evaluation,The Computer Journal, 20, 359-363.

(C)株式会社ALBERT 43

5-2 k-means法の初期値依存問題

(C)株式会社ALBERT

k-means法の初期値依存について

k-means法の1つの短所として、初期値(初期に選択される「核」となるk個のサンプル)依存性があります。下図の3つのクラスターは、初期値を変えて、重心が変化しなくなるまで、繰り返し計算した時の結果です。同じデータを距離などを同じ条件にして計算しても、初期値が異なるだけで、結果が大きく違うことが分かります。従って、よいクラスターを得るためには、初期値を変えて何回か分析を実施し、平均クラスター内距離が最小になる初期値を選択するなど、最適初期値での結果を採用することが望ましいといえます。

初期値による結果の違い

44

(C)株式会社ALBERT 45

k-means法の初期値依存問題の解決策(参考)

1.メタヒューリスティックな方法

(simulated annealingや遺伝的アルゴリズム)

2.k-means++法

3.スペクトラルクラスタリング

Quantum Annealing Hybrid annealing Simulated annealing Kenichi Kurihara,

Shu Tanaka, and Seiji Miyashita “Quantum Annealing for Clustering”, UAI2009

David Arthur, ”k-means++: The advantages of careful seeding”, Proc. of the eighteenth annual ACM-SIAM

symposium on Discrete algorithm, 1027-1035, 2007.

A Tutorial on Spectral Clustering - Ulrike von Luxburg

(C)株式会社ALBERT 46

5-3 k-means法の距離問題

(C)株式会社ALBERT

A

B

両方とも5個買っている人同士

ユークリッド距離

0

0

(1-COS)距離

47

ユークリッド距離とCOS距離の違い

0 51

1

5

(C)株式会社ALBERT

A

B

Aを5個買っている人とBを5個買っている人

ユークリッド距離

7.07

1

(1-COS)距離

48

ユークリッド距離とCOS距離の違い

0 51

1

5

(C)株式会社ALBERT

A

B

Aを1個しか買っていない人と5個買っている人

ユークリッド距離

4.00

0

(1-COS)距離

49

0 51

1

5

ユークリッド距離とCOS距離の違い

(C)株式会社ALBERT

A

B

AもBも1個ずつ買っている人とAだけ5個買っている人

ユークリッド距離

4.12

0.293

(1-COS)距離

50

0 51

1

5

ユークリッド距離とCOS距離の違い

(C)株式会社ALBERT

A

B

AもBも1個ずつ買っている人と両方5個買っている人

(1-COS)距離

ユークリッド距離

5.66

0

51

0 51

1

5

ユークリッド距離とCOS距離の違い

(C)株式会社ALBERT 52

従来の距離計算への疑問

1と0を入れ替えただけの購買パターン

ユークリッド距離では同じ!

caseP P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s1 0 0 0 1 1 1 1 1 1 1 (1-cos)距離 0.118

s2 1 0 1 1 1 1 1 1 1 1 ユークリッド距離 1.414

caseQ P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s3 1 1 1 0 0 0 0 0 0 0 (1-cos)距離 0.423

s4 0 1 0 0 0 0 0 0 0 0 ユークリッド距離 1.414

(C)株式会社ALBERT 53

ユークリッド距離によるクラスタリング

0

空間が均等に分割される傾向

A B

C

(C)株式会社ALBERT 54

cos距離によるクラスタリング

0

空間が放射線上に分割される傾向

A B

C

(C)株式会社ALBERT

COS距離、相関係数の妥当性

55

非類似度パラメータ 0.50

類似度パラメータ 0.50

caseA P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s1 1 0 0 0 0 0 0 0 0 0 1.000 cos距離

s2 1 0 0 0 0 0 0 0 0 0 1.000 相関係数

caseB P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s3 5 0 0 0 0 0 0 0 0 0 1.000 cos距離

s4 5 0 0 0 0 0 0 0 0 0 1.000 相関係数

caseC P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s5 5 5 0 0 0 0 0 0 0 0 1.000 cos距離

s6 5 5 0 0 0 0 0 0 0 0 1.000 相関係数

caseD P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s7 1 5 1 0 1 0 1 0 0 0 0.345 cos距離

s8 5 1 0 1 0 1 0 1 0 0 0.091 相関係数

caseE P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s9 1 10 0 0 0 0 0 0 0 0 0.198 cos距離

s10 10 1 0 0 0 0 0 0 0 0 0.089 相関係数

caseD P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s7 1 5 1 0 1 0 1 0 0 0 0.345 cos距離

s8 5 1 0 1 0 1 0 1 0 0 0.091 相関係数

caseE P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

s9 1 10 0 0 0 0 0 0 0 0 0.198 cos距離

s10 10 1 0 0 0 0 0 0 0 0 0.089 相関係数

caseA、caseB、caseCの類似度は同じなのだろうか?

caseD、caseEではcaseDの類似度のほうが高いのだろうか?

(C)株式会社ALBERT 56

距離の公理への疑問

(C)株式会社ALBERT 57

ALBERT距離によるクラスタリング

軸や平面付近とそれ以外に分割される傾向

(C)株式会社ALBERT 58

5-4 分析ツールの対応問題

(C)株式会社ALBERT 59

ユーク

リッド

平方

ユーク

リッド

マン

ハッタ

マハラ

ノビス

コサイ

相関係

数その他1 その他2

R フリー ○ ○ ○ 非中心化相関係数

SAS SAS Institute Japan ○

SPSS IBM ○ ○ ○ ○ ○ ミンコフスキー チェビシェフ

StatWorksV5 日科技研 ○ ○ ○ ○ ○ キャンベラ距離指数 プレイ・カーティス係数

VMS NTTデータ数理システム ○ ○ ○ 平均ユークリッド ダイナミック

最短距

離法

最長距

離法

(群)

平均法

ウォー

ド法中心法

メジア

ン法その他1 その他2

R フリー ○ ○ ○ ○ ○ 加重群平均 加重群メジアン

SAS SAS Institute Japan ○ ○ ○ ○ ○ ○ 密度法 フレキシブルβ

SPSS IBM ○ ○ ○ ○ ○ ○

StatWorksV5 日科技研 ○ ○ ○ ○ 可変法

VMS NTTデータ数理システム ○ ○ ○ ○ ○ ○ 最小全域木

距離、類似度係数

クラスター化法

ソフト名 提供元

ソフト名 提供元

階層クラスターツール比較

ALBERT調べ

(C)株式会社ALBERT 60

ユーク

リッド

マンハッ

タンコサイン

ダイナ

ミック

R フリー ○ ○

SAS SAS Institute Japan ○

SPSS IBM ○

StatWorksV5 日科技研 ○

VMS NTTデータ数理システム ○ ○ ○ ○

ランダム 系統配置ユーザー

指定

ランダム

シード固

kmeans+

+

R フリー ○ ○ ○

SAS SAS Institute Japan △

SPSS IBM ○ △

StatWorksV5 日科技研 ○ ○ ○

VMS NTTデータ数理システム ○ ○

ソフト名 提供元

距離、類似度係数

ソフト名 提供元

初期値指定方法

非階層クラスター(k-means法)ツール比較

ALBERT調べ

(C)株式会社ALBERT 61

1.はじめに

2.クラスター分析概要

3.階層クラスター分析

4.非階層クラスター分析

5.クラスター分析の課題

6.総合通販会社での活用例

(C)株式会社ALBERT 62

6-1 購買データを扱う上での注意点

(C)株式会社ALBERT

アンケートデータのイメージ

63

購買データを元にクラスター分析を行う上での注意点

(C)株式会社ALBERT

スパース(疎)な購買データのイメージ

64

購買データを元にクラスター分析を行う上での注意点

sparse(疎、まばら)

(C)株式会社ALBERT

カテゴリレベルの分析が極めて重要

~ なぜパンパースとアサヒではなくおむつとビールなのか ~

パンパース コットンケア ウルトラジャンボ S 104枚 パンパース

アサヒ スーパードライ350ml×24缶

ASIN: B001TZAWD0ASIN: B0015XN55S

おむつ ビール

つまり、SKU単位の相関よりカテゴリ単位の相関のほうがはるかにパワフルで精緻な購買予測が可能になる。←非常に重要な視点

SKUレベルでは大量のデータが必要となり、すべての商品の相関関係を見いだすことは不可能。より低いレベルの相関関係を根拠に顧客行動を予測することは難しい。

購買データを元にクラスター分析を行う上での注意点

65

(C)株式会社ALBERT

CTB分析の導入

Category

Taste

Brand

色、模様、サイズ

ブランド、キャラクター

大分類、小分類

「カテゴリ」に加え、同じ上位概念である「テイスト」「ブランド」の分析により顧客の理解が深まる。

66

(C)株式会社ALBERT 67

6-2 大手通販会社での活用例

(k-means法と階層クラスター分析)

内容非公開

(C)株式会社ALBERT 68

6-3 大手通販会社での活用例

(RFM分析への応用)

内容一部非公開

(C)株式会社ALBERT 69

RFMの3次元度数分布

ランク別の所属人数は優良顧客と1回購入顧客の2極化

(C)株式会社ALBERT

ロイヤルカスタマー

70

1

2

3

7

584

6

RFM分析におけるk-means法

RFMデータから8つのクラスターに分けた

(C)株式会社ALBERT

株式会社ALBERTについて

会社概要

高度なマーケティングソリューションを提供するためのコアコンピタンスである『分析力』は、アナリティクス領域における、「マーケティングリサーチ」「多変量解析」「データマイニング」「テキスト&画像解析」、エンジニアリング領域における、 「大規模データ処理」 「ソリューション開発」「プラットフォーム構築」「最適化モデリング」の8つのテクノロジーで支えられています。8つのテクノロジーには豊富な実績に裏付けられた、ALBERT独自のアルゴリズムや手法が用いられており、優位性を確保しています。

事業概要

71

社名 株式会社ALBERT

設立 2005年7月1日

資本金 3億3,900万円

株主 デジタル・アドバタイジング・コンソーシアム株式会社、IVP Incubator, L.P、オリックス・キャピタル株式会社、株式会社ジャフコ、三生キャピタル株式会社、東洋キャピタル株式会社、ニュー・フロンティア・パートナーズ株式会社、SMBCベンチャーキャピタル株式会社、信金キャピタル株式会社、PE&HR株式会社、大和企業投資株式会社、株式会社シーエー・モバイル、役員および従業員

役員 代表取締役会長 山川 義介代表取締役社長 上村 崇取締役 山口 哲央

(デジタル・アドバタイジング・コンソーシアム株式会社執行役員 テクノロジーサービス本部長)

執行役員 安達 章浩池内 孝啓木野 英明佐藤 めぐみ平原 昭次

監査役 谷本 篤彦非常勤監査役 江南 清司

保月 英機

事業内容 マーケティングプラットフォーム(smarticA!DMP)・データマイニングエンジン(レコメンドエンジン)・キャンペーンマネジメント・行動ターゲティング広告システム・統合データウェアハウス(DWH)・統計解析ソフトウエア・BIツール

アナリティクス・コンサルティング・分析コンサルティング・顧客分析 / 商圏分析 / 商品分析 / 広告分析・データサイエンティスト養成講座

『分析力をコアとするマーケティングソリューションカンパニー』

(C)株式会社ALBERT 72

[email protected]

お問い合わせは以下までお気軽にどうぞ!

山川 義介株式会社ALBERT 代表取締役会長