Post on 31-May-2015
FIRE: Interactive Visual Support for Parameter Space-Driven
Rule Mining
2013.12.07( 土 ) 大木基至
CIKM2013 論文読み会
Abhishek Mukherji, Xika Lin, Jason Whitehouse, Christopher R. Botaish,
Elke A. Rundensteiner and Matthew O. Ward
2013.12.07 発表資料
01. 自己紹介
・名前:大木基至(25歳)・所属:通信会社のデータプラットホームチーム・マイブーム:人狼、ボドゲ、ジム・スキル:マイニングが好き・ 2 年前くらいからマーケティングへのマイニン
グの応用を勝手にやってます• 2012 年度 VMStudio & TMStudio 学生研究“優秀賞”:ア
ンケート調査と Twitter の解析に基づく就職活動支援策の提案
• 2012 年度 S-PLUS 学生研究“佳作賞”:数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析(詳細)
• 2011 年度 VMStudio & TMStudio 学生研究“佳作賞”:多変量解析を用いた大学生のためのニュースサイトの構築
・今年も 1 件出して、現在1件取り組み中・予測モデル系コンペもやってみたいけど、やる
こ と多すぎてフリーズ中
シリコンバレーGoogle 本社にて
2 / 15
2013.12.07 発表資料
・大学時代にルールマイニング系の研究をしていた - 1.ルールの可視化システムの開発
- 3 次元ネットワーク図で表現するみたいなやつ
- 2.ルールの評価指標の研究 - ルールの頑健性を定義し、有用性を検証・というわけで、ルールマイニング系を発表します・でも、今日は時間なかったので、応用系に逃げました・ 10 時から読んで作ったので、詳細は 知りません(ごめんなさい)
02. モチベーション
3 / 15
2013.12.07 発表資料
03. 概要
•効率的にルールを発見すること重要!•一方、マイニングシステムのユーザビリティが遅れてる•ルール間の関係を対話的に探索したい•その際、ルールマイニングのパラメータも多くて大変• FIRE ( Framework for Interactive Rule Exploration )を提案し、ユーザビリティを向上させる•ルールの分布を表示するビジュアルにこだわる•パラメータ選択やユーザの理解を助ける• 22 人でユーザビリティ実験•対話的マイニング、知識発見、ビジュアル分析に重要な貢献を果たせた
4 / 15
2013.12.07 発表資料
04. Introduction
•ルールマイニングと言えば、バスケット分析的な(?)•有名なアルゴリズムと言えば、 Agrawal のアプリオリアルゴリズム• いわゆる支持度に基づく抽出• 単純だけど、よく使われる
•抽出までのパフォーマンス(質と速さ)は割とやってる•マイニングシステムのためのユーザビリティにもそろそろ力いれよう•けど、いろいろユーザビリティ向上には課題が…
5 / 15
2013.12.07 発表資料
04. Introduction
課題•パラメータチューニング• データに応じて、パラメータ(閾値とか)調整必要• 閾値の高すぎるパラメータだとルールを絞りすぎて
•ルール間の関係可視化• お互いをカバーしてるルールとかあったりで関係ってのはある• 大量のルールの中でもう少しグルーピングとかしたい
•パレート最適• 一般に1つの評価指標でルールは評価しない• 2 つ以上の評価指標を使って最適なルールを見つけましょう
…などなど
6 / 15
2013.12.07 発表資料
04. Introduction
とりあえずやってること• FIRE• PSpace View :全体的なパラメータスペースビュー• RSpace View :詳細なルールスペースビュー
• Support と confidence の値で 2 次元にマッピングする• A→B のルールで、 Support = |A ⋂ B| 、 Confidence = |A ⋂ B |/| A|
•ルールを抽出して、各ルールをマッピング•これらのビューで課題を解決する•最後にユーザ使ってシステム評価もする•うーむ、怪しい
7 / 15
2013.12.07 発表資料
05. Interactive Rule Mining Model
•これが FIRE !(うーん、なんだコレ)
PSpace View
RSpaceView
8 / 15
2013.12.07 発表資料
06. FIRE Interactive Visualization
• X軸が support値• Y軸が confidence値•色の濃さでルールの頻度を表現•領域は各閾値を満たすルールセット
9 / 15
2013.12.07 発表資料
06. FIRE Interactive Visualization
冗長なルールを取り除いて描画
各領域でユニークなルールのみを描画
10 / 15
2013.12.07 発表資料
06. FIRE Interactive Visualization
•トップ100のルールが欲しいってなったときに境界を描画•例は Confidence で
11 / 15
2013.12.07 発表資料
06. FIRE Interactive Visualization
領域をクリックしたら、詳細でるよ
12 / 15
2013.12.07 発表資料
06. FIRE Interactive Visualization
二つの領域の比較もお手軽に!(そうか?)
13 / 15
2013.12.07 発表資料
07. Evaluation
•ユーザに使ってもらって評価実験をした•以下の手順• 1.ルールマイニングを説明• 2. FIRE の使い方説明• 3. 30 分~ 50 分で分析
•比較は WEKA のような CRM っていう既存のソフトで•探索の時間で効率性を、良いルールをどれだけ選べるかで精度を評価する•データセットはおなじみ UCI• 5種類のタスクをしてる• 時間がないため、詳細は口頭で
14 / 15
2013.12.07 発表資料
07. Evaluation
ほぼ圧勝!!15 / 15
2013.12.07 発表資料
08. おまけ
•これが良いかどうかはともかく、ビジュアライジングの一例として使っていただければ…•濃淡と領域表現は参考になった•ちなみに、 CIKM2013 には他に、定量的な属性しかないテーブルから定量ルールを抽出する方法がありました•ルールマイニングのトレンド• Interestingness Measure の研究• ルールセットの評価• ルール抽出してた人らが、ルール抽出しないでクラス分類をする
方法を提案し出した( Lazy Classification )• 速度が速くて、精度が高い
•仕事だとルールマイニングは結構好かれると個人的に思う(某コンサル会社は決定木を一番使うらしい)
16 / 15