Combined analysis of Watson and Spark

35
© 2016 IBM Corporation Watson と Spark ととととととととと ~Watson とととととととととととととととと ~ Tanaka Y.P 2016-10-27

Transcript of Combined analysis of Watson and Spark

Page 1: Combined analysis of Watson and Spark

© 2016 IBM Corporation

WatsonとSpark を組み合わせた分析 ~Watsonを使ったレコメンドと可能性と問題~

Tanaka Y.P2016-10-27

Page 2: Combined analysis of Watson and Spark

© 2016 IBM Corporation2

自己紹介田中裕一( yuichi tanaka )主にアーキテクチャとサーバーサイドプログラムを担当することが多い。 Hadoop/Spark 周りをよく触ります。Node.js 、 Python 、最近は Spark 周りの仕事で Scala を書くことが多い気がします。

休日は OSS 周りで遊んだり。

詳解 Apache Spark

Page 3: Combined analysis of Watson and Spark

© 2016 IBM Corporation3

背景

昨今データ活用の重要性が説かれて久しく、 Hadoop/Spark といった技術要素が非常に注目されています。また、 AI のワードと共に Watson などの Cognitive システムにも注目が集まるようになってきました。

参考:総務省 H.24 情報通信白書 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html

Page 4: Combined analysis of Watson and Spark

© 2016 IBM Corporation4

AI と Cognitive

Page 5: Combined analysis of Watson and Spark

© 2016 IBM Corporation5

Watson の話

AI (人工知能)の文脈で紹介されることもあるが実は IBM 自身は AI とは読んでいない

DescriptiveAnalytics

PredictiveAnalytics

Cognitive Analytics

現状把握

予測分析

認知

何が起こったのか

将来何が起こるのか

次に取るべき最適なアクションを判別共有・指示を行う。

Page 6: Combined analysis of Watson and Spark

© 2016 IBM Corporation6

Watson は一体何ができるのか? 現在 Watson は Bluemix 上で幾つかの機能を RestI/F で提供しています。

Natural Language Classifier Retrieve and Rank Document Conversino Speech To Text Text to Speech

Tone Analyzer Personality Insights Visual Recognition

参考:Watson API Demo

Watson の一例

Page 7: Combined analysis of Watson and Spark

© 2016 IBM Corporation7

今日お話しすること

今日は題材として Watson がどんなところで利用可能なのか?を考えるため、 Watson の活用方法の一つとして、 Watson と Spark を組み合わせて新しい形の映画レコメンドを作ってみます。

• 今日のテーマを通して考えること• Watson を巧く利用することによるデータ活用のさらなる可能性

• 面白いから実用へ• Watson と機会学習の企業における棲みわけ• これから AI 時代を迎えるにあたっての課題

Page 8: Combined analysis of Watson and Spark

© 2016 IBM Corporation8

Watson と Spark で作る映画レコメンド

今日の手順

1. データの収集と格納 (Master Data)

2. Watson を使った Personality 分析と結果の格納

3. Spark を使った前処理とモデルの生成

4. サンプルデータの収集とモデルの適用

Page 9: Combined analysis of Watson and Spark

© 2016 IBM Corporation9

今日のサンプルの俯瞰

Personality to Item

Web からのデータ収集 Watson を使った分析

Spark を使った前処理レコメンド

Page 10: Combined analysis of Watson and Spark

© 2016 IBM Corporation10

Master データの収集

user_id name age...1 Yuichi Tanaka 30

2 Sho Kaijima 35

movie_id title desc1 君の名は。 前作『言

の葉の庭』から ...

2 シン・ゴジラ 『シン・ゴジラ』は、 ...

user_id movie_id value comment1 1 4.0 個人的にはめっちゃ好きでした ...

1 2 3.5 とにかくリアルなのが良い。無駄な会議含め ...

* ユーザー情報のマスタ 映画情報のマスタ

ユーザによる映画評価

Page 11: Combined analysis of Watson and Spark

© 2016 IBM Corporation11

収集データの Watson による分析

user_id movie_id value comment1 1 4.0 個人的にはめっちゃ好きでした ...

1 2 3.5 とにかくリアルなのが良い。無駄な会議含め ...

ユーザによる映画評価

Personality Insights

Watson の API の中、 Personality Insights の API とユーザーによる映画評価の情報を利用しユーザー毎のパーソナリティを作成します。

Page 12: Combined analysis of Watson and Spark

© 2016 IBM Corporation12

Personality Insight ~ 書き込みから、心理属性を分析する ~

Personality (個性)

Needs (欲求)

Values (価値観)

言語表現の特徴を、心理学的観点から整理・体系化

• 言語的特徴: 助詞・代名詞・数詞・否定表現・他

• 心理作用、精神的・知覚的プロセス: 喜怒哀楽表現・原因表現・他

• 相対的概念: 時間表現・空間表現・行動表現・他

• 関心の対象: 仕事関連・学校関連・娯楽関連・宗教関連・他

テキスト watson

エラー率

Page 13: Combined analysis of Watson and Spark

© 2016 IBM Corporation13

Personality( 個性 ) の推定Big 5/OCEAN と呼ばれる軸で Personality を推定• Openness to experience: 好奇心が強い・独創的 vs. 着実・警戒心が強い

• Conscientiousness : 勤勉・まめな人 vs. 楽天的・不注意

• Extraversion : 外向的・エネルギッシュ vs. 孤独を好む・控えめ

• Agreeableness : 人当たりの良い・温情のある vs. 冷たい・不親切

• Neuroticism : 繊細・神経質      vs. 情緒安定な・自信家の

さらに細かい推定も可能• Openness to experience: 活発度、自己主張、明朗性、刺激希求性、友情、社交性

• Conscientiousness : 大胆性、芸術的関心度、情動性、想像力、思考力、現状打破

• Extraversion : 達成努力、注意深さ、忠実さ、秩序性、自制力、自己効力感

• Agreeableness : 利他主義、協調性、謙虚さ、強硬さ、共感度、信用度

• Neuroticism : 悲観的、自意識過剰、低ストレス耐性、激情的、心配性、利己的13

Page 14: Combined analysis of Watson and Spark

© 2016 IBM Corporation14

Needs( 欲求 ) の推定Kevin Ford の Universal Needs Map に沿った分析 ( 欲求と社会的価値の関係 )

個人の様々な習慣に関係  : ブランドの選択、商品の選択、職業の選択• Challenge:挑戦

• Closeness:親密さ

• Curiosity:好奇心

• Excitement:興奮

• Harmony:調和

• Ideal: 理想

• Liberty: 自由

• Love:愛

• Practicality: 現実性

• Self-(expression): 自己表現

• Stability:安定

• Structure: 組織14

Spending

Thrifty

Materialism

Security

Altruism

Risk

Modesty

ConformismIndustry

Page 15: Combined analysis of Watson and Spark

© 2016 IBM Corporation15

Value( 価値観 ) の推定

15

Schwartz の価値概説 (Schwartz Value Survey) に沿った分析 4 つの上位価値と 10 個の価値によって構成される

4つの上位価値• Self-transcendence : 自己超越• Conservation : 保守(性)• Self-enhancement :自己高揚• Open to change : 変化に対する需要(許容)性

10 の価値• 博識、善行、調和、伝統、秩序、権勢、   達成、快楽、刺激、自決

http://macs.mainichi.co.jp/space/web/034/marke.html より転載15

Page 16: Combined analysis of Watson and Spark

© 2016 IBM Corporation16

収集データの Watson による分析

user_id movie_id value comment1 1 4.0 個人的にはめっちゃ好きでした ...

1 2 3.5 とにかくリアルなのが良い。無駄な会議含め ...

user_id name age... personality1 Yuichi Tanaka 30 { "id": "personality", "name": " ビッグファイブ ",

"children": [ {"id": "Neuroticism_parent", "name": " 情緒不安定性 ", "category": "personality", "percentage": 0.8434073484367335, "children": [

2 Sho Kaijima 35 {"id": "Emotionality", "name": " 情動性 ", "category": "personality", "percentage": 0.3201653809217191, "sampling_error": 0.02634522}

コメントから personality を作成* ユーザー情報のマスタ

ユーザによる映画評価

Page 17: Combined analysis of Watson and Spark

© 2016 IBM Corporation17

Spark による前処理とモデル作成

M1 M2 M3 M4

U1 3.0 3.2 0 4.2

U2 2.1 2.0 3.0 1.8

U3 4.0 0 0 4.0

U4 0 0 3.0 3.3

M1 M2 M3 M4

U1 5.255 5.382 3.342 6.020

U2 4.728 4.511 6.683 4.076

U3 6.0 4.0 4.0 6.0

U4 4.002 4.002 5.902 6.092

映画の評価

前処理しておく

映画の評価(正規化)

user_id movie_id value comment

1 1 4.0 個人的にはめっちゃ好きでした ...1 2 3.5 とにかくリアルなのが良い。無駄な会議含

め ...

ユーザによる映画評価

ユーザー毎の映画の評価に変換

バラツキが出るので

Page 18: Combined analysis of Watson and Spark

© 2016 IBM Corporation18

Spark による前処理とモデル作成

user_id name age... personality

1 Yuichi Tanaka 30 { "id": "personality", "name": " ビッグファイブ ", "children": [ {"id": "Neuroticism_parent", "name": " 情緒不安定性 ", "category": "personality", "percentage": 0.8434073484367335, "children": [

2 Sho Kaijima 35 {"id": "Emotionality", "name": " 情動性 ", "category": "personality", "percentage": 0.3201653809217191, "sampling_error": 0.02634522}

* ユーザー情報のマスタ

P1 P2 P3 P4

U1 0.6276 0.5269 0.5798 0.5782

U2 0.4849 0.4450 0.4132 0.4415

U3 0.4338 0.7435 0.7012 0.2925

U4 0.6247 0.7086 0.5751 0.4055

パーソナリティ

ユーザー毎のパーソナリティに変換エラー率も勘案して計算しておく

P1E P2E P3E P4E

U1 0.0263 0.0341 0.0152 0.4783

U2 0.1238 0.0114 0.0984 0.5783

U3 0.0512 0.0299 0.0378 0.0673

U4 0.0837 0.3512 0.0384 0.1039

エラー率

エラー率で重み付け

Page 19: Combined analysis of Watson and Spark

© 2016 IBM Corporation19

Spark による前処理とモデル作成

P1 P2 P3 P4U1 0.6276 0.5269 0.5798 0.5782

U2 0.4849 0.4450 0.4132 0.4415

U3 0.4338 0.7435 0.7012 0.2925

U4 0.6247 0.7086 0.5751 0.4055

M1 M2 M3 M4P1 10.693 9.9009 10.761 12.163

P2 12.170 10.653 11.891 13.764

P3 11.503 10.091 10.899 12.886

P4 8.5093 7.8967 8.4469 9.5043

パーソナリティ

変換後( Personality/Movie )

M1 M2 M3 M4

U1 5.255 5.382 3.342 6.020

U2 4.728 4.511 6.683 4.076

U3 6.0 4.0 4.0 6.0

U4 4.002 4.002 5.902 6.092

映画の評価(正規化)

内積

Page 20: Combined analysis of Watson and Spark

© 2016 IBM Corporation20

対象データの Watson による分析

これまでのデータを学習データとし、映画のレコメンドを行う対象データを作ります。

引用:ホワイトハウスhttps://www.whitehouse.gov/briefing-room/speeches-and-remarks外務省http://www.mofa.go.jp/mofaj/press/enzetsu/e_souri.html

We get an incomplete.  But the good news is we can still pass the course if we make some good decisions now. ....

難民問題は国際社会が直面する最も大きな課題の一つであり、このサミットを開催したオバマ大統領のイニシアティブに心から敬意を表します。 ...

{"id": "Adventurousness", "name": "大胆性 ", "category": "personality", "percentage": 0.5589476354662417, "sampling_error": 0.03311216},

{"id": "Emotionality", "name": " 情動性 ", "category": "personality", "percentage": 0.3201653809217191, "sampling_error": 0.02634522},

安倍首相 オバマ大統領

Page 21: Combined analysis of Watson and Spark

© 2016 IBM Corporation21

対象データの Watson による分析{"id": "Adventurousness", "name": "大胆性 ", "category": "personality", "percentage": 0.5589476354662417, "sampling_error": 0.03311216},

{"id": "Emotionality", "name": " 情動性 ", "category": "personality", "percentage": 0.3201653809217191, "sampling_error": 0.02634522},

安倍首相 オバマ大統領

M1 M2 M3 M4

P1 10.693 9.9009 10.761 12.163

P2 12.170 10.653 11.891 13.764

P3 11.503 10.091 10.899 12.886

P4 8.5093 7.8967 8.4469 9.5043

変換後( Personality/Movie )

レコメンドの作成 レコメンドの作成

Page 22: Combined analysis of Watson and Spark

© 2016 IBM Corporation22

Cognitive/AI の可能性と問題

ここまで簡易的に Watson を使ったレコメンドを見てきました。ここからはこのレコメンドの可能性と問題について見ていきます。

Page 23: Combined analysis of Watson and Spark

© 2016 IBM Corporation23

Cognitive の可能性①

レコメンドの種類 / 課題 Item to Item

User to Item

Personality to Item

ルールベース

アイテム同士の相関関係によるレコメンド* パーソナライズがかからない

行動ログ・購買ログを元にしたレコメンド* 行動や購買実績のないユーザー

ランキングやおすすめ商品のレコメンド* ディフォルトセットなどで利用

パーソナリティを元にしたレコメンド• 行動のないユーザーにもある程度パーソナライズしたレコメンドが可能

Page 24: Combined analysis of Watson and Spark

© 2016 IBM Corporation24

Cognitive の可能性②

日本語

We get an incomplete.  But the good news is we can still pass the course if we make some good decisions now. ....

難民問題は国際社会が直面する最も大きな課題の一つであり、このサミットを開催したオバマ大統領のイニシアティブに心から敬意を表します。 ...

英語

Personality

レコメンデーション

自社のデータWatson

経営分析

Page 25: Combined analysis of Watson and Spark

© 2016 IBM Corporation25

可能性のまとめ

• 今後、差別化・競争化していく中で、自社のデータとソーシャルデータの組み合わせはますます重要性を増す。

自社のデータ

ソーシャル・オープンデータ

Watson 新たな価値

Page 26: Combined analysis of Watson and Spark

© 2016 IBM Corporation26

今回のサンプルから、 Watson と機会学習の棲みわけについてまとめてみます。

Watson と機会学習の棲みわけ

ソーシャル・オープンデータ

• 心理学などの専門的な知識、日本語の扱いなどの専門的な知識• 学習データの収集• コーパスの作成• 結果検証

分析

Page 27: Combined analysis of Watson and Spark

© 2016 IBM Corporation27

今回のサンプルから、 Watson と機会学習の棲みわけについてまとめてみます。

Watson と機会学習の棲みわけ

ソーシャル・オープンデータ

自社のデータ分析

Data Scientist

Page 28: Combined analysis of Watson and Spark

© 2016 IBM Corporation28

Watson を筆頭に Cognitive または AI と呼ばれているシステムでは説明性について欠如するケースがほとんどです。- 今回の例では テキストデータ ー> パーソナリティを利用しました。 Watson はテキ

ストデータを元にテキストを記述したユーザーがどう言ったパーソナリティを持っているかを出力しますが、なぜそう判断したのか?の部分は説明ができません

何が問題になるのか

自前の分析

Watson の分析data

data

説明できない

説明可能

Page 29: Combined analysis of Watson and Spark

© 2016 IBM Corporation29

Performance による計測

自前の分析

Watson の分析data

data

説明できない

説明可能

Minimum Viable Product

• MVP (検証可能な最小製品)として BML ループに組み込む事で Performance は計測可能である• CVR,CTR,回遊率等

Feedback

Performance

Page 30: Combined analysis of Watson and Spark

© 2016 IBM Corporation30

Performance による計測

レコメンドをサイクルさせる為の一つの例

Personality to Item

Other Recommendation

Item1

Item2

Item3

Item4

Item5

View

Click rate,.etc

merge

feedbackmerge rate

Page 31: Combined analysis of Watson and Spark

© 2016 IBM Corporation31

Interpretable と DataScientist

自前の分析

Watson の分析data

data

説明できない

説明可能

• 説明性は誰が担保するのか?

Interpretable自社のデータ

Data Scientist

LOB

Report

Page 32: Combined analysis of Watson and Spark

© 2016 IBM Corporation32

今後 Cognitive/AI 時代の課題

• 従来、重要であった事

• 知っている事の確認

• 経験則から導き出されていたいわゆる業界知識や暗黙知の可視化

• 現在の状態の数値的な裏付け

• 人が理解出来る新しい知見

• 現在の主流

• ナゼが説明可能、ドノが説明可能

• 判別・検証が可能である

• 今後、どのように付き合うのか?• 人が理解できない新しい知見• ナゼドノが説明できない• 判別・検証が出来ない (難しい )

Page 33: Combined analysis of Watson and Spark

© 2016 IBM Corporation33

まとめ

Watson は色々な事ができる 自社のデータとソーシャルデータを組み合わせる事で新たな企業価値を

作る事が可能 Cognitive をうまく使う事で小さなコストと短い時間で価値抽出が可能

となる 説明性について注意が必要 人が理解できない結果についてどのように信頼関係を結ぶかは今後の課

Page 34: Combined analysis of Watson and Spark
Page 35: Combined analysis of Watson and Spark

© 2016 IBM Corporation35

ワークショップ、セッション、および資料は、 IBM またはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、 IBM は責任を負わないものとします。 本講演資料に含まれている内容は、 IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、 IBM ソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。

本講演資料で IBM製品、プログラム、またはサービスに言及していても、 IBM が営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいて IBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的な IBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。

記述されているすべてのお客様事例は、それらのお客様がどのように IBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。

IBM 、 IBM ロゴ、 ibm.com 、 [以下当該情報に関連し商標リスト中に掲載されたIBMブランドやIBMの製品名称があれば追加する ] は、 世界の多くの国で登録された International Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれ IBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、 www.ibm.com/legal/copytrade.shtml をご覧ください。

Adobe, Adobe ロゴ , PostScript, PostScript ロゴは、 Adobe Systems Incorporated の米国およびその他の国における登録商標または商標です。

IT Infrastructure Library は AXELOS Limited の登録商標です。

インテル , Intel, Intel ロゴ , Intel Inside, Intel Inside ロゴ , Centrino, Intel Centrino ロゴ , Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporation または子会社の米国およびその他の国における商標または登録商標です。

Linux は、 Linus Torvalds の米国およびその他の国における登録商標です。PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus Torvalds, owner of the mark on a world-wide basis.

Microsoft, Windows, Windows NT および Windows ロゴは Microsoft Corporation の米国およびその他の国における商標です。

ITIL は AXELOS Limited の登録商標です。

UNIX は The Open Group の米国およびその他の国における登録商標です。

Cell Broadband Engine は、 Sony Computer Entertainment, Inc. の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。

Java およびすべての Java 関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。

Linear Tape-Open, LTO, LTO ロゴ , Ultrium およびUltrium ロゴは、 HP, IBM Corp. およびQuantum の米国およびその他の国における商標です。