深層学習の判断根拠を理解するための研究とその意義 @PRMU 2017熊本

Copyright © 2017 TIS Inc. All rights reserved.

深層学習の判断根拠を理解するための研究とその意義

戦略技術センター久保隆宏

Copyright © 2017 TIS Inc. All rights reserved. 2

深層学習における、解釈性の問題

説明力が問われるシーン判断に影響を受ける関係者がいる場合

法的責任が伴う場合

継続的なメンテナンスが必要な場合

判断根拠を理解するための手法ネットワークの出力を最大化する入力の作成

入力に対する感度を分析する

出力から入力までの経路を逆にたどる

様々な入力から出力の傾向を推定する

入力に対する着目点をモデルに組み込む

説明力に対する評価説明の一貫性に対する評価

説明の正当性に対する評価

説明力の利用事例

おわりに

目次


久保隆宏TIS株式会社戦略技術センター

化学系メーカーの業務コンサルタント出身

既存の技術では業務改善を行える範囲に限界があるとの実感から、戦略技術センターへと異動

現在は機械学習や自然言語処理の研究・それらを用いたシステムのプロトタイピングを行う

自己紹介

OpenAI Gymを利用した、強化学習に関する講演(@PyConJP 2016)

kintoneアプリ内にたまったデータを簡単に学習・活用(@Cybozu Days 2016)

機械学習のビジネスへの適用/音楽生成で同人誌ダブル出展(@技術書典2 2017)


所属するチームのミッション

すべての人が、ティータイムに帰れるようにする

すべての人が、ティータイム(15:00)に帰れる(茶帰)社会の実現を目指します。

この実現には、既存の仕事を効率化するのでなく、根本的に「仕事の仕方」を変える必要があります。

しかし、慣れた仕事の仕方というのは簡単には変わりません。だからこそ、実際に「体験」をし、効果を「実感」してもらうことが重要になります。

そのため、私たちは先進的技術を用い、仕事の仕方が変わる体験を提供していきます。


観点要約

価格手触りサイズ可愛さ

熊のぬいぐるみ

狐のぬいぐるみ

熊：価格は手頃で、手触りはとてももちもち。サイズは小さいけれど幼児が遊ぶには適切。

狐：お買い得な価格て、邪魔にならないサイズ。とってもかわいい。

文章の要約に際しては、ドメインごとに注目すべき観点が提示されている(議事録であればTodoなど)。

所与の観点を元に要約を行うことで、必要な情報のもれを防ぐとともに、比較表などのより視覚的な手法を用いることもできる。


arXivTimes

論文の一言サマリをGitHub上で共有する取り組み。併せて会社共同での論文輪講も実施中(Twitterもやってます)

投稿された論文が分野別にみられるダッシュボードもリリースしました。

投稿していただくと、投稿した人専用の個人ページが表示されるようになります。

https://github.com/chakki-works

https://github.com/arXivTimes/arXivTimes

https://twitter.com/arxivtimes


Advanced Screening

本日の講演に際しまとめた情報は、こちらの記事で公開しています。


深層学習は様々な分野で適用が行われ、高い実績を挙げている。

しかし、何を根拠に判断を行っているのかはよくわかっていない。

(ついでに言えば、なぜうまく学習できるのかもよくわかっていない)。

そのため、これを明らかにしようという試みが行われている。本講演では、この取り組みについて紹介をしていく。




精度が高ければ問題ないのでは？迷惑メールフィルタに理由を説明してほしい

と思ったことないんだけど？

No Problem!


判断に影響を受ける関係者がいる場合



説明力が問われるシーン


判断に影響を受ける関係者がいる場合(1/2)

http://www.itmedia.co.jp/business/articles/1708/29/news011.html

※「ちなみに、ワトソンが「不合格」にしたESは、必ずスタッフが再度目を通しますので、受験者のESがワトソンだけで落とされることはありません。」との補足あり

http://www.itmedia.co.jp/business/articles/1708/29/news011.html


判断に影響を受ける関係者がいる場合(2/2)

判断は、それ自体の正否だけでは成立しない

影響を受ける関係者は、主に以下2つに大別できる。

判断を元に、それを実行に移す人達

納得できない判断に対しては、判断を無視する、実行をサボタージュするなどの影響が発生する

判断を元に実行された結果に影響を受ける人達

納得できない判断に対する反発行動が発生する

判断自体の「正しさ」と、関係者の「正しそうに思える」認識がそろって初めて実のある判断になる。後者の認識を獲得するために、説明が果たす役割は大きい。


法的責任が伴う場合(1/2)

https://wired.jp/2017/07/04/tesla-fatal-crash/

https://wired.jp/2017/07/04/tesla-fatal-crash/


法的責任が伴う場合(2/2)

身近な機器に機械学習モデルが搭載されるにつれ、それらの判断が及ぼす影響も増してくる。そこで、きちんとした検査が求められてくる。

製品出荷前

様々な環境において、モデルが想定した精度で機能するか検証する

製品出荷後

製品事故発生時の検証など

製品出荷前については、モデルの判断根拠を明らかにすることで、判断に影響が大きく出るシーン(雨が降っている、街灯が並ぶケースetc)を重点的にテストするといった対応が可能になる。

製品出荷後については、事故検証という面で意義がある。欧州ではユーザーが判断過程を開示するよう要求した場合それに応えられるようにすることが検討されており、この点でも説明力が重要となってくる。

https://arxiv.org/abs/1606.08813


継続的なメンテナンスが必要な場合(1/2)

http://jp.techcrunch.com/2016/03/25/20160324microsoft-silences-its-new-a-i-bot-tay-after-twitter-users-teach-it-racism/

http://jp.techcrunch.com/2016/03/25/20160324microsoft-silences-its-new-a-i-bot-tay-after-twitter-users-teach-it-racism/


機械学習モデルは、作成された瞬間から学習データにもテストデータにもない、未知のデータが発生する環境にさらされる。

データや、データの分布が変化する

特に自然言語では、新しい単語の登場や新しい単語の使われ方が発生することで、モデルの精度に影響が出る(HoloLensなどの新製品、AKBの登場で「選挙」が芸能の意味を持つようになるなど)。

判断精度の低下や、判断の偏向を目的とした、悪意あるデータ

対話ボットに対して政治的に偏った意見ばかり送り付ける、またECサイトで特定の商品に対する評判を操作するなど。

こうした変化をとらえるにはモデルの精度といった数値指標を継続的に監視することがまず第一になる。ただ、「数値が下がった理由」は別途分析を行う必要がある。この際、モデルの判断根拠がわかっていれば分析が行いやすい。なお、モデルの再学習を機械的に行う場合は、この判断根拠の遷移を追っていないといつの間にか凶暴BOTになったりするので注意。

継続的なメンテナンスが必要な場合(2/2)


判断に影響を受ける関係者がいる場合



何れも、機械学習のモデルがより身近に、より長い期間人と関わるようになるにつれ問題となる点である。

深層学習の登場により、機械学習は性能面での課題をクリアしつつある。しかし、その機能に付随する社会的な責任を果たせるようにはなっていない。

説明力が問われるシーン

察しろ

きみはすごーいけど

せつめいはできないフレンズなんだね！


「理解」とは？

？


判断根拠の理解は、「判断根拠」の算出と、それを人間が理解できるよう「表現する」という2つの側面がある。この2つがそろってはじめて「説明」といえる。

判断根拠

機械学習は、入力が行われ、ある仕組み(プロセス)を通り、出力に至る、というのが基本的なプロセス。

出力に至るプロセスを解き明かす場合(ホワイトボックス)と、入力と出力の関係だけ分かればよい場合 (ブラックボックス)の2種類がある。

表現

人が理解可能な形で判断根拠を提示する。具体的には、可視化や説明文の作成といった手法があげられる。単なる数値の羅列(ベクトルなど)はこれには該当しない。

「理解」の定義


以降のセクションでは、「入力と出力の関係だけ分かればよい場合 (ブラックボックス) 」にフォーカスし、手法を紹介していきます。

「理解」の定義

判断根拠を理解するための手法


ネットワークの出力を最大化する入力の作成







ネットワークの判断確度が高い入力は、ネットワークの判断根拠を良く含む入力と言える

ネットワークの出力を最大化する入力の作成(1/2)

Building High-level Features Using Large Scale Unsupervised Learning

Activation Maximization

https://arxiv.org/pdf/1112.6209.pdf


定式化

𝑥∗ = max𝑥

log 𝑝 𝑤𝑐 𝑥 − 𝜆 𝑥

あるクラスcに分類される確率が最大であるような入力𝑥(=代表例)を見つける。実際に発生している入力になるべく近いものになるように、𝑥の生起確率𝑝(𝑥)を含める場合もある。

𝑥∗ = max𝑥

log 𝑝 𝑤𝑐 𝑥 + log 𝑝(𝑥)

ただ、画像データのように次元数が多い場合は𝑥の分布を求めるのが大変なので、生成モデルと組み合わせる手法もある。

max𝑧∈𝑍

log 𝑝 𝑤𝑐 𝑔 𝑧 − 𝜆 𝑧 2

ネットワークの出力を最大化する入力の作成(2/2)


入力のうち、その変化が出力に大きな影響を与える箇所があれば、それはモデルが重要視しているポイントと言える。

入力に対する感度を分析する(1/2)

SMOOTHGRAD

Saliency Map/Sensitivity Analysis

https://pair-code.github.io/saliency/


定式化

𝑆 𝑥 =𝜕𝑓

𝜕𝑥

2

入力の変化に対する出力の変化、変化量と言えば微分の出番。ニューラルネットは元々微分の連鎖律を使用し学習していくため(勾配計算)、分析のための特別な実装が不要で簡単に分析ができる。

ただ、これで得られるのは誤差を大きく/小さくするのはどの部分の変化か、ということ。その意味では、根源的な回答(そもそもなぜその点が重要なのか？)については答えることができないので注意が必要。

入力に対する感度を分析する(2/2)


出力から入力までの経路を逆にたどる(1/2)

出力した結果を逆にたどっていけば、その出力の根源(=理由)にたどり着けるのではというアイデア。

Explaining nonlinear classification decisions with deep Taylor decomposition

Deconvolution/LRP

http://www.sciencedirect.com/science/article/pii/S0031320316303582?via%3Dihub


出力から入力までの経路を逆にたどる(2/2)

Deconvolution

CNNの特徴マップについて、そのマップ上で活性が見られる点(+の値の箇所)以外を0にして逆伝搬する。

そうすると、マップ上の活性に影響を及ぼした部分のみ入力が復元されるはず、という理屈(Guided Backpropagation)。

Layer-wise Relevance Propagation(LRP)

レイヤー間の伝搬において各ノードの貢献度を算出。「貢献度の総和」は維持されるとして、これを逆伝搬していき入力に射影する。

Demo


http://heatmapping.org/mnist.html


様々な入力から出力の傾向を推定する(1/2)

深層学習の「一部の判断」だけなら、周辺の入力/出力を元にその判断を説明力の高いモデルで模倣することができる

Introduction to Local Interpretable Model-Agnostic Explanations (LIME)

LIME

https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-explanations-lime


Introduction to Local Interpretable Model-Agnostic Explanations (LIME)

様々な入力から出力の傾向を推定する(2/2)

オリジナルの画像を複製・変更した入力をいくつか作成し、それに対する学習済みモデルの出力を得る。この入力と出力のペアを、本体とは別に用意したより単純/説明力の高いモデルに学習させて、その判断根拠を得る。

ICML2017 ベストペーパーとなった” Understanding Black-box Predictions via Influence Functions”は、これを定式化した形。

https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-explanations-lime


入力に対する着眼点をモデルに組み込む(1/2)

出力に貢献している点がわかる仕組みを、モデルに組み込む

Neural Machine Translation by Jointly Learning to Align and Translate

Attention



入力に対する着眼点をモデルに組み込む(2/2)

Attentionの機構は、モデルの精度面だけでなく説明の面でも有用な仕組み。画像キャプショニングへの導入は、モデルが真に画像を理解した上でキャプションを生成しているのかの検証に役立つ。

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention



ネットワークの出力を最大化する入力の作成







Attentionは意図的に組み込めるため、精度的な貢献があり説明が求められるシーンで使われ得るなら利用しない理由はない。

Activation Maximization、またLIMEはニューラルネットに限らず様々なモデルで使用できる。ニューラルネットと既存手法の比較実験に有用。

Saliency Map/Deconv/LRPなどはそれなりに手間だが、今後深層学習系のフレームワークに組み込まれる？ことを期待。


汎用ニューラルネット限定

要モデルでの対応

説明力に対する評価

Q：良い説明を考えてみよう！

なんで論文の執筆

すすんどらんのか・・・


説明力に対する評価

仮に説明ができたとして、その妥当性をどのように評価すればよいか？


説明の一貫性に対する評価



説明において重要とされている特徴を抜いた場合、それは出力に大きな影響を及ぼすはず

これは、説明において重要とされている点を徐々に欠損させていくことで、判断精度がどう下がるか観測することで検証できる(説明における重要度に応じて下がるほど良い説明ということになる)。

Methods for Interpreting and Understanding Deep Neural Networks


ドラクエ発売

しなかったら

完成できたのかよ


説明の一貫性に対する評価

一貫性が担保されていれば、入力における近しさと説明における近しさは同等のはず

特定の入力に近い別の入力があった場合、それぞれの説明は近しくならなければならないはず

特定の入力と対極にあるような別の入力があった場合、それらの説明は異なったものになるはず

これは、「様々な入力から出力の傾向を推定する」のと同等の手法で検証が行える。

Methods for Interpreting and Understanding Deep Neural Networks


合コン

行く時は

ずいぶん元気そうだな

説明はすれば終わりではない

進捗出さない罪で

応用事例の紹介


モデルの検証

複雑な事象の理解

説明力の利用事例


様々なモデルに対してその「説明」を比較することで、精度面だけでなくどのような性質があるのかを検証することができる。

モデルの検証

“What is Relevant in a Text Document?”:An Interpretable Machine Learning Approach

上図は、文書分類についてCNNとSVMでどのような単語が分類の根拠として見られたのかを比較している(positiveに働いたのが赤、negativeが青)。これは、継続的なモデルのメンテナンスを行う上でも有用な機能となる。



モデルの理解が不十分なことがわかることで、新しいタスクやデータセットが提案されることもある。

モデルの検証

Zero-Shot Visual Question Answering CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

VQAのタスクで、よくある答えを丸覚えして回答しているケースがあったため(何匹ですか?にはとりあえず「2匹」とか)、学習データ中にはない回答をきちんと選べるかどうかを検証

きちんと理解しているかを診断するために、シンプルな画像(物体がいくつか置いてあるような画像)に対し、様々な内容(物体の色や形といった属性、個数、位置など)を問う質問が用意されている。


http://cs.stanford.edu/people/jcjohns/clevr/


分子の性質を決定する原子間の結合など、関係が複雑で人間の認知が難しい現象が多々ある。

そこに表現力に優れた深層学習を適用し、その判断理由を説明させることで理解の助けとすることができる。

複雑な事象の理解

上図は分子構造を成すのに貢献している原子間の関係性を可視化したもの。

Quantum-Chemical Insights from Deep Tensor Neural Networks


おわりに


未だ解決されていない科学的・社会的課題は多く、深層学習が寄与できる領域は大きい。

おわりに(1/4)

Galaxy Zoo - The Galaxy Challenge

Global Terrorism DatabaseCT Medical Image Analysis Tutorial

https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge

https://www.kaggle.com/START-UMD/gtd/kernels

https://www.kaggle.com/kmader/siim-medical-image-analysis-tutorial/kernels


SNS上の発言などから危機的状況(自殺しちゃいそうなど)かを検知する・・・だけでなく、「すぐに対応すべきかどうか」を人が判断するためにその判断根拠を提示するという研究(Attentionを使用)。

精度だけでなく、説明を提示できるようになれば「人との連携」が可能になり、より解決可能な課題が増える。

おわりに(2/4)

Detecting and Explaining Crisis



いわゆる「人工知能」関連の技術は半ば面白半分に煽られているという現状もある。特に深層学習については、やはり判断根拠がわからないというブラックボックスな面がこうした状況を招いている原因ともいえる。

こうした現状を放置していると、謎の法規制がかけられる懸念もある。

AIベンチャーの雄が総務省の開発指針に反対する理由

おわりに(3/4)

https://jp.sputniknews.com/world/201708013947295/

https://wired.jp/2017/02/14/deepmind-ai-social-impact/

http://jp.techcrunch.com/2017/01/20/20170119ai-software-is-figuring-out-how-to-best-humans-at-designing-

new-ai-software/

http://itpro.nikkeibp.co.jp/atcl/column/14/346926/040600923/?n_cid=nbpitp_twbn_top&rt=nocnt

https://jp.sputniknews.com/world/201708013947295/

https://wired.jp/2017/02/14/deepmind-ai-social-impact/

http://jp.techcrunch.com/2017/01/20/20170119ai-software-is-figuring-out-how-to-best-humans-at-designing-new-ai-software/

http://jp.techcrunch.com/2017/01/20/20170119ai-software-is-figuring-out-how-to-best-humans-at-designing-new-ai-software/


深層学習の力を、その精度だけに留めておく理由はない。

判断根拠が提示できるようになれば、様々な分野における難問、また社会課題に対して貢献できる。

同時に、これは深層学習という研究が実社会に出ていく中で求められることでもある(その中には、わけのわからないAIという偏見を解いていくプロセスも含まれる)。

判断根拠を理解する手法は、深層学習が実応用のフェーズに入っていくにつれさらに重要性を増す技術である。

おわりに(4/4)

しんそうがくしゅうとひとが

たいせつなフレンズになれるといいね！

THANK YOU

深層学習の判断根拠を理解するための研究とその意義 @PRMU 2017熊本

Data & Analytics

Transcript of 深層学習の判断根拠を理解するための研究とその意義 @PRMU 2017熊本

深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本

Data & Analytics

Transcript of 深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本

深層学習の判断根拠を理解するための研究とその意義 @PRMU 2017熊本

Transcript of 深層学習の判断根拠を理解するための研究とその意義 @PRMU 2017熊本