DeepLearning 中心に見る最近の論文事情

Post on 16-Jan-2017

1.917 views 4 download

Transcript of DeepLearning 中心に見る最近の論文事情

Deep Learning 中心に見る最近の論文事情東京大学 工学系研究科技術経営戦略学専攻 山下雄大

Twitter :@guruttonR

※ 注意 ※内輪の発表会に用いた資料です

意見(時系列の解釈など)は主観的なものになります

論文の詳しい説明は目的にしていません

間違い・指摘等あればコメントしてください

論文の多様化についてけない

Computer Vision?Natural Language Processing?

Reinforcement Learning?

Embedding?

Recommend System?

Social Analysis?

Graph theory?

論文を読もう!!… 当たり前ですね

やるべきだった

NLP(自然言語処理)

元々やってた

CV(画像処理)

興味があった

RL(強化学習)

お互いの技術を参考にしあって混ざり合っている

本題に入るその前に…

言葉の意味がわからない発表ほど面白くないものはない

DL

分散表現CNN

LSTM

RNN

CVNLP

RLZzzZzz

本題に入るその前に…

言葉の意味がわからない発表ほど面白くないものはない

ものすごく荒く Deep Learning の基礎部分を説明します

パーセプトロンx1

x2

x3

x4

zzu入力 出力

活性化関数

パーセプトロン

入力 出力

u = Wx + bz = f(u)

多層パーセプトロン

入力 出力

u(l+1) = W(l+1)z(l) + b(l+1)

z(l+1) = f(u(l+1))

多層パーセプトロン

入力層 隠れ層 出力層

入力 出力

順伝播

誤差逆伝播法

入力 出力

逆伝播

教師データ

比較

重みの修正1重みの修正2

ディープラーニングとは多層パーセプトロン ディープラーニング

層を増やす(基本的には)

層を深くすればするほど良い結果が出る!

RNN と CNN

RNN CNN

・ 時系列データ(言語や音声)に対する NN・ 隠れ層の値を次の隠れ層計算時に利用・ 勾配爆発・消失に対応する一つの形・ より過去の情報を利用する LSTM が人気

・ 画像データに対する NN・ 入力を二次元のまま扱う・ 畳み込み層とプーリング層から成る・ 画像内のずれを処理することができる

RNN (基本) LSTM 畳み込み層 プーリング層

Abstract

論文 survey のまとめを発表しますNLP ・ CV ・ RL の分野(特に NLP )で最近の研究を追います

修士論文で扱った Deep Learning を中心に見ていきます

注意点主観的な把握が何点か入っています

発想自体は古くからある(ものが多い)ことは留意してください

お互いの分野がどのようにして混ざりあっているかざっくり示す

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

Q-Learning 理論の登場Learning from Delayed Rewards

現在用いられている Q-Learning の理論をまとめあげた論文動的計画法とマルコフ法を組み合わせた TD 法により行動価値( Q )に関する方策ナシ学習を行うオススメ書籍

強化学習・  2000 年に出版された本でありながら、現在も強化学習  の分野では用いられているバイブル的著書・ 英語の原書はネットで無料取得可能  “ http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf”

(Christopher Watkins, 1989)

DL (Deep Learning) への注目ImageNet Classification with Deep Convolutional Neural Networks

LSVRC2012 で CNN を用いて圧倒的に優勝Dropout を用いるなど、現在多く用いられる DL の技術を確立

正例 負例 層構造

( Alex Krizhevsky, et al., 2012 )

本論文以降、 DL に関する論文が爆発的に増加

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識転移学習を用いた他タスクへの応用

単語の分散表現の獲得Efficient Estimation of Word representations in vector space

CBOW と Skip-gram の2つのモデル( word2vec )を提唱Skip-gram は現在最も使われている単語分散表現獲得手法の一つ

CBOW Skip-gram

( Tomas Mikolov , et al., 2013 )

ハフマン木と階層的ソフトマックスを用いた高速化などのが行われている続く論文でネガティブサンプリングなどを導入し、より良い表現の獲得手法を提案

対象語から周辺語を予測周辺語から対象語を予測

文章の分散表現の獲得Distributed Representations of Sentences and Documents

word2vec を文章に発展させた paragraph2vec を提案仕組みはほとんど word2vec と同じで、文章ベクトルに当たるものを追加

構造例

( Tomas Mikolov , 2014 )

文章を固定長ベクトルで表現する考えは、本論文以降も様々な手法で提案される実験の結果、従来の手法よりも良い精度で文章のポジネガ判定や、類似文脈を持つ文の特定ができるようになった

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識

マルチモーダルな潜在表現の獲得RNN を用いた文章生成

転移学習を用いた他タスクへの応用

RNN で機械翻訳Sequence to Sequence Learning with Neural Networks

Encoder と Decoder の2モデルから成る機械翻訳手法における提案論文の1つこのモデルは文章生成に関するタスクで多く用いられている入力文章を逆向き(” ABC” -> “CBA” )にすることで精度改善することを報告

(Ilya Sutskever, et al., 2014 )

LSTM を用いたことにより、より長い文章においても正しく翻訳できることを示した構造例 結果

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識

マルチモーダルな潜在表現の獲得RNN を用いた文章生成

転移学習を用いた他タスクへの応用動画解析

画像のキャプション生成

画像入力の説明文(キャプション)生成Show and Tell: A Neural Image Caption Generator

CNN で画像の特徴量を生成し、 LSTM で画像を説明するキャプションを生成する開始と終了を表す文字生成を覚えさせることで、出力文章の長さは制限されない

(Oriol Vinyals , et al., 2015 )

BLEU スコアでは人が書いた文章と遜色ない評価を出すが、人が評価すると大きな差が出ている構造 結果例

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識

マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成

転移学習を用いた他タスクへの応用動画解析

画像のキャプション生成

Attention ( = どこを訳すのか)の導入NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

近年の機械翻訳手法では原文を固定長ベクトルに encode し、 decoder で翻訳するが著者は長文に対して精度が低くなる原因と仮説encoder に当たるモデルにどの要素をどれくらい使うか(部分的な注目 =Attention )を学習させ、 decoder を用いて翻訳を行う

(Dzmitry Bahdanau, et al., 2015 )

Attention は前部分のみでなく、後部分からも影響を受けるとし、双方向 LSTM を使用

構造 結果特に長文生成において、従来の手法を大きく上回る成果を示す

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識

マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成

Attention によるキャプション生成

転移学習を用いた他タスクへの応用動画解析

画像のキャプション生成

キャプション生成における Attention

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

Attention の概念を画像のキャプション生成にも適応させた機械がどこに着目しながら文章生成を行っているか把握することで、より精緻な文章生成を行うための知見が得られると期待される

(Kelvin Xu, et al., 2016 )

構造 結果例CNN で生成される低次元での特徴量を用い、各領域に対応する文章を確認する

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識画像生成

マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成

Attention によるキャプション生成

転移学習を用いた他タスクへの応用動画解析

3Dモデル解析

画像のキャプション生成

2つのモデルを用いた画像生成手法

本物のような画像を生成する生成モデルと、生成モデル作と本物を見極める識別モデルを用意し、互いで競わせることによって学習させる

各要素に対応した乱数によって画像を扱うため、恣意的に画像から要素(男女など)を差し引いたり、足したりすることができる結果例

細かく見ると不自然なものもあるが、大まかには本物と感じさせるレベルで画像の生成が可能となった

UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS (Alec Radford , et al., 2016 )

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識画像生成

Deep Q-learning

マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成

Attention によるキャプション生成

転移学習を用いた他タスクへの応用動画解析

3Dモデル解析

Deep Recurrent Q-learning

画像のキャプション生成

DL と Q-Learning の融合 -> 人を超えるゲーマー

CNN の特徴生成能力を活かし、 Q-Learning と組み合わせることで人を超えるレベルでのプレイを行わせることに成功した

ゲームの種類によっては弱いものもあるが、複数の atari 2600 シリーズで人に勝る結果を示しており、汎用性の高い手法であることを示した構造 結果例

1秒間に 4 フレームを用いて状況を与え、スコアを報酬として学習させる

Human-level control through deep reinforcement learning (Kelvin Xu, et al., 2016 )

DQN(Deep Q-Learning) の応用Active Object Localization with Deep Reinforcement Learning

DQN を画像の Localization に応用し、少ない行程( 11~25程度)での探索を実現

対象の大きさにはロバストな様子を示すが、 occlusion や truncation には弱い

(Juan C. Caicedo, et al., 2016 )

構造 探索例

R-CNN には劣るものの、他の従来手法よりも良い精度を示した

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識画像生成

Deep Q-learning

マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成

Attention によるキャプション生成

転移学習を用いた他タスクへの応用動画解析

3Dモデル解析

Deep Recurrent Q-learning

画像のキャプション生成

Overview

NLP

CV

RL

2013

NN の基礎理論

RNN ・ CNNの提案

DL への注目

Q-Learningの提案

1989

20162014 2015

NN を用いた分散表現の獲得

CNN を用いた物体認識画像生成

Deep Q-learning

マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成

Attention によるキャプション生成

転移学習を用いた他タスクへの応用動画解析

3Dモデル解析

Deep Recurrent Q-learning

画像のキャプション生成

・ 自然言語における NN は勾配爆発と勾配消失との戦い・ 多くの手法が画像分野や実務などに応用されてい

る・ 短期的なトレンドは Attention を用いた文章生成・  DL との相性の良さから DL領域での研究はかなり盛ん・ 去年〜今年のトップカンファレンスは動画・ 3D が

中心か・ 識別モデル中心だったが、生成モデルがこれからのトレン

ド? ・ 従来と同じように POMDP への応用の流れが DQNにもある・ 現在は画像分野が中心、今後は時系列データへの応用が増

加?・ 課題設定が特に重要で、教師アリ学習に対する利点をどう

示すか

Summary

技術発展のスピードがものすごく早いDL 関連では1年では毎年のように何らかの激変が起こっているBengio さんや Hinton さんたちが入ってる論文は変革率がかなり高い各領域の内容が相互の領域の手法に影響を与えている

発想自体は新しくないものも多いarXiv の活性化もあり、引用までのスピードも上がっている

データの増加や GPGPU などの発展による影響が現れている発想は古くから変わってなかったり、提案されていたものが割とある

おわり