Deep Learning による視覚×言語融合の最前線

72
Deep Learning ににに にに にににににににに 東東東東 東東東東東東東東東東東東 東東 東東 losnuevetoro s

Transcript of Deep Learning による視覚×言語融合の最前線

Page 1: Deep Learning による視覚×言語融合の最前線

Deep Learningによる視覚・言語融合の最前線

東京大学 大学院情報理工学系研究科牛久 祥孝losnuevetoros

Page 2: Deep Learning による視覚×言語融合の最前線

… の前に

MIRU2017 若手プログラム• 2017 年 8 月 7 日~ 8 月 11 日@広島• 画像の認識・理解シンポジウム( MIRU )内開催• 若手同士で「研究の立ち上げ」

• 参加登録締め切り: 3/31

Page 3: Deep Learning による視覚×言語融合の最前線

自己紹介~ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成

• 大規模画像分類

2014.4 ~ 2016.3 NTT コミュニケーション科学基礎研究所2016.4 ~ 東京大学 大学院情報理工学系研究科

知能機械情報学専攻 講師 ( 原田・牛久研究室 )

Page 4: Deep Learning による視覚×言語融合の最前線

2012 年:一般物体認識における激震

2012 年の画像認識タスクでディープ勢が2 位以下に圧

勝 !

2012 年の画像認識タスクでディープ勢が2 位以下に圧

勝 !

2012 年の画像認識タスクでディープ勢が2 位以下に圧

勝 !

Page 5: Deep Learning による視覚×言語融合の最前線

2012 年:一般物体認識における激震

ところで公式サイトをみると…

1 位 SuperVision

エラー率 15%

2 位 ISI

エラー率 26%我々というツマ

深層学習という特上ネタ

[http://image-net.org/challenges/LSVRC/2012/results.html]

Page 6: Deep Learning による視覚×言語融合の最前線

ユーザー生成コンテンツの爆発的増加

特にコンテンツ投稿・共有サービスでは…• Facebook に画像が 2500 億枚 (2013 年 9 月時

点 )• YouTube にアップロードされる動画

1 分間で計 400 時間分 (2015 年7 月時点 )

Pōhutukawa blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular.

画像 / 動画と関連する文章の対→ 大量に収集可能

Page 7: Deep Learning による視覚×言語融合の最前線

入力

出力

Deep Learning の恩恵

• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS 2012]

• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]– RNN で問題になっていた勾配の消失を LSTM

[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように

– LSTM を 4 層つなぎ、 end-to-end で機械学習→ state-of-the-art 並み(英仏翻訳)

CNN/RNN などの共通技術が台頭画像認識や機械翻訳の参入障壁が低下

Page 8: Deep Learning による視覚×言語融合の最前線

画像キャプション生成

Group of people sitting at a table with a dinner.

Tourists are standing on the middle of a flat desert.

[Ushiku+, ICCV 2015]

Page 9: Deep Learning による視覚×言語融合の最前線

動画キャプション生成

A man is holding a box of doughnuts.Then he and a woman are standing next each other.Then she is holding a plate of food.

[Andrew+, ICIP 2016]

Page 10: Deep Learning による視覚×言語融合の最前線

他言語化・キャプション翻訳

Ein Masten mit zwei Ampeln fur Autofahrer. ( 独語 )

A pole with two lights for drivers. ( 英語 )

[Hitschler+, ACL 2016]

Page 11: Deep Learning による視覚×言語融合の最前線

キャプションからの画像生成

This bird is blue with white and has a very short beak.

( この鳥は白の入った青色で、とても短いくちばしをもっています。 )

This flower is white and yellow in color, with petals that are wavy and smooth.

( この花は白と黄色で、波打った滑らかな花びらをもっています。 )

[Zhang+, 2016]

Page 12: Deep Learning による視覚×言語融合の最前線

ビジュアル質問応答[Fukui+, EMNLP 2016]

Page 13: Deep Learning による視覚×言語融合の最前線

本講演の目的

視覚 × 言語の融合研究を俯瞰• 各領域の歴史的な流れ• Deep Learning 登場以前と以後の変化を説明

× Deep Learning で初めてこれらの研究が誕生✓ Deep Learning でこれらの研究が精緻化

1. 画像キャプション生成2. 動画キャプション生成3. 言語横断4. 画像に関する質問への応答5. キャプションからの画像生成

Page 14: Deep Learning による視覚×言語融合の最前線

視覚・言語融合の最前線 1画像キャプション生成

Page 15: Deep Learning による視覚×言語融合の最前線

Every picture tells a story [Farhadi+, ECCV 2010]

データセット:画像+<object, action, scene>+ キャプション

1. 画像の <object, action, scene> を MRF で推定

2. <object, action, scene> が同じキャプションを検索して利用

<Horse, Ride, Field>

Page 16: Deep Learning による視覚×言語融合の最前線

Every picture tells a story [Farhadi+, ECCV 2010]

Page 17: Deep Learning による視覚×言語融合の最前線

再利用?新規生成?

• 再利用

• 新規生成–テンプレート主語+動詞の文を生成しよう

–非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 18: Deep Learning による視覚×言語融合の最前線

再利用?新規生成?

• 再利用– A small gray dog on a leash.

• 新規生成–テンプレート主語+動詞の文を生成しよう

–非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 19: Deep Learning による視覚×言語融合の最前線

再利用?新規生成?

• 再利用– A small gray dog on a leash.

• 新規生成–テンプレート

dog+ stand ⇒ A dog stands.–非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 20: Deep Learning による視覚×言語融合の最前線

再利用?新規生成?

• 再利用– A small gray dog on a leash.

• 新規生成–テンプレート

dog+ stand ⇒ A dog stands.–非テンプレート

A small white dog standing on a leash.

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力 データセット

Page 21: Deep Learning による視覚×言語融合の最前線

マルチキーフレーズ推定アプローチ

当時の問題=使用候補であるフレーズの精度が悪い

仮説 : 画像の内容は少数の主要なフレーズで特定可能

あとは文法モデルで繋げばよい!

キーフレーズを独立なラベルとして扱うと…

マルチキーフレーズの推定=一般画像認識文生成は [Ushiku+, ACM MM 2011] と同じ

[Ushiku+, ACM MM 2012]

Page 22: Deep Learning による視覚×言語融合の最前線

文の終わり

Page 23: Deep Learning による視覚×言語融合の最前線

入力

出力

Deep Learning の恩恵 (再掲 )• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS

2012]• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]– RNN で問題になっていた勾配の消失を LSTM

[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように

– LSTM を 4 層つなぎ、 end-to-end で機械学習→ state-of-the-art 並み(英仏翻訳)

CNN/RNN などの共通技術が台頭画像認識や機械翻訳の参入障壁が低下

Page 24: Deep Learning による視覚×言語融合の最前線

Google NIC [Vinyals+, CVPR 2015]

Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]

• LSTM [Sutskever+, NIPS 2014]

を直列させて文生成する。

画像への文(単語列)は意味する単語

を意味する単語

Page 25: Deep Learning による視覚×言語融合の最前線

生成された説明文の例

[https://github.com/tensorflow/models/tree/master/im2txt]

Page 26: Deep Learning による視覚×言語融合の最前線

[Ushiku+, ACM MM 2012] と比べると

入力画像

[Ushiku+, ACM MM 2012] では:Fisher Vector + 線形分類オンライン学習

CVPR 2015 の各論文では:CNN (オンライン学習なのは一緒)

CVPR 2015 の各論文では:RNN とビームサーチで文をつなぐ

[Ushiku+, ACM MM 2012] では:キーフレーズと文法モデル、ビームサーチで文をつなぐ

文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に

• いずれも画像 + キャプションのみから学習可能• 全体の流れは非常に似ている

“ キーフレーズ”

Page 27: Deep Learning による視覚×言語融合の最前線

一番大きく違うところは…?

• 深層学習以前の新規キャプション生成

何らかの語句に変換してから文生成器へ

• 深層学習による新規キャプション生成

画像特徴量を直接文生成器へ  

Page 28: Deep Learning による視覚×言語融合の最前線

ところが最近では…

• CNN で事物の認識まで済ませて RNN で文生成 [Wu+, CVPR 2016][You+, CVPR 2016]→ 画像特徴量の段階で RNN に渡すより高性能!

• 深層学習以前のアプローチとより類似

[You+, CVPR 2016][Wu+, CVPR 2016]

Page 29: Deep Learning による視覚×言語融合の最前線

現在の展開:精度の発展

• 画像認識Inceptionモデルや ResNet など、より高精度なCNN

• 自然言語処理画像認識側が完璧になったと仮定した文生成 [Gupta+Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+, ICLR workshop 2016]

• 機械学習変分自己符号化器の利用 [Pu+, NIPS 2017]

Page 30: Deep Learning による視覚×言語融合の最前線

現在の展開:精度の発展

• 2 分野が融合して新たに生まれたものの例:–アテンションモデルの利用 [Xu+, ICML 2015]

–画像 + キャプションから注視モデルも学習!

Page 31: Deep Learning による視覚×言語融合の最前線

現在の展開:問題の発展

より細かいキャプション生成[Lin+, BMVC 2015] [Johnson+, CVPR 2016]

Page 32: Deep Learning による視覚×言語融合の最前線

現在の展開:問題の発展

アルバムのような系列画像にキャプション生成[Park+Kim, NIPS 2015][Huang+, NAACL 2016]

The family got together for a cookout.

They had a lot of delicious food.

The dog was happy to be there.

They had a great time on the beach.

They even had a swim in the water.

Page 33: Deep Learning による視覚×言語融合の最前線

現在の展開:問題の発展

感性語 Sentiment Term を重視したキャプション生成 [Mathews+, AAAI 2016][Andrew+, BMVC 2016]←Ours! ニュートラルな文

ポジティブな文(生成した例)

Page 34: Deep Learning による視覚×言語融合の最前線

視覚・言語融合の最前線 2動画キャプション生成

Page 35: Deep Learning による視覚×言語融合の最前線

深層学習登場以前

• 言語と動画内の物体とのグラウンディング[Yu+Siskind, ACL 2013]–動画とその動画を説明する文のみから学習–対象物体が少なく、コントロールされた小規模データセットでの実験

• 深層学習との親和性は高いはず–画像キャプション生成:静止画→単語列–動画キャプション生成:静止画列→単語列

Page 36: Deep Learning による視覚×言語融合の最前線

深層学習による end-to-end な学習

• LRCN[Donahue+, CVPR 2015]– CNN+RNN• 動作認識• 画像 / 動画

キャプション生成

• Video to Text [Venugopalan+, ICCV 2015]– CNN+RNN• RGB 画像で物体を• オプティカルフローで

動作を認識→キャプション生成

Page 37: Deep Learning による視覚×言語融合の最前線

動画キャプション生成

A man is holding a box of doughnuts.Then he and a woman are standing next each other.Then she is holding a plate of food.

[Andrew+, ICIP 2016]

Page 38: Deep Learning による視覚×言語融合の最前線

動画キャプション生成

A boat is floating on the water near a mountain.And a man riding a wave on top of a surfboard.Then he on the surfboard in the water.

[Andrew+, ICIP 2016]

Page 39: Deep Learning による視覚×言語融合の最前線

       MS COCO Captioning Challenge

• CVPR 2015 で行われた競争型ワークショップ– 1 位: Google• 基本的には Google NIC• 後の [Bengio+, NIPS2015] において…

RNN の学習に Curriculum Learning [Bengio+, ICML 2009] を導入していたことが判明

– 2 位: MSR • CVPR2015 で発表された論文の通り、

CNN+RNN 以外の工夫もしている• のちに RNN による文生成も検討

[Devlin+, IJCNLP 2015]

Page 40: Deep Learning による視覚×言語融合の最前線

キャプション生成そのものは終わった?

• 深層学習のおかげで画像認識は人間並み…?– ILSVRC 2015 における 1000 クラス画像認識で

は…誤識別率:人( 5% )より ResNet ( 4%弱)が正確

–MS COCO Captioning Challenge では…

M1:人間並みかそれ以上のキャプションの割合M2:チューリングテストをパスしたキャプションの割合M3:正確さの 5段階評価( 5 が最良)M4:詳細さの 5段階評価( 5 が最良)M5:既存キャプションによく似たキャプションの割合

アンケート評価

Page 41: Deep Learning による視覚×言語融合の最前線

キャプション生成の 2 大アプローチ

• 既存キャプションの再利用× 全く同じ内容のキャプションがあるか不明

✔ 文法的に正しい

• 新規キャプション生成 ✔ 画像の内容を過不足なく表現できるはず

× 文法的に正しいか分からない

Page 42: Deep Learning による視覚×言語融合の最前線

Deep Learning によって

• 既存キャプションの再利用× 全く同じ内容のキャプションがあるか不明

✔ 文法的に正しい ✔ 詳細な記述をあてられる

• 新規キャプション生成 ✔ 画像の内容を過不足なく表現できるはず ✔ 文法的に正しいか分からない正しい

× 曖昧な、最大公約数的な記述になる

Page 43: Deep Learning による視覚×言語融合の最前線

視覚・言語融合の最前線 3他言語化・キャプション翻訳

Page 44: Deep Learning による視覚×言語融合の最前線

他言語への展開

データセット• IAPR TC12 [Grubinger+, 2006] 20,000 画像 + 英独• Multi30K [Elliot+, 2016] 30,000 画像 + 英独• STAIR Captions [吉川ら、 2017]

MS COCO (10万超画像+英語キャプション )→ すべてに日本語キャプションを付与

タスクとしての展開• 英語でない画像キャプション生成• マルチモーダル機械翻訳 / 言語間文書検索

1. 入力:言語 A でのキャプション + 画像2. 入力:言語 A でのキャプション→ 出力:言語 B でのキャプション( 1. と 2. で同じ)

Page 45: Deep Learning による視覚×言語融合の最前線

英語でない画像キャプション生成

Page 46: Deep Learning による視覚×言語融合の最前線

英語でない画像キャプション生成

多くは英語のキャプションを生成するが…

• 日本語 [Miyazaki+Shimizu, ACL 2016]

• 中国語 [Li+, ICMR 2016]

• トルコ語 [Unal+, SIU 2016]

Çimlerde ko¸ san bir köpek

金色头发的小女孩

柵の中にキリンが一頭立っています

Page 47: Deep Learning による視覚×言語融合の最前線

単にデータ集めを頑張るだけ?

他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]• 他言語の視覚 - 言語グラウンディングの転移• 少数のキャプション付き画像でも効率よく学習

an elephant is

an elephant

一匹の 象が 土の

一匹の 象が

英語で学習した重みを日本語で再利用

Page 48: Deep Learning による視覚×言語融合の最前線

マルチモーダル機械翻訳

Page 49: Deep Learning による視覚×言語融合の最前線

言語横断型の研究

画像は機械翻訳の精度に寄与 [Calixto+,2012]• 英語で seal とあるけど、

・ stamp に近い seal なのか?・ sea animal の seal なのか?

がわからず誤ったポルトガル語に翻訳

• (実験してないけど)画像があれば防げるはず!

Page 50: Deep Learning による視覚×言語融合の最前線

入力:言語 A のキャプション + 画像

• 画像を介した言語横断キャプション翻訳[Elliott+, 2015] [Hitschler+, ACL 2016]–最初に候補翻訳を複数生成(画像には非依存)–類似画像に付随する言語 B のキャプションを利用して翻訳候補から出力を選択

Eine Person in einem Anzug und Krawatte und einem Rock. ( 独語 )

画像を見ない場合の翻訳

A person in a suit and tie and a rock.画像を利用した場合の翻訳

A person in a suit and tie and a skirt.

Page 51: Deep Learning による視覚×言語融合の最前線

入力:言語 A のキャプション

• 画像を介した言語横断関連文書検索[Funaki+Nakayama, EMNLP 2015]

• ゼロ対訳コーパスでのマルチモーダル翻訳[Nakayama+Nishida, 2017]

Page 52: Deep Learning による視覚×言語融合の最前線

視覚・言語融合の最前線 4画像に関する質問への応答

Page 53: Deep Learning による視覚×言語融合の最前線

Visual Question Answering (VQA)最初はユーザインタフェース分野で注目• VizWiz [Bigham+, UIST 2010]

AMT で人力解決

• 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014]

• 類似用語: Visual Turing Test [Malinowski+Fritz, 2014]

Page 54: Deep Learning による視覚×言語融合の最前線

VQA: Visual Question Answering• ビジュアル質問応答を分野として確立–ベンチマークデータセットの提供–ベースとなるパイプラインでの実験

• ポータルサイトも運営

– http://www.visualqa.org/–国際コンペティションも開催

[Antol+, ICCV 2015]

What color are her eyes?What is the mustache made of?

Page 55: Deep Learning による視覚×言語融合の最前線

VQA DatasetAMT で質問と回答を収集• 10万超の実画像、 3万超のアニメ調画像• 計 70万弱の質問+それぞれ 10 の模範回答

Page 56: Deep Learning による視覚×言語融合の最前線

VQA=多クラス分類問題

表現ベクトル通常のクラス識別

質問文What objects arefound on the bed?

応答bed sheets, pillow

画像 画像特徴量

質問特徴量

統合された表現ベクトル

Page 57: Deep Learning による視覚×言語融合の最前線

その後の展開

「統合された表現ベクトル」の工夫

• VQA [Antol+, ICCV 2015] :そのまま直列に並べる

• 「和」グループ例 Attention で重みづけ和をとった画像特徴と質問特徴を単純に足す [Xu+Saenko, ECCV 2016]

• 「積」グループ例 双線形積とフーリエ変換を組み合わせる[Fukui+, EMNLP 2016]

• 「和」と「積」のハイブリッド例 要素毎の積と要素毎の和を直列に並べる[Saito+, ICME 2017]

𝑧 𝐼+𝑄=¿𝑥𝐼𝑥𝑄

𝑥𝐼 𝑥𝑄

𝑥𝐼 𝑥𝑄𝑧 𝐼+𝑄=¿

𝑧 𝐼+𝑄=¿

𝑧 𝐼+𝑄=¿𝑥𝐼 𝑥𝑄𝑥𝐼 𝑥𝑄

Page 58: Deep Learning による視覚×言語融合の最前線

VQA Challengeコンペティション参加チームの解答例から

Q: What is the woman holding?GT A: laptopMachine A: laptop

Q: Is it going to rain soon?GT A: yesMachine A: yes

Page 59: Deep Learning による視覚×言語融合の最前線

VQA Challengeコンペティション参加チームの解答例から

Q: Why is there snow on one side of the stream and clear grass on the other?GT A: shadeMachine A: yes

Q: Is the hydrant painted a new color?GT A: yesMachine A: no

Page 60: Deep Learning による視覚×言語融合の最前線

視覚・言語融合の最前線 5キャプションからの画像生成

Page 61: Deep Learning による視覚×言語融合の最前線

キャプションを入力して画像を生成

文から鮮明な画像の生成を実現↑難しいタスク (下は [Mansimov+, ICLR 2016] の例)

※ 画像の切り貼りは以前から [Hays+Efros, SIGGRAPH 2007]

Page 62: Deep Learning による視覚×言語融合の最前線

文からの画像生成=条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

      はお前が生成したな!

Page 63: Deep Learning による視覚×言語融合の最前線

文からの画像生成=条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

      はお前が生成したな!

Page 64: Deep Learning による視覚×言語融合の最前線

文からの画像生成=条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

      はお前が生成したな!

Page 65: Deep Learning による視覚×言語融合の最前線

文からの画像生成=条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

      はお前が生成したな!

Page 66: Deep Learning による視覚×言語融合の最前線

文からの画像生成=条件つき生成

まずは… Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

学習が進むと:

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

むむむ…

Page 67: Deep Learning による視覚×言語融合の最前線

文で生成結果を変えるには

Generator と Discriminator に文を加える

・自然な画像・文に沿った画像を生成しようとする

・不自然な画像・文に合わない画像を識別しようとする

Page 68: Deep Learning による視覚×言語融合の最前線

生成できた画像の例

• 鳥 (CUB)/ 花 (Oxford-102) データセット–約 1万の鳥 / 花画像と 5 キャプション / 画像– 200種類の鳥 /102種類の花

A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch

Bright droopy yellow petals with burgundy streaks, and a yellow stigma

Page 69: Deep Learning による視覚×言語融合の最前線

その後の展開

StackGAN [Zhang+, 2016]

• 2段階の GAN からなるモデル• 1段目でぼやっとした画像を生成、 2段目で高解像 +詳細

Page 70: Deep Learning による視覚×言語融合の最前線

キャプションからの画像生成

This bird is blue with white and has a very short beak.

( この鳥は白の入った青色で、とても短いくちばしをもっています。 )

This flower is white and yellow in color, with petals that are wavy and smooth.

( この花は白と黄色で、波打った滑らかな花びらをもっています。 )

[Zhang+, 2016]

Page 71: Deep Learning による視覚×言語融合の最前線

キャプションからの画像生成

This bird is blue with white and has a very short beak.

( この鳥は白の入った青色で、とても短いくちばしをもっています。 )

This flower is white and yellow in color, with petals that are wavy and smooth.

( この花は白と黄色で、波打った滑らかな花びらをもっています。 )

[Zhang+, 2016]

鳥 / 花に特化したデータセットでの結果→ 一般的な画像を生成するにはより一層のブレイクスルーが必要

Page 72: Deep Learning による視覚×言語融合の最前線

まとめ

• Deep Learning による視覚・言語融合を俯瞰1. 画像キャプション生成2. 動画キャプション生成3. 言語横断4. 画像に関する質問への応答5. キャプションからの画像生成

• Deep Learning の貢献– 上記研究課題自体は Deep Learning 以前も存在– 画像、動画、自然言語処理技術の共通化– 認識と生成の精緻化

視覚 × 言語の新たなステージへ