[DL輪読会]Let there be color

35
Let there be color!: Joint End-to- end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification GCI 期期 期期期期

Transcript of [DL輪読会]Let there be color

Let there be color!: Joint End-to-end Learning of Global and Local Image Priors

for Automatic Image Colorization with Simultaneous Classification

GCI 2期生 篠原義明

ディープネットワークを用いた大域特徴と局所特徴の学習による白黒写真の自動色付けGCI 2期生 篠原義明

Contents•Abstract•Model•Experimetal Results & Discussions•Additional

Why this paper?• 選定理由:• 古い白黒写真に色をつけることにもともと興味があった。

• 著者:飯塚里志 *   シモセラ エドガー *   石川博(早稲田大学)• SIGGRAPH2016 で発表?

Purpose白黒の画像を彩色する。

Related Works• ユーザの入力と試行錯誤でに依存するモデル( [Xu et al.

2013], [Chen et al. 2012] )• 入力に対して参考となる画像をユーザが選択する必要があるモデル ([Gupta et al. 2012], [Charpiat et al. 2008])• [Liu et al. 2008] は web 検索を利用しているがユーザはクエリを入力する必要がある

• 最新のもの [Cheng et al. 2015] は training が小さいかつ性能の高いセグメンテーションモデルを要求するため、セグメンテーションクラスが現れない画像に対しては性能が低い提案手法は end-to-end

Feature of Model・大域特徴(状況)と局所特徴(状況を所与としたテクスチャや物体)を結合させて利用・画像の色とラベルを用いて大域的特徴を効率的に学習・解像度に関係なく利用可能・ユーザに依る介入(パラメータ調整など)が不要・ end-to-end に学習が可能・ Style transfer が可能

・評価はユーザテストに依った

Contents•Abstract•Model•Experimetal Results & Discussions•Additional

Model Structure• 低レベル特徴ネットワーク• 中レベル特徴ネットワーク• 大域特徴ネットワーク• 色付けネットワークで構成される。白黒画像を入力→ 1/2 サイズの彩度画像を出力彩度画像を 2 倍にスケーリングし,入力画像と統合してカラー画像を生成する。

Low-Level Features Network ( FCN)

・ Max pooling の代わりにストライドを広げた Conv. Layer を使用・ 1x1 padding でサイズを維持・活性化関数は Sigmoid

224x224

Global Features Network

・ Low-level features network の入力は 224x224 である必要がある。

Mid-Level Features Network ( FCN )

・出力は w/8 x h/8 x 256

512 256

Fusion Layer各座標( u, v )毎に

256x1

256x1

256x512256x1

Y^fusion = W/8 x H/8 x 256

Colorization Network• CIE L*a*b* 色空間(明度 * 補色 * 補色)• a*, b* は [0,1] に正規化• アウトプットを x 2にアップサンプルし、 MSE を用いて Back prop.

Classification network• 画像のグローバルな情報を学習しないため明らかな間違えが起きる。これを防ぐためにコンテクストを判定させる。

N =205

512

相対的な重み1/300 for training

Frobenius norm

誤差関数:

Learning• Places Scene Dataset[Zhou et al. 2014] を 244x244 に前処理• 状況のクラスは 205 個• 256x256 にリサイズし、ランダムにクロッピングと左右反転• ネットワーク全体で Batch normalization• ADADELTA で最適化• 128batch for 200,000 iter.

Contents•Abstract•Model•Experimetal Results & Discussions•Additional

Colorisation Results (再掲)

Evaluation• 最新の手法とベースラインモデルと比較人の目に依る評価• ベースラインモデル

Conv.

Comparison with State of the Artレンガの色岩と海の色遠景の山の色

User Study

224x224 の画像を被験者に見せて自然かどうかを聞いた。

Do we need Global Features?Features Without Global Features

前頁の結果はこの様な画像に依るものと考えられる。

Style Transfer

・ Global feature への入力元画像を変えることでStyle transfer を実現。・入力にはグレースケール画像のみを使用してもStyle transfer が出来ている。

Dawn Dusk

Spring Fall Fall

Daytime

Colorizing The Past古い白黒画像を入力すると加えられた修正や輪郭に関わらず・・・

Classification・グレースケール画像を与えた時の分類精度を先行研究と比較・分類特化の手法と比べても高精度

Color Space Selection

RGB と YUV と L*a*b* 色空間の 3 つを試した

上記画像ではどれもかなり似ているがより難しいタスクにおいてはL*a*b* 色空間が最もそれらしかった。

LImitations・当然学習に使われていないタイプの画像には対応できない・ Style Tranfer は類似の Semantic Level のものでないと良い結果は出ない。・そもそも色付は本質的に曖昧な問題( Global feature を設定する以外ユーザは操作出来ない)

このようなものは白黒画像だけからでは人間もわからない

Contents•Abstract•Model•Experimetal Results & Discussions•Additional

Application

Application

Application

Nexthttp://hi.cs.waseda.ac.jp/~esimo/ja/research/sketch/

Appeindex

Computation Time

リアルタイムに近い計算が可能