20140306 ibisml

45
大阪大学 産業科学研究所 / 科学技術振興機構(さきがけ) Email: [email protected] Web: http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/ 河原 吉伸 劣モジュラ性を用いた機械学習 入門と最近の話題 16IBISML研究会 (201437日)

Transcript of 20140306 ibisml

Page 1: 20140306 ibisml

大阪大学 産業科学研究所

/ 科学技術振興機構(さきがけ)

Email: [email protected] Web: http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/

河原 吉伸

劣モジュラ性を用いた機械学習

—― 入門と最近の話題 —―

第16回 IBISML研究会 (2014年3月7日)

Page 2: 20140306 ibisml

集合関数と劣モジュラ性

  劣モジュラ性: 連続関数の凸性に対応する集合関数の構造 –  連続の場合同様、(大域最適=局所最適)や双対性,分離定

理などの有用な性質を持つ.

2

凸性(連続関数) 劣モジュラ性(集合関数)

自然に 現れる構造

対応する概念

効率的なアルゴリズム 構築に有用な構造

1

2 3

4 5

6 7 部分集合 実数値

集合関数 f V

f(S) + f(T ) f(S \ T ) + f(S [ T )

(S, T V)

Page 3: 20140306 ibisml

本講演の構成

  集合関数最適化と連続関数最適化,各々として定式化される機械学習における劣モジュラ性の利用について順に述べる:

3

集合関数最適化として定式化される機械学習

連続関数最適化として定式化される機械学習

(Lovász拡張,基多面体)

(前半)

劣モジュラ性の利用

(後半)

(スライド) http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/submo_ibisml16.pdf

Page 4: 20140306 ibisml

講演の内容

(前半)   劣モジュラ性の基本的事項 1 (定義)   機械学習における代表的な例 1 (集合関数最適化)

–  貪欲法の適用(劣モジュラ最大化としての定式化) –  グラフカットとエネルギー最小化(MRFにおける推論)

(後半)   劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)   機械学習における代表的な例 2 (連続関数最適化)

–  構造正則化学習における劣モジュラ最適化 (劣モジュラ多面体上での最適化)

  その他の最近の話題

4

Page 5: 20140306 ibisml

劣モジュラ性の定義(1)

  次式を満たす集合関数(つまり        )を劣モジュラ関数と呼ぶ(               ):

5

i large imp.

small imp.

Diminishing Returns (規模の経済性,限界効用逓減の法則など)

f : 2V! R

f(S + i) f(S) f(T + i) f(T )

*) –f が劣モジュラ関数のとき,f は優モジュラ関数と呼ぶ.

S T V , i 2 V \ T

Page 6: 20140306 ibisml

劣モジュラ性の定義(2) 6

SERVER

LAB

KITCHEN

COPYELEC

PHONEQUIET

STORAGE

CONFERENCE

OFFICEOFFICE

Y2

‘large’ imp.

Yi

SERVER

LAB

KITCHEN

COPYELEC

PHONEQUIET

STORAGE

CONFERENCE

OFFICEOFFICE

Location S = Y1,Y2

Y1 Y2 Y1

Y3

Y4

Y5

* From IJCAI09 tutorial “Intelligent Information Gathering and Submodular Function Optimization”

Location S = Y1,Y2,Y3,Y4,Y5

‘small’ imp.

観測ノイズの分散低減: ( :センサ配置可能箇所)

観測に伴う ノイズの分散

f(S) := V ar(;) V ar(S) V

f(S + i) f(S) f(T + i) f(T ) i

Page 7: 20140306 ibisml

劣モジュラ性の定義(3)

  任意の に対して,次式を満たす:

  Lovász拡張(後述) が凸.

  その他,劣モジュラ性の等価な定義が複数知られている ((Lovász,1983), (Fujishige,2005), (Bach,2013) などを参照).

7

f(S) + f(T ) f(S \ T ) + f(S [ T )

S, T V

f : RV ! R

これらについても後ろでふれます.

Page 8: 20140306 ibisml

劣モジュラ関数の例(1)

  情報理論やグラフ理論,ゲーム理論,経済学,人工知能分野等,多くの数理工学や社会科学の分野において頻繁に見られる. –  情報理論: (同時)エントロピー,相互情報量,情報利得 –  グラフ理論: カット関数,ネットワークのカット容量,マトロイド

のランク関数 –  その他: 経済分野における効用関数(優モジュラ関数),被覆

関数,正定値対称行列の行列式,自乗重相関係数(負の自乗誤差),Convex Gameなど

8

Page 9: 20140306 ibisml

劣モジュラ関数の例(2) 9

カット関数:

被覆関数:

1

2

3

4

5 f(S) =X

ce : e 2 E(S,V \ S) (S V)f(1, 2) = 3

エッジ e 上の重み

端点が と に含まれるエッジの集合

S V \ S

f(1, 2) = 8

f(S) =X

cu : u 2 [i2SSi (S V)

各点上の重み

V = S1, S2, S3

Page 10: 20140306 ibisml

その他の劣モジュラ性の性質

  その他に重要な劣モジュラ性に関連した概念として,講演中では以下のものにふれる予定です:

–  Lovász拡張: •  集合関数の連続緩和の一つ.劣モジュラ性と凸性の関係を表す

重要な概念であり,様々な場面で数理的基礎として用いられる.

–  基多面体,劣モジュラ多面体: •  劣モジュラ関数を,等価な線形制約の組(つまり多面体)として

表現したもの.劣モジュラ関数最適化を,等価な制約付き最適化として考える際などに有用.

10

Page 11: 20140306 ibisml

機械学習における劣モジュラ最適化 11

劣モジュラ最小化

劣モジュラ最大化

離散DC計画問題

制約付き劣モジュラ最小化

(劣モジュラ最適化問題)

問題自体の難しさ

(N

P困

難)

対応する 連続最適化

凸最小化

凸最大化 DC計画

関連する代表的な問題例

クラスタリング,グラフ構造の学習,構造正則化学習

最密部分グラフ問題

(l0正則化)特徴選択 能動学習, ノンパラ推定

エネルギー最小化

Page 12: 20140306 ibisml

講演の内容

(前半)   劣モジュラ性の基本的事項 1 (定義)   機械学習における代表的な例 1 (集合関数最適化)

–  貪欲法の適用(劣モジュラ最大化としての定式化) –  グラフカットとエネルギー最小化(MRFにおける推論)

(後半)   劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)   機械学習における代表的な例 2 (連続関数最適化)

–  構造正則化学習における劣モジュラ最適化 (劣モジュラ多面体上での最適化)

  その他の最近の話題

12

Page 13: 20140306 ibisml

劣モジュラ関数の最大化

  機械学習の問題の中には,(サイズ制約下での)劣モジュラ関数の最大化として定式化されるものが多数存在する:

13

max

SVf(S) s.t. |S| k

劣モジュラ関数

ノンパラ推定 (Reed & Ghahramani, 2013)

能動学習 (Hoi+ 2006), (Chen & Krause, 2013)

文章要約 (Lin & Bilmes, 2010)

(k 0)

サイズ制約の場合の 貪欲法による近似率 (Nemhauser+ 1978)

ナップサック制約の 場合の近似率 (Lee+ 2009)

[代表的な関連研究]

2005 2013

グラフマイニング (Thoma+ 2009)

センサ配置 (Krause & Guestrin, 2005), (Krause+ 2008)

特徴選択 (Das & Kempe, 2008)

2010 1978

Page 14: 20140306 ibisml

劣モジュラ最大化と貪欲法

  劣モジュラ最大化は,貪欲法により良い近似解が得られる:

14

貪欲法を適用 max

SVf(S) s.t. |S| k 近似解

最悪の場合でも,最適解の(1-1/e) 倍の解が得られる (Nemhauser+ 1978)

(1 1/e) 0.68

1. , に設定. 2. の間,以下の手順を繰り返す:

a). 残りの要素( )内で,最も関数値を増やすものを選択: b). , .

i 1 S0 ;貪欲法の手順:

V \ Si1

Si Si1 [ ei

|Si| < k

i i+ 1

(単調)劣モジュラ関数

ei = argmax

e2V\Si1

f(Si1 [ e) f(Si1)

Page 15: 20140306 ibisml

劣モジュラ最大化と貪欲法

  劣モジュラ最大化は,貪欲法により良い近似解が得られる:

15

貪欲法を適用

(単調)劣モジュラ関数

max

SVf(S) s.t. |S| k 近似解 (1 1/e) 0.68

•  例えば,Accelerated貪欲法 (Minout, 1978) の適用により,実用的にはより高速に,貪欲法と同様の解を得る事ができる.

最悪の場合でも,最適解の(1-1/e) 倍の解が得られる (Nemhauser+ 1978)

その他にも,いくつかの貪欲法が提案されている.また非単調な場合は,近似率がわるくなる (例えば,(Krause, 2012)を参照).

Page 16: 20140306 ibisml

具体的な問題例(特徴選択)

  L0ノルムを用いた正則化による特徴選択:

  劣モジュラ関数の最大化として定式化可能 (Das & Kempe, 2008) :

1. という集合関数を定義. 2. 最大化する集合関数:

16

L0ノルム (非ゼロ要素の数)

minw2RV

1

n

nX

i=1

yi w

>xi

22

s.t. kwk0 k

f(S) := g(;) g(S)

:集合 に対応する の部分ベクトル : を用いた場合の最小自乗推定パラメータ

xSwS

S x

xS

g(S) := 1

n

nX

i=1

yi w

>S xi,S

22

Page 17: 20140306 ibisml

具体的な問題例(文書要約)(1) 17

max

SVf(S) s.t.

X

i2Sci b

劣モジュラ性を満たす (Lin & Bilmes, 2010).

各文内のコスト(文字数など)

(ナップサック制約)

新しい文を加えたときの限界効用は徐々に小さくなる.

(文章) (文章)

Page 18: 20140306 ibisml

具体的な問題例(文書要約)(2)

  評価関数としては, –  被覆関数

–  Maximal Margin Relevance (Carbonell & Goldstein, 1998)

⇒ 非単調な劣モジュラ関数

–  Rouge-N (Lin, 2004)

⇒ 単調な劣モジュラ関数

–  Rewarded被覆関数 (Lin & Bilmes, 2011)

⇒ 単調な劣モジュラ関数

18

Page 19: 20140306 ibisml

講演の内容

(前半)   劣モジュラ性の基本的事項 1 (定義)   機械学習における代表的な例 1 (集合関数最適化)

–  貪欲法の適用(劣モジュラ最大化としての定式化) –  グラフカットとエネルギー最小化(MRFにおける推論)

(後半)   劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)   機械学習における代表的な例 2 (連続関数最適化)

–  構造正則化学習における劣モジュラ最適化 (劣モジュラ多面体上での最適化)

  その他の最近の話題

19

Page 20: 20140306 ibisml

マルコフ確率場モデルにおける推論(1) 20

xi

yi

Pr(x) =

1

Z

exp

2

4X

(i,j)2E

ij(xi, xj)

3

5

元の画像

観測画像 y

x

MRF事前分布

Page 21: 20140306 ibisml

マルコフ確率場モデルにおける推論(2)

  最大事後確率(MAP)推定:

21

観測

unary terms pairwise terms

格子状グラフ 上での0、または1の割り当て. G = (V, E)

ˆ

x = argmax

x20,1VPr(x|y)

= argmax

x20,1V

Y

i2VPr(yi|xi) Pr(x)

= argmax

x20,1V

X

i2Vlog[Pr(yi|xi)] + log[Pr(x)]

= argmin

x20,1V

X

i2Vi(xi) +

X

(i,j)2E

ij(xi, xj)

xi xj

ij

エネルギー最小化

Page 22: 20140306 ibisml

  しかし, が劣モジュラ性を満たすときは“効率的に”計算可能.

グラフカットとの関係(1) 22

劣モジュラ性:

⇒ 一般に「NP困難」

ij

から容易に導ける:

ij(1, 0) + ij(0, 1) ij(1, 1) + ij(0, 0)

f(S) + f(T ) f(S \ T ) + f(S [ T ) (S, T V)

・ (とそれ同等の場合)以外の場合は明らか.

・ 上記の場合は,次のようになる:

S = i, T = j

f(S \ T ) = f(;) , ij(0, 0) f(S [ T ) = f(V) , ij(1, 1),

minx20,1V

X

i2Vi(xi) +

X

(i,j)2E

ij(xi, xj)

スムースネス

Page 23: 20140306 ibisml

グラフカットとの関係(2)

  図のように構成したs/t-グラフ上での,カット関数の最小化問題と等価である事が知られている (Boykov+ 2001).

23

s

t

ij(0, 1) xi

xj

ij(1, 0)

(source)

(sink) i(1)

とにかく早く解ける! (画像処理分野では 頻繁に使われている)

最大流アルゴリズムで計算可能 (最小カット・最大流定理)

i(0)

Page 24: 20140306 ibisml

グラフカットとの関係(3)

  カット関数は,高速に最小化可能な,劣モジュラ関数の部分クラス(2次の劣モジュラ関数):

24

グラフカット

( :エッジ数, :関数評価)

劣モジュラ関数 O(|V|5EO+ |V|6)

O(|V|m log(|V|2/m))

など

(Goldberg & Tarjan, 1986)

(Orlin 2009)

高速に解ける より広いクラスは?

最小化の計算量

*) 理論的な計算量は未知だが,実用的には比較的高速な劣モジュラ最小化アルゴリズムは存在する(最小ノルム点アルゴリズム (Fujishige+ 2006)).

Page 25: 20140306 ibisml

一般化グラフカット(1)

  最大流アルゴリズムで解けるより一般の関数* (Jegelka+ 2011, Nagano & Kawahara, 2013)

25

f(S) = minAU

Xce : e 2 outG (s [ S [A)

s t

1

2

3

u1 u2 u3

V

ノードから外に向かうエッジ 各エッジのキャパシティ

U

実用的な問題に現れる 劣モジュラ関数の多くは, この形になっている.

ノード を追加した場合のカット関数と等価

U

Page 26: 20140306 ibisml

一般化グラフカット(2)

  例). 分解可能劣モジュラ関数(Stobbe & Krause, 2010):

26

f(S) = d(S) +kX

i=1

minyi,w(i)(S) (S V)

正実ベクトル 正実数 非負実ベクトル

*) より一般の形は,コンピュータ・ビジョン分野の文献に見られる((Kohli+2009)など).

|S|

yi

minyi,w(i)(S)

t u2

u3

V U

s

u1

1

2

3

4

d1 y1

w(1)1

Page 27: 20140306 ibisml

講演の内容

(前半)   劣モジュラ性の基本的事項 1 (定義)   機械学習における代表的な例 1 (集合関数最適化)

–  貪欲法の適用(劣モジュラ最大化としての定式化) –  グラフカットとエネルギー最小化(MRFにおける推論)

(後半)   劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)   機械学習における代表的な例 2 (連続関数最適化)

–  構造正則化学習における劣モジュラ最適化 (劣モジュラ多面体上での最適化)

  その他の最近の話題

27

Page 28: 20140306 ibisml

Lovász拡張

  集合関数 f の連続関数への緩和の一つ (Lovász (1983)):

(定義) 任意の実ベクトル の要素の値を大きい順に と並べたとき,任意の集合関数 f に対して,Lovász拡張 f は 次のように定義される :

28

集合関数 f は,そのLovasz拡張 f が凸でありかつその時のみ,劣モジュラである

定理 (Lovász,1983)

p 2 Rn

p1 > p2 > · · · > pm^

(Uk = i 2 V : pi pk)

f(p) =m1X

k=1

(pk pk+1) f(Uk) + pm f(Um)

^

Page 29: 20140306 ibisml

Lovász拡張

  集合関数 f の連続関数への緩和の一つ (Lovász (1983)):

29

における f  1. の要素を降順に並べる. 2. 定義に従って,

p1 = 0.6 > p2 = 0.2

例) |V| = 2. f(;) = 0, f(1) = 0.8, f(2) = 0.5, f(V) = 0.2

p

(U1 = 2, U2 = 1, 2)

p = (0.2, 0.6) ^

f(p) =(0.6 0.2) f(2)+ 0.2 f(V) = 0.24

Page 30: 20140306 ibisml

基多面体,劣モジュラ多面体

  劣モジュラ関数から定義される線形制約の集合(多面体構造)

30

P (f) = x 2 RV : x(S) f(S) (8S V)

B(f) = x 2 RV : x 2 P (f),x(V) = f(V)

劣モジュラ多面体:

基多面体:

x1

x2

P (f)

B(f)

の場合 |V| = 2 の場合 |V| = 3

x1

x2

B(f)P (f)

x3 (最大) 個の 線形制約で表される

22 1 = 3(最大) 個の 線形制約で表される

23 1 = 7

Page 31: 20140306 ibisml

講演の内容

(前半)   劣モジュラ性の基本的事項 1 (定義)   機械学習における代表的な例 1 (集合関数最適化)

–  貪欲法の適用(劣モジュラ最大化としての定式化) –  グラフカットとエネルギー最小化(MRFにおける推論)

(後半)   劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)   機械学習における代表的な例 2 (連続関数最適化)

–  構造正則化学習における劣モジュラ最適化 (劣モジュラ多面体上での最適化)

  その他の最近の話題

31

Page 32: 20140306 ibisml

構造正則化学習における劣モジュラ最適化(1)

  構造正則化学習: 問題が持つ組合せ的構造を,正則化項として与える事で,事前情報の利用を可能にする学習の枠組み.

32

グラフ構造 グループ構造

階層構造

Sparsity patterns induced for L(w) + (w)

Lasso: (w) =P

i |wi |

Group Lasso (Yuan and Lin, 2006): (w) =P

g2G kwgk

Group Lasso when groups overlap: (w) =P

g2G kwgk

The support obtained is

An intersection of the complements of the groups set to 0 (cf. Jenatton et al.(2009))

Not a union of groups

Sparsity tutorial II, ECML 2010, Barcelona 36/69

損失関数 学習モデル モデル・パラメータ (索引集合が )

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · (w)

学習毎に定義される損失項:

こういった変数間の 組合せ的な構造を 正則化項として組込む

構造正則化項:

V

その他,有向グラフ上のパスや,2次元グリッド上でのブロック構造など.

Page 33: 20140306 ibisml

構造正則化のイメージ

  正則化は,必ずしも変数間で均一にする必要はない:

33

Unit norm ballsGeometric interpretation

∥w∥2 ∥w∥1!

w21 + w2

2 + |w3|

x1とx2は同時に0になりやすい

(図はF.BachのMLSS’12におけるスライドより)

このような変数毎への正則化の加え方を工夫して構造を正則化へ組み込める

Page 34: 20140306 ibisml

適用例(背景切り出し)(1)

  画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011):

34

テスト画像(y) 推定された背景

背景画像の推定

mina2RN ,e2Rd

1

2ky Xa ek22 + (a)

… …

訓練ビデオ・シーケンス(X)

(N フレーム)

Page 35: 20140306 ibisml

適用例(背景切り出し)(2)

  画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011):

35

L1正則化 (Olshausen & Field, 1996)

CONVEX AND NETWORK FLOW OPTIMIZATION FOR STRUCTURED SPARSITY

(a) Original frame. (b) Estimated background with Ω. (c) ℓ1, 87.1%.

(d) ℓ1+ Ω (non-overlapping), 96.3%. (e) ℓ1+Ω (overlapping), 98.9%. (f) Ω, another frame.

(g) Original frame. (h) Estimated background with Ω. (i) ℓ1, 90.5%.

(j) ℓ1+ Ω (non-overlapping), 92.6%. (k) ℓ1+Ω (overlapping), 93.8%. (l) Ω, another frame.

Figure 4: Background subtraction results. For two videos, we present the original image y, theestimated background (i.e., Xw) reconstructed by our method, and the foreground (i.e., the sparsitypattern of e as a mask on the original image) detected with ℓ1, ℓ1+ Ω (non-overlapping groups) andwith ℓ1+Ω. Figures (f) and (l) present another foreground found with Ω, on a different image, withthe same values of λ1,λ2 as for the previous image. Best seen in color.

2703

CONVEX AND NETWORK FLOW OPTIMIZATION FOR STRUCTURED SPARSITY

(a) Original frame. (b) Estimated background with Ω. (c) ℓ1, 87.1%.

(d) ℓ1+ Ω (non-overlapping), 96.3%. (e) ℓ1+Ω (overlapping), 98.9%. (f) Ω, another frame.

(g) Original frame. (h) Estimated background with Ω. (i) ℓ1, 90.5%.

(j) ℓ1+ Ω (non-overlapping), 92.6%. (k) ℓ1+Ω (overlapping), 93.8%. (l) Ω, another frame.

Figure 4: Background subtraction results. For two videos, we present the original image y, theestimated background (i.e., Xw) reconstructed by our method, and the foreground (i.e., the sparsitypattern of e as a mask on the original image) detected with ℓ1, ℓ1+ Ω (non-overlapping groups) andwith ℓ1+Ω. Figures (f) and (l) present another foreground found with Ω, on a different image, withthe same values of λ1,λ2 as for the previous image. Best seen in color.

2703

グループ正則化

重なりを持つ全(3×3)パッチをグループと設定

(98.9%) (87.1%)

(w) =X

g2Gkwgk2

Page 36: 20140306 ibisml

構造正則化学習における劣モジュラ最適化(3)

  構造正則化項の多くは,劣モジュラ関数のLovász拡張(及びその緩和)で表される (Bach, NIPS’10-11).

36

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · (w)

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · f(w)

が構造正則化項の場合

劣モジュラ関数のLovász拡張

(w)

Page 37: 20140306 ibisml

Lovász拡張による正則化項の例

(一般化) Fused正則化: 各変数をノードとするグラフ 上で,隣接する変数の値は近くなるように正則化を行う.

37

隣接する変数に関する係数が近い値になる

G = (E ,V)

(w) =X

(i,j)2E

aij |wi wj |

(一般化)Fused正則化項:

= (等価)

カット関数のLovász拡張:

f(S) =X

aij : i 2 S, j 2 V \ S

隣接行列の要素

Page 38: 20140306 ibisml

Lovász拡張による正則化項の例

グループ正則化: 変数上に,グループ構造 (各要素が の部分集合)が与えられたときに,各グループ内の変数が同時にゼロになりやすくなるような正則化.

38

Sparsity patterns induced for L(w) + (w)

Lasso: (w) =P

i |wi |

Group Lasso (Yuan and Lin, 2006): (w) =P

g2G kwgk

Group Lasso when groups overlap: (w) =P

g2G kwgk

The support obtained is

An intersection of the complements of the groups set to 0 (cf. Jenatton et al.(2009))

Not a union of groups

Sparsity tutorial II, ECML 2010, Barcelona 36/69

グループ内のものは同時に ゼロになりやすい.

G V

(L∞)グループ正則化項:

= (等価)

被覆関数のLovász拡張:

f(S) =X

dg : g 2 G, g \ S 6= ;

(w) =X

g2Gdgkwgk1

Page 39: 20140306 ibisml

近接勾配法による最適化

  構造正則化学習における最適化は,微分不可能な凸最小化であるため,一般に,近接勾配法を適用する事が多い.

39

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · f(w)

微分不可能な凸関数 微分可能な凸関数

近接勾配法における更新:

勾配法 近接法

の計算へ帰着される. minw2Rd

1

2kuwk22 + · (w) (u 2 Rd)

Page 40: 20140306 ibisml

最小ノルム点問題への帰着

  Proximal Operatorの計算は,最小ノルム点問題の計算と等価(一種の双対)である事が示される (Bach, 2013):

40

min

w2Rd

1

2

kuwk22 + · ˆf(w) = min

w2Rdmax

s2B(f)

1

2

kuwk22 + ·w>s

= max

s2B(f)min

w2Rd

1

2

kuwk22 + ·w>s

= max

s2B(f)

1

2

kuk22 1

2

k · s uk22

劣モジュラ多面体

劣モジュラ関数 の基多面体上の最小ノルム点の計算

⇒ 最小ノルム点アルゴリズムの適用

mint2B(f1u)

ktk22f(S) 1u(S)

w = t

(Lovász拡張の定義)

Page 41: 20140306 ibisml

パラメトリック最適化(1)

  (分離凸項+Lovász拡張)最小化は,基多面体上での(正規化)ノルム最小化と等価(Nagano&Aihara,2012),(Nagano&Kawahara,2013):

41

パラメトリック劣モジュラ関数最小化として効率的に解く事ができる

minx2B(f)

X

i2V

x

2i

biminw2Rd

X

i2V (wi) + f(w)

凸関数

minSV

f(S) ↵ · b(S) ↵ 0for all

(; =) S0 S1 · · · Sl (= V) x

i =

f(Sj+1) f(Sj)

b(Sj+1 \ Sj)· bi

各 に対する解 ↵

[0,↵1) [↵1,↵2) [↵l,+1)

(全体として,微分不可能な凸)

(制約が滑らかでない凸)

Page 42: 20140306 ibisml

パラメトリック最適化(2)

  特に,関数 f が一般化グラフカット関数の場合,パラメトリック最大流アルゴリズム((Gallo+ 1989)など)で高速に計算できる:

⇒ 例えば,多くの構造正則化はこれに含まれる.

42

minSV

f(S) ↵ · b(S)

s t

1

2

3

u1 u2 u3

V

U

計算量は最大流計算と同様

↵ b1

↵ b2

↵ b3

O(|V [ U|m log(|V [ U|2/m))

Page 43: 20140306 ibisml

数値例(一般化Fused正則化)

  パラメトリック最適化(パラメトリック最大流)として一般化Fused正則化を扱うと,著しい計算速度の向上が得られる. ⇒ 高解像度な画像の処理などへも適用可能になる.

43

CONVEX AND NETWORK FLOW OPTIMIZATION FOR STRUCTURED SPARSITY

(a) Original frame. (b) Estimated background with Ω. (c) ℓ1, 87.1%.

(d) ℓ1+ Ω (non-overlapping), 96.3%. (e) ℓ1+Ω (overlapping), 98.9%. (f) Ω, another frame.

(g) Original frame. (h) Estimated background with Ω. (i) ℓ1, 90.5%.

(j) ℓ1+ Ω (non-overlapping), 92.6%. (k) ℓ1+Ω (overlapping), 93.8%. (l) Ω, another frame.

Figure 4: Background subtraction results. For two videos, we present the original image y, theestimated background (i.e., Xw) reconstructed by our method, and the foreground (i.e., the sparsitypattern of e as a mask on the original image) detected with ℓ1, ℓ1+ Ω (non-overlapping groups) andwith ℓ1+Ω. Figures (f) and (l) present another foreground found with Ω, on a different image, withthe same values of λ1,λ2 as for the previous image. Best seen in color.

2703

グループ正則化

さらに改善

一般化Fused正則化

隣接する画素を結ぶエッジを持つグラフ(格子状)を用いたFused正則化+L1

(w) = 1|w|+ 2

X

(i,j)2E

aij |wi wj |

Page 44: 20140306 ibisml

その他の最近の話題

  双劣モジュラ関数,k-劣モジュラ関数の利用 (Kolmogorov, 2010), (Kolmogorov, 2011), (Singh+ 2012), (Hirai, 2013)

  一般の離散凸関数の利用 (Murota, 2003) (教科書的な本), (Kolmogorov & Shioura, 2009)

  離散的な情報論的尺度など (Steudel+ 2010), (Iyer & Bilmes, 2013)

  コンピュータ・ビジョン(Kolmogorov, Boykov, Kohliら多数)や機械学習/データマイニングの様々な問題(クラスタリング (Narasimhan+2006)

(Nagano+2011),構造学習(Narasimhan & Bilmes, 2004), (Checketka & Guestrin, 2008),ネットワーク上の影響伝播問題(Kempe+2003), (Gomez-Rodriguez & Sholkopf, 2012),

マーケティング(Hartline+2008),オンライン学習(Hazan&Kale,2009) など)へ応用が行なわれている.

44

Page 45: 20140306 ibisml

最後に

  劣モジュラ性は,概念・理論としては,アルゴリズムの設計や解析に極めて有用なツール.

  ただし実用的には,一般の劣モジュラ最適化アルゴリズムは使えるかは微妙なところ 😅

  従って応用を考える際には, –  効率的に解けないクラスの場合は,高速な近似アルゴリズム

が存在する問題へ定式化できないか考える(例.劣モジュラ最大化における貪欲法)

–  効率的に解けるクラスの場合は,実用的にも高速に解けるサブクラスがないかを考える(例.劣モジュラ最小化における(パラメトリック)最小カット)

というスタンスが良いかなと思います.

45