20140306 ibisml

大阪大学産業科学研究所

/ 科学技術振興機構(さきがけ)

Email: [email protected] Web: http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/

河原吉伸

劣モジュラ性を用いた機械学習

—― 入門と最近の話題 —―

第16回 IBISML研究会（2014年3月7日）

集合関数と劣モジュラ性

  劣モジュラ性：連続関数の凸性に対応する集合関数の構造 –  連続の場合同様、（大域最適＝局所最適）や双対性，分離定

理などの有用な性質を持つ．

2

凸性（連続関数）劣モジュラ性（集合関数）

自然に現れる構造

対応する概念

効率的なアルゴリズム構築に有用な構造

1

2 3

4 5

6 7 部分集合実数値

集合関数 f V

f(S) + f(T ) f(S \ T ) + f(S [ T )

(S, T V)

本講演の構成

  集合関数最適化と連続関数最適化，各々として定式化される機械学習における劣モジュラ性の利用について順に述べる：

3

集合関数最適化として定式化される機械学習

連続関数最適化として定式化される機械学習

（Lovász拡張，基多面体）

（前半）

劣モジュラ性の利用

（後半）

（スライド） http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/submo_ibisml16.pdf

講演の内容

（前半）   劣モジュラ性の基本的事項 1 (定義)   機械学習における代表的な例 1 (集合関数最適化)

–  貪欲法の適用（劣モジュラ最大化としての定式化） –  グラフカットとエネルギー最小化（MRFにおける推論）

（後半）   劣モジュラ性の基本的事項 2 (Lovász拡張，基多面体)   機械学習における代表的な例 2 (連続関数最適化)

–  構造正則化学習における劣モジュラ最適化（劣モジュラ多面体上での最適化）

  その他の最近の話題

4

劣モジュラ性の定義（1）

  次式を満たす集合関数（つまり　　　　　　　　）を劣モジュラ関数と呼ぶ（　　　　　　　　　　　　　　）：

5

i large imp.

small imp.

Diminishing Returns （規模の経済性，限界効用逓減の法則など）

f : 2V! R

f(S + i) f(S) f(T + i) f(T )

*) –f が劣モジュラ関数のとき，f は優モジュラ関数と呼ぶ．

S T V , i 2 V \ T

劣モジュラ性の定義（2） 6

SERVER

LAB

KITCHEN

COPYELEC

PHONEQUIET

STORAGE

CONFERENCE

OFFICEOFFICE

Y2

‘large’ imp.

Yi

SERVER

LAB

KITCHEN

COPYELEC

PHONEQUIET

STORAGE

CONFERENCE

OFFICEOFFICE

Location S = Y1,Y2

Y1 Y2 Y1

Y3

Y4

Y5

* From IJCAI09 tutorial “Intelligent Information Gathering and Submodular Function Optimization”

Location S = Y1,Y2,Y3,Y4,Y5

‘small’ imp.

観測ノイズの分散低減：（：センサ配置可能箇所）

観測に伴うノイズの分散

f(S) := V ar(;) V ar(S) V

f(S + i) f(S) f(T + i) f(T ) i

劣モジュラ性の定義（3）

  任意のに対して，次式を満たす：

  Lovász拡張（後述）が凸．

  その他，劣モジュラ性の等価な定義が複数知られている（(Lovász,1983), (Fujishige,2005), (Bach,2013) などを参照）．

7

f(S) + f(T ) f(S \ T ) + f(S [ T )

S, T V

f : RV ! R

これらについても後ろでふれます．

劣モジュラ関数の例（1）

  情報理論やグラフ理論，ゲーム理論，経済学，人工知能分野等，多くの数理工学や社会科学の分野において頻繁に見られる． –  情報理論：（同時）エントロピー，相互情報量，情報利得 –  グラフ理論：カット関数，ネットワークのカット容量，マトロイド

のランク関数 –  その他：経済分野における効用関数（優モジュラ関数），被覆

関数，正定値対称行列の行列式，自乗重相関係数（負の自乗誤差），Convex Gameなど

8

劣モジュラ関数の例（2） 9

カット関数：

被覆関数：

1

2

3

4

5 f(S) =X

ce : e 2 E(S,V \ S) (S V)f(1, 2) = 3

エッジ e 上の重み

端点がとに含まれるエッジの集合

S V \ S

f(1, 2) = 8

f(S) =X

cu : u 2 [i2SSi (S V)

各点上の重み

V = S1, S2, S3

その他の劣モジュラ性の性質

  その他に重要な劣モジュラ性に関連した概念として，講演中では以下のものにふれる予定です：

–  Lovász拡張： •  集合関数の連続緩和の一つ．劣モジュラ性と凸性の関係を表す

重要な概念であり，様々な場面で数理的基礎として用いられる．

–  基多面体，劣モジュラ多面体： •  劣モジュラ関数を，等価な線形制約の組（つまり多面体）として

表現したもの．劣モジュラ関数最適化を，等価な制約付き最適化として考える際などに有用．

10

機械学習における劣モジュラ最適化 11

劣モジュラ最小化

劣モジュラ最大化

離散DC計画問題

制約付き劣モジュラ最小化

（劣モジュラ最適化問題）

問題自体の難しさ

（N

P困

難）

対応する連続最適化

凸最小化

凸最大化 DC計画

関連する代表的な問題例

クラスタリング，グラフ構造の学習，構造正則化学習

最密部分グラフ問題

(l0正則化)特徴選択能動学習, ノンパラ推定

エネルギー最小化

講演の内容






12

劣モジュラ関数の最大化

  機械学習の問題の中には，（サイズ制約下での）劣モジュラ関数の最大化として定式化されるものが多数存在する：

13

max

SVf(S) s.t. |S| k

劣モジュラ関数

ノンパラ推定 (Reed & Ghahramani, 2013)

能動学習 (Hoi+ 2006), (Chen & Krause, 2013)

文章要約 (Lin & Bilmes, 2010)

(k 0)

サイズ制約の場合の貪欲法による近似率 (Nemhauser+ 1978)

ナップサック制約の場合の近似率 (Lee+ 2009)

〜

[代表的な関連研究]

2005 2013

グラフマイニング (Thoma+ 2009)

センサ配置 (Krause & Guestrin, 2005), (Krause+ 2008)

特徴選択 (Das & Kempe, 2008)

2010 1978

劣モジュラ最大化と貪欲法

  劣モジュラ最大化は，貪欲法により良い近似解が得られる：

14

貪欲法を適用 max

SVf(S) s.t. |S| k 近似解

最悪の場合でも，最適解の(1-1/e) 倍の解が得られる (Nemhauser+ 1978)

(1 1/e) 0.68

1. , に設定． 2. の間，以下の手順を繰り返す：

a). 残りの要素（）内で，最も関数値を増やすものを選択： b). , .

i 1 S0 ;貪欲法の手順：

V \ Si1

Si Si1 [ ei

|Si| < k

i i+ 1

①

（単調）劣モジュラ関数

ei = argmax

e2V\Si1

f(Si1 [ e) f(Si1)

劣モジュラ最大化と貪欲法

  劣モジュラ最大化は，貪欲法により良い近似解が得られる：

15

貪欲法を適用

（単調）劣モジュラ関数

max

SVf(S) s.t. |S| k 近似解 (1 1/e) 0.68

•  例えば，Accelerated貪欲法 (Minout, 1978) の適用により，実用的にはより高速に，貪欲法と同様の解を得る事ができる．

①

②

最悪の場合でも，最適解の(1-1/e) 倍の解が得られる (Nemhauser+ 1978)

その他にも，いくつかの貪欲法が提案されている．また非単調な場合は，近似率がわるくなる (例えば，(Krause, 2012)を参照)．

具体的な問題例（特徴選択）

  L0ノルムを用いた正則化による特徴選択：

  劣モジュラ関数の最大化として定式化可能 (Das & Kempe, 2008) :

1. という集合関数を定義． 2. 最大化する集合関数：

16

L0ノルム（非ゼロ要素の数）

minw2RV

1

n

nX

i=1

yi w

>xi

22

s.t. kwk0 k

f(S) := g(;) g(S)

：集合に対応するの部分ベクトル：を用いた場合の最小自乗推定パラメータ

xSwS

S x

xS

g(S) := 1

n

nX

i=1

yi w

>S xi,S

22

具体的な問題例（文書要約）（1） 17

max

SVf(S) s.t.

X

i2Sci b

劣モジュラ性を満たす (Lin & Bilmes, 2010)．

各文内のコスト（文字数など）

（ナップサック制約）

新しい文を加えたときの限界効用は徐々に小さくなる．

（文章）（文章）

具体的な問題例（文書要約）（2）

  評価関数としては， –  被覆関数

–  Maximal Margin Relevance (Carbonell & Goldstein, 1998)

⇒ 非単調な劣モジュラ関数

–  Rouge-N (Lin, 2004)

⇒ 単調な劣モジュラ関数

–  Rewarded被覆関数 (Lin & Bilmes, 2011)

⇒ 単調な劣モジュラ関数

18

講演の内容






19

マルコフ確率場モデルにおける推論（1） 20

xi

yi

Pr(x) =

1

Z

exp

2

4X

(i,j)2E

ij(xi, xj)

3

5

元の画像

観測画像 y

x

MRF事前分布

マルコフ確率場モデルにおける推論（2）

  最大事後確率（MAP）推定：

21

観測

unary terms pairwise terms

格子状グラフ上での0、または1の割り当て． G = (V, E)

ˆ

x = argmax

x20,1VPr(x|y)

= argmax

x20,1V

Y

i2VPr(yi|xi) Pr(x)

= argmax

x20,1V

X

i2Vlog[Pr(yi|xi)] + log[Pr(x)]

= argmin

x20,1V

X

i2Vi(xi) +

X

(i,j)2E

ij(xi, xj)

xi xj

ij

エネルギー最小化

  しかし，が劣モジュラ性を満たすときは“効率的に”計算可能．

グラフカットとの関係（1） 22

劣モジュラ性：

⇒ 一般に「NP困難」

ij

から容易に導ける：

ij(1, 0) + ij(0, 1) ij(1, 1) + ij(0, 0)

f(S) + f(T ) f(S \ T ) + f(S [ T ) (S, T V)

・（とそれ同等の場合）以外の場合は明らか．

・上記の場合は，次のようになる：

S = i, T = j

f(S \ T ) = f(;) , ij(0, 0) f(S [ T ) = f(V) , ij(1, 1)，

minx20,1V

X

i2Vi(xi) +

X

(i,j)2E

ij(xi, xj)

スムースネス

グラフカットとの関係（2）

  図のように構成したs/t-グラフ上での，カット関数の最小化問題と等価である事が知られている (Boykov+ 2001)．

23

s

t

ij(0, 1) xi

xj

ij(1, 0)

(source)

(sink) i(1)

とにかく早く解ける！（画像処理分野では頻繁に使われている）

最大流アルゴリズムで計算可能（最小カット・最大流定理）

i(0)

グラフカットとの関係（3）

  カット関数は，高速に最小化可能な，劣モジュラ関数の部分クラス（２次の劣モジュラ関数）：

24

グラフカット

（：エッジ数，：関数評価）

劣モジュラ関数 O(|V|5EO+ |V|6)

O(|V|m log(|V|2/m))

など

(Goldberg & Tarjan, 1986)

(Orlin 2009)

高速に解けるより広いクラスは？

最小化の計算量

*) 理論的な計算量は未知だが，実用的には比較的高速な劣モジュラ最小化アルゴリズムは存在する（最小ノルム点アルゴリズム (Fujishige+ 2006)）．

一般化グラフカット（1）

  最大流アルゴリズムで解けるより一般の関数* (Jegelka+ 2011, Nagano & Kawahara, 2013)

25

f(S) = minAU

Xce : e 2 outG (s [ S [A)

s t

1

2

3

u1 u2 u3

V

ノードから外に向かうエッジ各エッジのキャパシティ

U

実用的な問題に現れる劣モジュラ関数の多くは，この形になっている．

ノードを追加した場合のカット関数と等価

U

一般化グラフカット（2）

  例). 分解可能劣モジュラ関数(Stobbe & Krause, 2010)：

26

f(S) = d(S) +kX

i=1

minyi,w(i)(S) (S V)

正実ベクトル正実数非負実ベクトル

*) より一般の形は，コンピュータ・ビジョン分野の文献に見られる（(Kohli+2009)など）．

|S|

yi

minyi,w(i)(S)

t u2

u3

V U

s

u1

1

2

3

4

d1 y1

w(1)1

講演の内容






27

Lovász拡張

  集合関数 f の連続関数への緩和の一つ (Lovász (1983))：

（定義）任意の実ベクトルの要素の値を大きい順にと並べたとき，任意の集合関数 f に対して，Lovász拡張 f は次のように定義される：

28

集合関数 f は，そのLovasz拡張 f が凸でありかつその時のみ，劣モジュラである

定理 (Lovász,1983)

p 2 Rn

p1 > p2 > · · · > pm^

(Uk = i 2 V : pi pk)

f(p) =m1X

k=1

(pk pk+1) f(Uk) + pm f(Um)

^

Lovász拡張

  集合関数 f の連続関数への緩和の一つ (Lovász (1983))：

29

における f　 1. の要素を降順に並べる． 2. 定義に従って，

p1 = 0.6 > p2 = 0.2

例） |V| = 2. f(;) = 0, f(1) = 0.8, f(2) = 0.5, f(V) = 0.2

p

(U1 = 2, U2 = 1, 2)

p = (0.2, 0.6) ^

f(p) =(0.6 0.2) f(2)+ 0.2 f(V) = 0.24

基多面体，劣モジュラ多面体

  劣モジュラ関数から定義される線形制約の集合（多面体構造）

30

P (f) = x 2 RV : x(S) f(S) (8S V)

B(f) = x 2 RV : x 2 P (f),x(V) = f(V)

劣モジュラ多面体：

基多面体：

x1

x2

P (f)

B(f)

の場合 |V| = 2 の場合 |V| = 3

x1

x2

B(f)P (f)

x3 （最大）個の線形制約で表される

22 1 = 3（最大）個の線形制約で表される

23 1 = 7

講演の内容






31

構造正則化学習における劣モジュラ最適化（1）

  構造正則化学習：問題が持つ組合せ的構造を，正則化項として与える事で，事前情報の利用を可能にする学習の枠組み．

32

グラフ構造グループ構造

階層構造

Sparsity patterns induced for L(w) + (w)

Lasso: (w) =P

i |wi |

Group Lasso (Yuan and Lin, 2006): (w) =P

g2G kwgk

Group Lasso when groups overlap: (w) =P

g2G kwgk

The support obtained is

An intersection of the complements of the groups set to 0 (cf. Jenatton et al.(2009))

Not a union of groups

Sparsity tutorial II, ECML 2010, Barcelona 36/69

損失関数学習モデルモデル・パラメータ（索引集合が）

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · (w)

学習毎に定義される損失項：

こういった変数間の組合せ的な構造を正則化項として組込む

構造正則化項：

V

その他，有向グラフ上のパスや，２次元グリッド上でのブロック構造など．

構造正則化のイメージ

  正則化は，必ずしも変数間で均一にする必要はない：

33

Unit norm ballsGeometric interpretation

∥w∥2 ∥w∥1!

w21 + w2

2 + |w3|

x1とx2は同時に0になりやすい

(図はF.BachのMLSS’12におけるスライドより）

このような変数毎への正則化の加え方を工夫して構造を正則化へ組み込める

適用例（背景切り出し）（1）

  画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011)：

34

テスト画像（y）推定された背景

背景画像の推定

mina2RN ,e2Rd

1

2ky Xa ek22 + (a)

… …

訓練ビデオ・シーケンス（X）

（N フレーム）

適用例（背景切り出し）（2）

  画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011)：

35

L1正則化 (Olshausen & Field, 1996)

CONVEX AND NETWORK FLOW OPTIMIZATION FOR STRUCTURED SPARSITY

(a) Original frame. (b) Estimated background with Ω. (c) ℓ1, 87.1%.

(d) ℓ1+ Ω (non-overlapping), 96.3%. (e) ℓ1+Ω (overlapping), 98.9%. (f) Ω, another frame.

(g) Original frame. (h) Estimated background with Ω. (i) ℓ1, 90.5%.

(j) ℓ1+ Ω (non-overlapping), 92.6%. (k) ℓ1+Ω (overlapping), 93.8%. (l) Ω, another frame.

Figure 4: Background subtraction results. For two videos, we present the original image y, theestimated background (i.e., Xw) reconstructed by our method, and the foreground (i.e., the sparsitypattern of e as a mask on the original image) detected with ℓ1, ℓ1+ Ω (non-overlapping groups) andwith ℓ1+Ω. Figures (f) and (l) present another foreground found with Ω, on a different image, withthe same values of λ1,λ2 as for the previous image. Best seen in color.

2703







2703

グループ正則化

重なりを持つ全（3×3）パッチをグループと設定

(98.9%) (87.1%)

(w) =X

g2Gkwgk2

構造正則化学習における劣モジュラ最適化（3）

  構造正則化項の多くは，劣モジュラ関数のLovász拡張（及びその緩和）で表される (Bach, NIPS’10-11)．

36

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · (w)

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · f(w)

が構造正則化項の場合

劣モジュラ関数のLovász拡張

(w)

Lovász拡張による正則化項の例

(一般化) Fused正則化：各変数をノードとするグラフ上で，隣接する変数の値は近くなるように正則化を行う．

37

隣接する変数に関する係数が近い値になる

G = (E ,V)

(w) =X

(i,j)2E

aij |wi wj |

（一般化）Fused正則化項：

= （等価）

カット関数のLovász拡張：

f(S) =X

aij : i 2 S, j 2 V \ S

隣接行列の要素

Lovász拡張による正則化項の例

グループ正則化：変数上に，グループ構造（各要素がの部分集合）が与えられたときに，各グループ内の変数が同時にゼロになりやすくなるような正則化．

38

Sparsity patterns induced for L(w) + (w)

Lasso: (w) =P

i |wi |

Group Lasso (Yuan and Lin, 2006): (w) =P

g2G kwgk

Group Lasso when groups overlap: (w) =P

g2G kwgk

The support obtained is

An intersection of the complements of the groups set to 0 (cf. Jenatton et al.(2009))

Not a union of groups

Sparsity tutorial II, ECML 2010, Barcelona 36/69

グループ内のものは同時にゼロになりやすい．

G V

（L∞）グループ正則化項：

= （等価）

被覆関数のLovász拡張：

f(S) =X

dg : g 2 G, g \ S 6= ;

(w) =X

g2Gdgkwgk1

近接勾配法による最適化

  構造正則化学習における最適化は，微分不可能な凸最小化であるため，一般に，近接勾配法を適用する事が多い．

39

minw2RV

1

n

nX

i=1

l(yi, g(xi;w)) + · f(w)

微分不可能な凸関数微分可能な凸関数

近接勾配法における更新：

勾配法近接法

の計算へ帰着される． minw2Rd

1

2kuwk22 + · (w) (u 2 Rd)

最小ノルム点問題への帰着

  Proximal Operatorの計算は，最小ノルム点問題の計算と等価（一種の双対）である事が示される (Bach, 2013)：

40

min

w2Rd

1

2

kuwk22 + · ˆf(w) = min

w2Rdmax

s2B(f)

1

2

kuwk22 + ·w>s

= max

s2B(f)min

w2Rd

1

2

kuwk22 + ·w>s

= max

s2B(f)

1

2

kuk22 1

2

k · s uk22

劣モジュラ多面体

劣モジュラ関数の基多面体上の最小ノルム点の計算

⇒ 最小ノルム点アルゴリズムの適用

mint2B(f1u)

ktk22f(S) 1u(S)

w = t

（Lovász拡張の定義）

パラメトリック最適化（1）

  （分離凸項＋Lovász拡張）最小化は，基多面体上での（正規化）ノルム最小化と等価(Nagano&Aihara,2012),(Nagano&Kawahara,2013)：

41

パラメトリック劣モジュラ関数最小化として効率的に解く事ができる

minx2B(f)

X

i2V

x

2i

biminw2Rd

X

i2V (wi) + f(w)

凸関数

minSV

f(S) ↵ · b(S) ↵ 0for all

(; =) S0 S1 · · · Sl (= V) x

i =

f(Sj+1) f(Sj)

b(Sj+1 \ Sj)· bi

各に対する解 ↵

[0,↵1) [↵1,↵2) [↵l,+1)

（全体として，微分不可能な凸）

（制約が滑らかでない凸）

パラメトリック最適化（2）

  特に，関数 f が一般化グラフカット関数の場合，パラメトリック最大流アルゴリズム（(Gallo+ 1989)など）で高速に計算できる：

⇒ 例えば，多くの構造正則化はこれに含まれる．

42

minSV

f(S) ↵ · b(S)

s t

1

2

3

u1 u2 u3

V

U

計算量は最大流計算と同様

↵ b1

↵ b2

↵ b3

O(|V [ U|m log(|V [ U|2/m))

数値例（一般化Fused正則化）

  パラメトリック最適化（パラメトリック最大流）として一般化Fused正則化を扱うと，著しい計算速度の向上が得られる． ⇒ 高解像度な画像の処理などへも適用可能になる．

43







2703

グループ正則化

さらに改善

一般化Fused正則化

隣接する画素を結ぶエッジを持つグラフ（格子状）を用いたFused正則化+L1

(w) = 1|w|+ 2

X

(i,j)2E

aij |wi wj |

その他の最近の話題

  双劣モジュラ関数，k-劣モジュラ関数の利用 (Kolmogorov, 2010), (Kolmogorov, 2011), (Singh+ 2012), (Hirai, 2013)

  一般の離散凸関数の利用 (Murota, 2003) (教科書的な本), (Kolmogorov & Shioura, 2009)

  離散的な情報論的尺度など (Steudel+ 2010), (Iyer & Bilmes, 2013)

  コンピュータ・ビジョン（Kolmogorov, Boykov, Kohliら多数）や機械学習／データマイニングの様々な問題（クラスタリング (Narasimhan+2006)

(Nagano+2011)，構造学習(Narasimhan & Bilmes, 2004), (Checketka & Guestrin, 2008)，ネットワーク上の影響伝播問題(Kempe+2003), (Gomez-Rodriguez & Sholkopf, 2012)，

マーケティング(Hartline+2008)，オンライン学習(Hazan&Kale,2009) など）へ応用が行なわれている．

44

最後に

  劣モジュラ性は，概念・理論としては，アルゴリズムの設計や解析に極めて有用なツール．

  ただし実用的には，一般の劣モジュラ最適化アルゴリズムは使えるかは微妙なところ 😅

  従って応用を考える際には， –  効率的に解けないクラスの場合は，高速な近似アルゴリズム

が存在する問題へ定式化できないか考える（例．劣モジュラ最大化における貪欲法）

–  効率的に解けるクラスの場合は，実用的にも高速に解けるサブクラスがないかを考える（例．劣モジュラ最小化における（パラメトリック）最小カット）

というスタンスが良いかなと思います．

45

20140306 ibisml

Documents

Transcript of 20140306 ibisml