劣モジュラ最適化と機械学習 3章
-
Upload
hakky-st -
Category
Data & Analytics
-
view
108 -
download
2
Transcript of 劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習3 章
機械学習プロフェッショナルシリーズ
@St_Hakky
自己紹介と告知• Twitter : @St_Hakky• ブログ: http://st-hakky.hatenablog.com/• 関西で機械学習勉強会を実施中 !!
• 団体のモットー:• 圧倒的スピード感で大量の書物と論文をぶった切る• 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる
• 過去のイベント例• PRML 輪講会、 PRML 上巻 / 下巻一気読み• データ解析のための統計モデリング入門の輪講会• わかりやすいパターン認識 ( 続 ) の輪講会
• 参加したい方は、 Facebook のグループにまずは参加を。• URL :https
://www.facebook.com/groups/1767916400127792/
劣モジュラ最適化と機械学習の3 章をやります
今日やらないこと
• 証明は必要最小限しかやりません。• 本を読んでください ( 投げやり )
今日やること
• 応用例を見ます。
• 応用例が、最終的に単調列もジュラ最大化問題と同じ形で表現されることをひたすらにみます。
• 飽きたら、寝てください。
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
この章で考える問題
は、単調な劣モジュラ関数
目的: 𝑓 (𝑆)→最大制約 (3.1)
劣モジュラ関数を最大化する問題について考える
制約条件は、選択する部分集合の要素数が最大で k (> 0) 個である
前章までで見てきたこと
• 劣モジュラ性の有用性• 劣モジュラ性は集合関数における凸性にあたる構
造を持つ• これにより ( 連続の ) 凸関数と同様に、最小化が効率的
に• 劣モジュラ関数は凹関数のような性質ももってい
る最大化においても複数の有用な性質を持つ
この章で見る問題
• まず、代表的な例として、最大化への貪欲法の適用を取り上げる。→ 3.1 節
• その後、機械学習などにおける様々な問題への適用例として、以下を見る。• 文書要約 → 3.2 節• センサ配置問題→ 3.3 節• 能動学習→ 3.4 節
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
劣モジュラ最大化と貪欲法
単調な劣モジュラ関数の最大化問題目的: 𝑓 (𝑆)→最大
制約 (3.1)
NP 困難な最適化問題厳密な最適解を多項式時間で求めることは困難
• 劣モジュラ関数の最大化について、最大化すべき単調な劣モジュラ関数としてカバー関数を用いて、具体例を見る
𝑃1 𝑃2 𝑃3 𝑃4
劣モジュラ最大化と近似アルゴリズム
劣モジュラ最大化と近似アルゴリズム
点集合
個の部分集合 すべての点の重みは 1 𝑓 𝑐𝑜𝑣 :2{1,2,3,4 }→ℝ
𝑃1 𝑃2 𝑃3 𝑃4
𝑉={𝑙 ,2,3,4 }
カバー関数最大化問題
目的関数をカバー関数とし、これを最大化する要素数の上限を
点集合
𝑃1 𝑃2 𝑃3 𝑃4
k=1 の場合のカバー関数の値
点集合
𝑃1 𝑃2 𝑃3 𝑃4
𝑓 𝑐𝑜𝑣 ( {1 } )=3𝑓 𝑐𝑜𝑣 ( {2 } )=5
𝑓 𝑐𝑜𝑣 ( {3 } )=7𝑓 𝑐𝑜𝑣 ( {4 } )=6
← 一番大きい
k=2 の場合のカバー関数の値
点集合
𝑃1 𝑃2 𝑃3 𝑃4
𝑓 𝑐𝑜𝑣 ( {1,2 } )=6
k=2 の場合のカバー関数の値
点集合
𝑃1 𝑃2 𝑃3 𝑃4
𝑓 𝑐𝑜𝑣 ( {2,4 } )=11すべての組み合わせについて考えると、 {2,4} が最大となる
組み合わせ爆発の問題
台集合の要素数や要素数の上限が大きくなる
解の候補は爆発的に大きくなるすべてを調べることは現実的には困難。
組み合わせ爆発の問題
実際劣モジュラ関数最大化問題は NP 困難な最適化問題であり、カバー関数も同様
・最適値とアルゴリズムによって得られる近似解の目的関数値の比が、どのような場合も一定値よりよくなることが理論的に保証される
近似アルゴリズム・アルゴリズムによって近似解が多項式時間で得られる。
近似アルゴリズムとは
近似アルゴリズムとは
• 単調な劣モジュラ関数の最大化問題に対しては, 3.1.2 で紹介する貪欲法が、性能のよい近似アルゴリズムになることが理論的に保証できる
近似率
:問題の近似解を求める多項式時間アルゴリズムとする。この時、問題が最大化問題であるため、明らかに次の不等式が成り立つ
が出力する解の目的関数値問題 ( )𝑃 の最適値
近似率
を を満たす定数として. 問題の任意の入力について、以下が成り立つ。 * 問題 ( )𝑃 の最適値 が出力する解の目的関数値
:の近似率あるいは近似保証という。
またこのとき、を問題の - 近似アルゴリズムと呼ぶ
近似率
一般論ですが、多くの場合で、 - 近似アルゴリズムによって得られる近似解の目的関数値と最適値の比は、近似率よりずっとよくなる。
3.1.2 劣モジュラ最大化のための貪欲法
貪欲法
貪欲法はからスタートして、の要素数がになるまで「貪欲」に要素を増やしていく単純な方法
貪欲法をカバー関数最大化問題に適用
点集合
個の部分集合 すべての点の重みは 1 𝑓 𝑐𝑜𝑣 :2{1,2,3,4 }→ℝ
𝑃1 𝑃2 𝑃3 𝑃4
𝑉={𝑙 ,2,3,4 }ここでは、要素数の上限をとする
貪欲法をカバー関数最大化問題に適用
初期化ステップ 0 なので、とする。
点集合
𝑃1 𝑃2 𝑃3 𝑃4
貪欲法をカバー関数最大化問題に適用
反復 1
ステップ 1 では、 より停止しない。ステップ 2 では、 がもっとも大きくするのでこれを選ぶ。
貪欲法をカバー関数最大化問題に適用
点集合
𝑃1 𝑃2 𝑃3 𝑃4
𝑓 𝑐𝑜𝑣 ( {1 } )=3𝑓 𝑐𝑜𝑣 ( {2 } )=5
𝑓 𝑐𝑜𝑣 ( {3 } )=7𝑓 𝑐𝑜𝑣 ( {4 } )=6
← 一番大きい
貪欲法をカバー関数最大化問題に適用
反復 2
ステップ 1 では、 より停止しない。ステップ 2 では、 がもっとも大きくするのでこれを選ぶ。
貪欲法をカバー関数最大化問題に適用
点集合
𝑃1 𝑃2 𝑃3 𝑃4
𝑓 𝑐𝑜𝑣 ( {1 ,3 } )=10 ← 一番大きい
貪欲法をカバー関数最大化問題に適用
反復 3
ステップ 1 で、 より停止
結果として、が選ばれ、アルゴリズムが停止する。
貪欲法と最適解を比較
貪欲法 ( 近似解 ) : 最適解:
近似解は、最適解の 10/11≈0.91 倍程度の目的関数値を取るので、いい解が得れたと考えられる。
貪欲法の近似率について
要素数の上限がであるような一般の場合の単調な劣モジュラ関数の最大化問題について、必ず次の不等式が成り立つ。
最適解:貪欲法が出力する近似解:
(1−(1− 1𝑘 )𝑘) 𝑓 (𝑆𝑂𝑃𝑇 )≤ 𝑓 (𝑆𝐺𝐴)
貪欲法の近似率について
は、自然数に関して単調減少
は、のとき、となり、貪欲法は、 0.63- 近似アルゴリズムであることがわかる。この証明は、次で与える。
貪欲法の近似率の証明
• 本をご参照あれ。
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
適用例 1 : 文書要約への適用
• 問題設定:• ある文章が与えられたときに、その文章を構成す
る文の中から、できるだけもとの文章を表現できるような、その一部の文を選択する
•直感的なイメージ:• 文を 1 つずつ足していくと徐々にもとの文章の意味を表す表現力は高まる。• 逆に、その効果はすでに採用した文が多ければ小
さくなっていく。
適用例 1 : 文書要約への適用
文書要約は、劣モジュラ最大化問題の代表的な例の 1 つ。実際、文書要約でよく用いられる規準がこのような効果をもっていることが多い。
文書要約の劣モジュラ最大化としての定式化
• ある文章が与えられたとき、その文章を構成する文を要素とする有限集合を考える
文書要約の劣モジュラ最大化としての定式化
• 一般に、文書要約において選択される文の集合がもつべき重要な規準として、以下が挙げられる。• :文章全体に対して関連の高い文の集合を選択す
ること• :選択する文間の冗長性を少なくするように文の
集合を選択すること
文書要約の劣モジュラ最大化としての定式化
:文章全体に対して関連の高い文の集合を選択すること
𝑅( )𝑆 :選択する文間の冗長性を少なくするように文の集合を選択すること
トレードオフの関係
文書要約の劣モジュラ最大化としての定式化
:文章全体に対して関連の高い文の集合を選択すること
𝑅( )𝑆 :選択する文間の冗長性を少なくするように文の集合を選択すること
トレードオフの関係
選択する文章を増やすことを評価
選択する文章をできるだけ増やさないことを評価
文書要約の劣モジュラ最大化としての定式化
𝑓 𝑑𝑜𝑐 (𝑆 )=ℒ (𝑆 )+λ𝑅 (𝑆 )
一般に相反するこれらのトレードオフは各応用場面によるので, トレードオフを調整するパラメータを用いて次式のように規準を表す
:文章全体に対して関連の高い文の集合を選択すること𝑅( )𝑆 :選択する文間の冗長性を少なくするように文の集合を選択すること
文書要約の劣モジュラ最大化としての定式化
𝑓 𝑑𝑜𝑐 (𝑆 )=ℒ (𝑆 )+λ𝑅 (𝑆 )
一般に相反するこれらのトレードオフは各応用場面によるので, トレードオフを調整するパラメータを用いて次式のように規準を表す
:文章全体に対して関連の高い文の集合を選択すること𝑅( )𝑆 :選択する文間の冗長性を少なくするように文の集合を選択すること
単調劣モジュラ関数単調劣モジュラ関数
関連性を評価する関数の例
2 文間の相関
直感的には, 文章全体と関連の高い文を選択しようという規準
ℒ (𝑆 )= ∑𝑖∈𝑉 , 𝑗 ∈𝑆
𝑠𝑖𝑗
関連性を評価する関数の例
各概念
概念に基づく要約
文の集合に含まれる概念の集合:
ℒ (𝑆 )= ∑𝑖∈ Γ (𝑆)
γ 𝑖
関連性を評価する関数の例
Lin と Bilmes による基準ℒ (𝑆 )=∑
𝑖∈𝑉𝑚𝑖𝑛{𝐶𝑖(𝑆) , γ𝐶𝑖(𝑉 )}
::文がどの程度によりカバーされているかを表す単調な劣モジュラ関数はしきい値を調整するためのパラメータ
選択した文の集合がどれだけ文に類似しているか
関連性を評価する関数の例
Lin と Bilmes による基準
ℒ (𝑆 )=∑𝑖∈𝑉
𝑚𝑖𝑛{𝐶𝑖(𝑆) , γ𝐶𝑖(𝑉 )}
::文がどの程度によりカバーされているかを表す単調な劣モジュラ関数はしきい値を調整するためのパラメータ
このような関数の例: := など。
この規準の直感的説明
Lin と Bilmes による基準ℒ (𝑆 )=∑
𝑖∈𝑉𝑚𝑖𝑛{𝐶𝑖(𝑆) , γ𝐶𝑖(𝑉 )}
はが到達できる最大値
この規準の直感的説明
Lin と Bilmes による基準ℒ (𝑆 )=∑
𝑖∈𝑉𝑚𝑖𝑛{𝐶𝑖(𝑆) , γ𝐶𝑖(𝑉 )}
ある文に関しての場合 ( 本では、。多分ミス )
まだに到達していない別の文に関してのみの値を改善することができるこのようにまんべんなく文全体の意味がカバーされるような規準になっている
冗長性の評価関数:
•冗長な文に対して何らかの罰則を課すのも 1つの有効な手段
冗長性の評価関数:
冗長性の評価関数
𝑅 (𝑆 )=∑𝑘=1
𝐾
√ ∑𝑗∈ 𝑃𝑘∩𝑆
𝑟 𝑗
文の集合を選択することの多様性に対する報酬を加える式。これも有効な関数の一つ。
:文全体の分割。→ で異なるに対して:新しく文を空集合へ加えることに対する報酬
冗長性の評価関数:
冗長性の評価関数
𝑅 (𝑆 )=∑𝑘=1
𝐾
√ ∑𝑗∈ 𝑃𝑘∩𝑆
𝑟 𝑗
文の集合を選択することの多様性に対する報酬を加える式。これも有効な関数の一つ。
:文全体の分割。→ で異なるに対して:新しく文を空集合へ加えることに対する報酬
分割を得るための例:文章全体に対してクラスタリング等
冗長性の評価関数:
冗長性の評価関数
𝑅 (𝑆 )=∑𝑘=1
𝐾
√ ∑𝑗∈ 𝑃𝑘∩𝑆
𝑟 𝑗
文の集合を選択することの多様性に対する報酬を加える式。これも有効な関数の一つ。
この規準を用いることで、まだ 1 度も選ばれていない分割の中から文を選ぶことに対して報酬を加えることで選択する文の多様性を確保
関数を用いた文書要約のまとめ
𝑓 𝑑𝑜𝑐 (𝑆 )=ℒ (𝑆 )+λ𝑅 (𝑆 )
:文章全体に対して関連の高い文の集合を選択すること𝑅( )𝑆 :選択する文間の冗長性を少なくするように文の集合を選択すること
単調劣モジュラ関数単調劣モジュラ関数
単調劣モジュラ関数!!
関数を用いた文書要約のまとめ
𝑓 𝑑𝑜𝑐 (𝑆 )=ℒ (𝑆 )+λ𝑅 (𝑆 )
単調劣モジュラ関数単調劣モジュラ関数
単調劣モジュラ関数
規準 を用いた文書要約は劣モジュラ関数の最大化問題へと帰着個以下の文から成る要約を考えれば十分な場合は の単調性から、これは単調な劣モジュラ関数最大化問題として定式化される
実用的な場面での定式化
実用的な場面文の長さもまちまち単に文の数だけに制約を課したのでは長い文ばかりが選ばれてしまう
文の長さをコストとみなし、選択した文のコストの和で制約を課すのも 1 つの有効な定式化
実用的な場面での定式化
各文のコストをとすると、このような定式化は次のように表される。目的:→最大
制約: (3.6)
ナップサック制約
目的:→最大制約: (3.6)
選択した集合 S に関するコストの和に対する制約ナップサック制約
ナップサック制約
目的:→最大制約: (3.6)
選択した集合 S に関するコストの和に対する制約ナップサック制約要素数制約の場合と同様、が単調関数であれば (3.6) への貪欲法の適用により近似率として 0.63 が得られる
ナップサック制約下の劣モジュラ関数最大化のための貪欲法
貪欲法
ナップサック制約下の劣モジュラ関数最大化のための貪欲法
要素数制約の場合との違いはステップ 3
貪欲法
ナップサック制約下では、コストで正規化された関数の値を最大とする要素を選択する
文書要約のその他の規準
文書要約の問題設定は、劣モジュラ関数の逓減性を表す定義式 (1.2) によく合致するものだといえる。
文書要約のその他の規準
実際、以外の劣モジュラ性をもつ文書要約の規準もいくつか知られており、ここからはそのいくつかを紹介する。
したがって、劣モジュラ性を満たす文書要約の規準はに限らない。
最大限界関連度
最大限界関連度従来からよく用いられてきた基準
既に選択されている文の集合に対して、新しい文を加えたときの増分を表す
最大限界関連度
最大限界関連度文とクエリーの間の類似度 文 との間の類似度
はバランスを調整する係数文を加えることによる差分が上式により定義される集合関数は、劣モジュラ性の逓減性の定義( 1.2) から、劣モジュラ関数となることが示せる。ただし、この関数は非単調。
ROUGE-N スコア
ROUGE-N スコア
Lin により提案され、最近でも実用的にもよく用いられる
単調劣モジュラ関数であることが知られている
ROUGE-N スコアROUGE-N スコア
候補となる要約と参照となるそれとの間のに基づく再現率として定義される
:要約の中の n-gram の個数 :参照となる要約の中に含まれる n-gram の集合
:参照となる要約の中の n-gram の個数
ROUGE-N スコア
ROUGE-N により得られる要約は、人間の感覚に近いことが知られている。
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
適用例 2: センサ配置問題
問題設定
状況設定空間内で何らかの物理量 ( 例えば室温など )をセンサを用いて観測するという状況
できるだけその観測誤差が小さくなるようにいくつかのセンサを配置する問題
適用例 2: センサ配置問題
第 2章
この問題をガウス過程回帰によりモデル化し、 最終的に劣モジュラ最大化問題へ帰着する
これと類似した状況をカバー関数を使って考えた
3.3節
ガウス過程回帰による定式化
※現実的には、空間は連続的なので、センサの置き得る箇所も有限ではない場合が普通ですが、どの程度の粒度で箇所を考えれば十分かについてはあとで言及する
:センサを置き得る箇所
:に対応する箇所に設置したセンサ集合:その各箇所を表す添え字から成る集合
:実際にセンサを置いた箇所における観測量
記号
一般的なセンサ観測における仮説
1. センサの観測はノイズを含むと考えるのが自然2. 近い箇所にセンサが複数ある場合は、その付近の観測は誤差は小さい
観測量に関する予測分布の分散が小さくなる
ガウス過程回帰による定式化
不確実性を考慮しての分布が、以下の多次元正規分布に従うとする
:センサを置き得る箇所
:に対応する箇所に設置したセンサ集合:その各箇所を表す添え字から成る集合
:実際にセンサを置いた箇所における観測量
記号
:平均ベクトル :分散共分散行列 :行列式
ガウス過程回帰による定式化
:センサを置き得る箇所
:に対応する箇所に設置したセンサ集合:その各箇所を表す添え字から成る集合
:実際にセンサを置いた箇所における観測量
記号
: (センサを置いた箇所とは限らない ) 任意の箇所 x の観測量センサを置いた箇所だけではなく空間内全体で観測誤差も見たい。この分布は正規分布に従うと考える。平均と分散が、の関数として、非線形性を表せるようにモデル化してある
ガウス過程回帰による定式化
:センサを置き得る箇所
:に対応する箇所に設置したセンサ集合:その各箇所を表す添え字から成る集合
:実際にセンサを置いた箇所における観測量
記号
: (センサを置いた箇所とは限らない ) 任意の箇所 x の観測量
何がしたいかわからなくなってきたよね。
まとめよう!!
問題設定できるだけその観測誤差が小さくなるようにいくつかのセンサを配置する問題
見るべき規準配置したセンサによって、考えている領域の任意の箇所のにおける観測の不確実性をどれほど小さくできるか
式での表現I
:センサを置いた箇所の観測量 : (センサを置いた箇所とは限らない ) 任意の箇所 x の観測量
次は、この条件付き分布 I がどのようになるかを見る
各箇所における観測量の間の共分散
各箇所における観測量の間の共分散をカーネル関数により与えるカーネル関数の例:ガウノアンカーネル
:カーネル関数のパラメータ
観測量との同時分布
観測量との同時分布
、またの各要素は を表す観測量との同時分布
条件つき分布は、分割公式 ( 次スライドで解説 ) を用いて次のようになる
分割公式
多次元正規分布に従う確率変数が与えられているとするを分割 平均ベクトルと分散共分散行列を分割𝒙=(𝑥𝑎Τ ,𝑥𝑏Τ )Τ
このとき、は、正規分布となる。これをとすると、平均ベクトルと分散共分散行列は以下のようになる
このような分布の計算方法を抑えた上で、センサ配置のよさを評価する規準へ話を移す
問題設定できるだけその観測誤差が小さくなるようにいくつかのセンサを配置する問題
見るべき規準配置したセンサによって、考えている領域の任意の箇所のにおける観測の不確実性をどれほど小さくできるか
式での表現I
:センサを置いた箇所の観測量 : (センサを置いた箇所とは限らない ) 任意の箇所 x の観測量
観測の不確実性:エントロピー
観測の不確実性としては, エントロピーが一般的によく用いられる。確率変数の同時エントロピー
別の変数 y‘ を条件とする条件つきエントロピー
センサを箇所 S に置いたときの、 ある箇所における観測量の条件つきエントロピー
正規分布を仮定した場合、次式のように表される
この式の値は、先述のガウス過程回帰により得られたを用いて計算できる
不確実性の削減の定量化
センサを箇所に置いた際に、どの程度観測量の不確実性を減らすことができるかは、以下のように定量化できる
𝐻 (𝑦 (𝒙 ))−𝐻 (𝑦 (𝒙 )∨𝒚 𝑺)
センサを箇所 S に置いたときの、 ある箇所における観測量の条件つきエントロピー
ある箇所における観測の不確実性
不確実性の削減の定量化
センサを箇所に置いた際に、どの程度観測量の不確実性を減らすことができるかは、以下のように定量化できる
𝐻 (𝑦 (𝒙 ))−𝐻 (𝑦 (𝒙 )∨𝒚 𝑺)
この値が大きければ、箇所に置いたことで不確実性がより減っていることがわかる
不確実性の削減の定量化
センサを箇所に置いた際に、どの程度観測量の不確実性を減らすことができるかは、以下のように定量化できる
𝐻 (𝑦 (𝒙 ))−𝐻 (𝑦 (𝒙 )∨𝒚 𝑺)
現実的には、任意の箇所について計算することはできない。
実際の評価方法:相互情報量
いくつかの代表的な箇所… , をあらかじめ選択しておきこれらの箇所と、センサを置けなかった箇所についてのこの量を評価する
この量は、と ( )の相互情報量とも呼ばれる𝑦 ¿
実際の評価方法:相互情報量
この値が大きければ、箇所に置いたことで、不確実性がより減っていることがわかる我々の目標は、配置したセンサによって、考えている領域の任意の箇所における観測の不確実性をどれほど小さくできるか、であった。
この値 MI(S) を最大化することが目標となる。
命題 3.4 : 相互情報量は劣モジュラ関数である
本を参照あれ
ここまでが準備。長かったね〜笑おさらいをしておきまするよ。
問題設定できるだけその観測誤差が小さくなるようにいくつかのセンサを配置する問題
見るべき規準配置したセンサによって、考えている領域の任意の箇所のにおける観測の不確実性をどれほど小さくできるか
式での表現劣モジュラ関数の一つである、以下の式の最大化に帰着
問題は結局こうなる
センサを置く個数については無数にセンサを配置するというのは現実的ではない
目的関数は劣モジュラ関数。よって、本問題は要素数制約下の劣モジュラ関数最大化として定式化された!!!
よって、配置するセンサにより観測量の不確実性をできるだけ大きく減らすという問題は、以下のようになる。置くことができる個数を限定することが自然
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
• 本を参照あれ。
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
適用例 3: 能動学習
• っとその前に
能動学習とは?
まともに調べたことはなかったので、調べてみた
本の内容に戻るよ
教師あり学習においてラベルづけのコストが高いような場合能動学習を使う場面能動学習
重要なサンプルのみを選択してラベルづけを行うための方法で、機械学習における重要な問題の 1 つ能動学習の目的
プールベース能動学習
ラベルのないサンプルの中から学習に有用となるラベルづけを行うサンプルを選択するという問題プールベース能動学習
一括型能動学習
ラベルのないサンプルの中から学習に有用となるラベルづけを行うサンプルを選択するという問題プールベース能動学習
ラベルづけを行うサンプルを複数同時に選択する一括型能動学習
一種の集合関数の最適化問題
一括型能動学習
ラベルづけを行うサンプルを複数同時に選択する一括型能動学習
一種の集合関数の最適化問題
すでにラベルづけされているサンプルが多ければ多いほど, 新しくラベルづけするサンプルの有用性は徐々に小さくなっていくという逓減的性質が成り立つ劣モジュラ!!!
一括型能動学習の問題設定
:ラベルづけされていないサンプル
簡単のため二値分 類器を対象として考える
:の添え字の集合:各サンプルの(未知の)ラベル
記号
一括型能動学習の目的
ラベルづけを行うサンプルを複数同時に選択する一括型能動学習
一種の集合関数の最適化問題
できるだけ性能の高い分類器の学習が可能 になるように、ラベルづけを行うできるだけ少ない(事前に与えた 個以下の)サンプルを選択すること
一括型能動学習の目的
フィッシャー情報行列
ラベルづけを行うサンプルの集合がもつ有用性(どれだけ分類器の学習のための情報をもっているか)をフィッシャ ー 情報行列に基づいて考える
:有限のパラメ ー タ:パラメータに基づく分類器
フィッシャ ー情報行列
:ラベルづけを行うサンプルに関する分布:すべてのサンプルに関する分布
補足:フィッシャー情報行列
• フィッシャー情報行列は統計学や情報理論においてよく用いられるもの•観測される確率変数が対象とするパラメ ー タ
に対してもつ情報の量を与える規準
• 参考:
とりあえず今は、
フィッシャー情報行列
ラベルづけを行うサンプルの集合がもつ有用性(どれだけ分類器の学習のための情報をもっているか)をフィッシャ ー 情報行列に基づいて考える
:有限のパラメ ー タ:パラメータに基づく分類器
フィッシャ ー情報行列
:ラベルづけを行うサンプルに関する分布:すべてのサンプルに関する分布
というものだと抑えるので良いと思う。
フィッシャ ー情報行列を用いた能動学習の規準
ラベルづけを行おうとするサンプルがもつ情報が、できるだけ全サ ンプルのそれに近くなるように選ぽうとする規準
分類器としてのロ ジスティック回帰
分類器として(線形)ロ ジスティック回帰を用いて具体的な定式化を考えていく。ロジスティック回帰機械学習分野でよく用いられる二値分類器の 1つ
ロジスティック回帰に関するフィッシャ ー 情報行列
積分の近似計算
有限のサンプルを用いるので、積分の厳密な計算はできないので、以下のように近似する
今回考えるべきは、以下の式。これから展開してくぞ!𝑡𝑟 (𝐼𝑞−1 𝐼𝑝)
ラベルづけを行おうとするサンプルがもつ情報が、できるだけ全サ ンプルのそれに近くなるように選ぽうとする規準
: ラベルづけを行うサンプル集合 : 行列の単位行列
: 特異行列を避けるための小さな実数値
これらを今回最小化したい に代入すると次のようになる
: ラベルづけを行うサンプル集合 : 行列の単位行列
: 特異行列を避けるための小さな実数値
これらを今回最小化したい に代入すると次のようになる
に比例するので無視できるほど小さい
: ラベルづけを行うサンプル集合 : 行列の単位行列
: 特異行列を避けるための小さな実数値
これらを今回最小化したい に代入すると次のようになる
選択するサ ンプル集合に依存する項は第 3 項のみ
: ラベルづけを行うサンプル集合 : 行列の単位行列
: 特異行列を避けるための小さな実数値
これらを今回最小化したい に代入すると次のようになる
この第3項についてもう少し整理して見てみる
第3項
:の固有値と固有ベクトルの組
任意のについて次のような近似を与える ことができる
第3項
:の固有値と固有ベクトルの組
任意のについて次のような近似を与える ことができる固有値 の調和平均を算術平均で置き換えるとおくと
今デー タの前処理を行うことによってサンプルはに正規化されているとする ( つまり )
近似した第3項
最終的な第3項
さぁ、思い出そう。
今回考える、最小化すべきは、以下の式だったぞ!𝑡𝑟 (𝐼𝑞−1 𝐼𝑝)
ラベルづけを行おうとするサンプルがもつ情報が、できるだけ全サ ンプルのそれに近くなるように選ぽうとする規準
なので
0無視
、と変換できたこともわかった。最小化にマイナスをつけて最大化問題とする
−𝑡𝑟 (𝐼𝑞−1 𝐼𝑝 )
最大化すべき関数
最小化すべき関数
最大化すべき関数 に関して式 3.15 を評価したもの
は選択するサンプル集合で、どの程度フィッシャ ー行列の比を小さくできるかを表す
に関して式 3.15 を評価したもの
命題 3.5 :が劣モジュラかどうか
• 本を読もう
コンテンツ• 3.1 劣モジュラ最大化と貪欲法
• 3.1.1 劣モジュラ最大化と近似アルゴリズム• 3.1.2 劣モジュラ最大化のための貪欲法• 3.1.3 貪欲法の近似率
• 3.2 適用例 1 : 文書要約への適用• 3.2.1 文書要約の劣モジュラ最大化としての定式化• 3.2.2 文書要約のその他の規準
• 3.3 適用例 2: センサ配掴問題• 3.3.1 ガウス過程回帰による分布の推定• 3.3.2 センサ配置の規準と劣モジュラ性
• 3.4 適用例 3: 能動学習• 3.4.1 一括型能動学習と劣モジュラ性
• 3.5 その他の適用例• 3.6 補足:センサ配置可能箇所の設定について
劣モジュラ関数最大化としての定式化と貪欲法の適用例
• グラフマイニングにより得られた部分グ ラフ選択の劣モジュラ関数最大化として定式化 (Thoma)
• 線形回帰モデルにおける変数選択の規準の劣モジュラ性に関してする議論 (Das, Kempe)
劣モジュラ関数最大化としての定式化と貪欲法の適用例
• インデイアン・ブッフェ過程おいて 計算途中で必要となる最適化を劣モジュラ関数最大化として近似的に定式化することで効率的な実装を実現 (Reed, Ghahramani)
• ケンペらのネッ トワー ク上での影響最大化の劣モジュラ関数最大化としての定式化が挙げら れる• ソーシャル・ネットワークにおけるマーケティング など、応
用的にも重要な適用例
文書要約の拡張
• 文章の階層構造を用いたり、複数の文章を同時に要約するなどの拡張 (Lin, Bilmes)
センサ配置の拡張
• ここで説明した相互情報量とは異なる規準や頑強化されたアルゴリズムの提案されている• 詳しくは本にある参考文献参照
能動学習の拡張
• 時々刻々と変化する状況下での能動学習への拡張• そこでは, 適応劣モジュラ性と呼ばれる劣モジュラ
性を一般化した概念も重要な役割を果たす
さらなる応用へ
• さらに関連する応用的話題について興味をもったら、本にある参考文献を見よう。
おわり