[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
-
Upload
deep-learning-jp -
Category
Technology
-
view
417 -
download
4
Transcript of [DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement
Learning
情報理工学系研究科コンピュータ科学専攻横倉広夢
2017/06/30
書誌情報• Hybrid Reward Architecture for Reinforcement Learning
• 著者: Maluuba(MSに買収された)の研究チーム
• 13 Jun 2017
• http://www.maluuba.com/blog/2017/6/14/hra
2
概要• Goal: 利得を最大化する方策を学習したい
• DNNによって低次元化した最適価値関数の近似 (e.g. DQN)
• performance objective, training objective
• 元の報酬関数を、より滑らかな最適価値関数を持つような報酬関数で置換することで効率的で安定した学習を実現する
3
スケールさせたい
価値関数が複雑で低次元で表現できない場合は??(Ms. Pac-Man)
HRA• 報酬を分割して、それぞれに対して価値関数を学習させる
• 各構成要素は特徴量全体の部分集合に依存しているはずなので、価値関数はより滑らかで低次元での近似が容易→学習効率、安定性
4
parallel
aggregator
最適行動価値
• 必ずしも、環境から得られる報酬に関して最適とは限らない
• 悪い挙動だったらQ値の集約部分を変えれば解決するかも
5
Loss• DQN
• HRA
6
(Sarsaでもよい)
ドメイン知識の利用• 無関係な特徴量を除去する
• 得られる報酬に影響を与えない特徴は単なるノイズなので除去
• ターミナルステートを明確化する
• この価値を近似する必要がなくなるので、ネットワークの重みが効率的に利用できる
• 擬似報酬(pseudo-reward)を利用する
• 擬似報酬(Sutton et al., 2011): 特徴量に基づいた任意の有用な信号
• ポリシーの他に擬似報酬まで入力として考えた、価値関数をgeneral value function (GVF)と呼ぶ
7
実験1• Fruit Collection task
• エージェントはできるだけ速く10x10のグリッド上にある果物を回収する
• 果物が配置され得る場所は10箇所
• エピソード毎に、10箇所中5箇所に果物が配置される
• エージェントの開始位置はランダム
• 300ステップまたは5個全て回収したらエピソードは終了
8
実験1• DQN
• 各果物に対して報酬+1を与える
• HRA
• 10個の報酬に分割
• 各報酬はそれぞれ10箇所中の1箇所に対応する
9
実験1• 無関係な特徴量を除去する
• エージェントの位置+対応する果物の特徴量(あるかどうか)のみ
• ターミナルステートを明確化する
• 状態の表現をかなり簡略化できた
• 擬似報酬を利用する
• エージェントが10箇所の各場所に行くように
価値関数を学習させる(各場所の果物に関した
価値を学習するのではなく)(?)
10
実験1
• DQNに比べて、ドメイン知識の効果が顕著
11
実験2• Ms. Pac-Man ( from Atari 2600 )
• ペレットを食べることでポイント
• ゴーストに会うと死ぬ
• 特殊なペレットを食べるとゴーストが一時的に青くなる
• 青くなったゴーストは食べることができる
• レベル毎に2回ボーナスフルーツを食べることができる
• 7種類あり、ポイントが異なる
• 全てのペレットを食べると次のレベル
• マップは4種類
12
実験2• Arch.
• 各ペレット、各ゴースト、各青いゴースト、各フルーツ
に対して1 head
• 実験1と同様に、特定の場所に向かうようにQ値を学習する
(ように擬似報酬を設定する?)
• マップ毎に異なるGVF
• Start: 0 GVFs, 0 heads
• マップ上で新しく到達できる場所を見つけたらGVFを追加
• 新しい場所でペレットを見つけたら、headを追加
13
実験2
• Exploration
• 探索用のheadを2タイプ
• diversification
• ランダムなQ値を区間[0, 20]の一様分布から発生させる
• 最初の50ステップ程度必要だった
• count-based
• あまり探索されていなかったstate-actionペアにボーナスを発生させる
14
実験2• fixed start : 最初しばらく何もしない時間を設ける
• random start : 人間の軌跡に基づいた初期位置から始める
15
実験2
16
実験2
17
まとめ
• 報酬を、状態の一部に依存するように分割することで、
複雑な価値関数を低次元で近似
• 学習の効率性、安定性
• 問題サイズの削減
• ドメインの知識が有効に活用できる
18