10分テスト - 学校図書株式会社 · 238 10分テスト 目 次 4 年 10分テスト 10分テストについて 「10分テスト」は,各単元の次の前後で,主に観察・実験の技能と知識理解を
6章 最適腕識別とA/Bテスト
19
6 章 章章章章章章 A/B 章章章 章章章章章章章章章章章章章章章章章章章章 章章章章章章章章章章章章章章章章章章章 「」 章章章章 VOYAGE GROUP 章章章章
Transcript of 6章 最適腕識別とA/Bテスト
最適腕識別と A/Bテスト•最適腕識別 (best arm identification)•累積報酬の最大化ではなく、(将来の)報酬が最大の腕を識別すること
•最適腕識別において、 K=2 (腕の数が 2)のとき、• A/Bテストとよぶ
•ただし一般の「バンディット問題」では最適腕識別を含むことがある
6.1.1 累積報酬最大化との違い•累積報酬最大化:•選択の殆どが期待大と推定される腕に•誤識別率は Tに対して多項式オーダー
• A/Bテスト:•全ての腕に同程度•誤識別率は Tに対して指数オーダー
例 6.1参照
6.3 最適腕識別の方策•信頼上限 (UCB; upper confidence bound)•信頼下限 (LCB; lower confidence bound)も使う•最も期待値の高い腕の信頼下限•よりそれ以外の全ての(信頼上限―
ε)が小さければ終了•より信頼上限が小さい腕は排除
•探索候補腕全試し