arXiv cs.LG

行動基盤モデルのための楽観的タスク推論

Optimistic Task Inference for Behavior Foundation Models

http://arxiv.org/abs/2510.20264v1


行動基盤モデル(BFM)は、テスト時に指定された報酬関数に基づいて高性能のポリシーを取得する能力を持ち、これをゼロショット強化学習(RL)と呼びます。しかし、BFMは計算効率が高い一方で、推論データセット上での報酬計算が必要であるため、データ効率が課題となります。この問題を克服するために、著者たちはテスト時の環境とのインタラクションを通じてタスク推論を行う「OpTI-BFM」という楽観的決定基準を提案します。この手法は、報酬関数に対する不確実性をモデル化し、タスク推論のためのデータ収集を導きます。また、提案された手法は、上限信頼度アルゴリズムに基づく理論的な後悔境界を提供し、実験的には、ゼロショットのベンチマークでのBFMの性能向上が確認されています。