グランツーリスモのための自動報酬設計

本論文では、強化学習（RL）エージェントを設計する際の報酬関数の自動設計方法について述べています。RLエージェントの設計者は、行動に対する報酬や罰として数値的フィードバックである報酬関数を定義することで、エージェントの行動をコミュニケートします。しかし、特に自動運転レースのような複雑な環境において、望ましい行動を報酬関数にマッピングするのは難しいプロセスです。この研究では、基盤モデルを活用し、テキストベースの指示に基づいてグランツーリスモ7のために望ましいRLエージェントを生成するための報酬関数を検索する方法を示しています。LLMを用いた報酬生成とVLMによる評価、さらには人間のフィードバックを組み合わせることで、GT SophyというチャンピオンレベルのRLエージェントに匹敵するレースエージェントを生成し、新たな行動を創出することで、実世界の応用に向けた実用的な自動報酬設計の道を拓いています。