ワールドモデル学習のベンチマーキング

この研究は、世界モデルを学習するエージェントのための新しい評価プロトコル「WorldTest」を提案しています。現在の手法は次フレーム予測に依存しており、同じ環境内での報酬最大化によって成功を評価しますが、ため、エージェントが多様なタスクを効率的に学習するための情報収集を妨げる可能性があります。WorldTestは、報酬のない相互作用から関連する異なる環境での評価へと移行し、多様なタスクをサポートできるモデルの柔軟性を評価します。本研究では、43のインタラクティブなグリッドワールド環境と129のタスクを含む「AutumnBench」を用いて、517人の人間参加者と3つの最先端モデルを比較しました。結果、ヒューマンがモデルよりも優れた性能を示し、計算能力のスケーリングが一部の環境でのみ性能向上につながることが分かりました。これは、環境のダイナミクスに関するエージェントの学習を評価する新しいテンプレートを提供します。