StarBench: エージェント主体のマルチモーダル意思決定と情報探索のためのターン制RPGベンチマーク

StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking

本記事では、ターン制RPG「Honkai: Star Rail」を基にした新しいベンチマーク「StarBench」を紹介しています。このベンチマークは、視覚と言語のモデル（VLMs）が、人間のプレイヤーが行うようなマルチモーダルな意思決定と情報探索を行えるかを評価することを目的としています。StarBenchは、8つの戦闘タスクを通じて2つの異なる操作方法（直接制御とツール支援制御）を評価します。特に、エージェントがいつどうやって情報を求めるか、その行動がパフォーマンスに与える影響も測定します。結果的に、直接制御の場面では、知覚と操作の間に大きなギャップが見られましたが、情報を適切に求めることは成功に関連していることが分かりました。StarBenchは、エージェントの情報探索と意思決定に関する新たな基準を提供します。