本研究は、バーチャルリアリティ(VR)ゲームにおけるプレイヤーの行動を、物理デバイスの操作に翻訳する能力を評価するためのベンチマーク「ComboBench」を紹介します。VRゲームでは、プレイヤーがコントローラーやヘッドマウントディスプレイを使って高レベルな意味的行動を正確に操作する必要があります。この研究では、GPT-3.5、GPT-4、Gemini-1.5-Proなど7つの大規模言語モデル(LLM)が、4つの人気VRゲームの262のシナリオにおいて意味的行動を操作シーケンスに変換する能力を評価しました。結果として、Gemini-1.5-Proなどのトップモデルは優れたタスク分解能力を示しましたが、手続き的推論や空間理解においては人間に劣ることが明らかになりました。また、パフォーマンスはゲームの相互作用の複雑さに大きく依存し、少数の例を使用することでパフォーマンスが大幅に向上する可能性が示唆されました。