arXiv cs.AI

ツール拡張による具現化質問応答のための多段階推論

Multi-Step Reasoning for Embodied Question Answering via Tool Augmentation

http://arxiv.org/abs/2510.20310v1


この記事では、具現化質問応答(EQA)においてエージェントが3D環境を探索し、シーンに関連する質問に答える能力を向上させる新手法を提案しています。従来の手法では、環境を直接探索することで質問に答えるため、推論能力に限界があり、過剰で非効率的な探索や不適切な応答が見られました。これに対し、本研究では、外部ツールを統合し多段階推論を支援する「ToolEQA」を導入し、タスク完了のためにより有用な情報を提供します。このアプローチにより、ToolEQAは短い探索距離でより正確な応答を生成できるようになります。また、推論軌跡と対応する回答を持つ大規模なEQAタスクを自動生成するための新しいデータ生成パイプラインを設計し、約18,000のタスクを含むEQA-RTデータセットを収集しました。実験結果から、ToolEQAは最新のベースラインに対して成功率を9.2~20.2%向上させ、さまざまなデータセットにおいても優れた性能を示しています。