DeepEyesV2: エージェント的マルチモーダルモデルの構築に向けて

本研究では、エージェント的マルチモーダルモデルであるDeepEyesV2を紹介し、データ構築、トレーニング手法、モデル評価の視点からその構築方法を探ります。理論的には、テキストや画像を理解するだけでなく、外部ツールを積極的に使用し、その操作を推論に統合する能力を持つことが求められます。従来の強化学習のみでは、ツール使用の一貫した行動を誘発できないため、冷スタート段階と強化学習段階の二段階のトレーニングパイプラインを提案します。加えて、実世界のマルチモーダル推論を評価するための包括的なベンチマークであるRealX-Benchも導入され、DeepEyesV2が各種の実世界理解や数学的推論、探索を必要とするタスクにおいて高い効果を示しました。このように、提案されたモデルは、コンテキストに応じてツールを適切に選択し、複雑なツールの組み合わせを実現する能力を持っています。