arXiv cs.AI

オクトパス:六つの能力オーケストレーションによるエージェント的マルチモーダル推論

Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestration

http://arxiv.org/abs/2511.15351v1


本記事では、新たに提案された「オクトパス」モデルについて説明しています。このモデルは、マルチモーダル推論におけるエージェント的な能力を強化するために、六つのコア能力を定義し、それに基づいた評価基準である「オクトパス・ベンチ」を設置しました。既存のマルチモーダル推論モデルは自律的に多様な推論経路を探索する能力に欠け、現実のタスクにおいて動的な能力要求に適応することが難しいとされています。一方、オクトパスは推論中に自律的に探索し、状況に応じて最も適切な能力を選択することができます。実験結果では、オクトパスがオクトパス・ベンチにおける多数のタスクで最良のパフォーマンスを示し、能力の統合がエージェント的マルチモーダル推論において重要であることが示されています。