Agent-Omni: モデル協調によるテスト時マルチモーダル推論であらゆる理解を目指す

Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

マルチモーダル大規模言語モデル（MLLM）は強力な能力を示していますが、固定のモダリティペアに制限され、大規模な整合データセットでの高コストなファインチューニングが必要です。この課題を解決するため、本論文では「Agent-Omni」フレームワークを提案します。このフレームワークは、マスターエージェントシステムを通じて既存の基盤モデルを協調的に活用し、再学習なしで柔軟なマルチモーダル推論を実現します。マスターエージェントはユーザーの意図を解釈し、モダリティ特化エージェントにサブタスクを委任、出力を統合して一貫した応答を生成します。多様なテストにおいて、Agent-Omniは先端的な性能を一貫して達成し、特に複雑なクロスモーダル推論が要求されるタスクでの優れた結果を示しています。このエージェントベースの設計により、専門的な基盤モデルのシームレスな統合が可能となり、多様な入力に適応しつつも透明性と解釈可能性を保持します。さらに、このフレームワークはモジュラーで拡張性が高く、今後の強力なモデルによる改良も容易です。