エージェントオムニ：モデル調整によるテスト時のマルチモーダル推論で何でも理解する

Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

本論文では、既存の基盤モデルをマスターエージェントシステムで調整し、テキスト、画像、音声、動画といった異なるモダリティを統合するエージェントオムニフレームワークを提案します。このフレームワークは再訓練を必要とせず、ユーザーの意図を解釈し、特定のモダリティエージェントにタスクを委任するとともに、得られた出力を一貫した応答に統合します。実験結果から、エージェントオムニは、特に複雑なクロスモーダル推論を要するタスクにおいて、最先端の性能を達成することが示されました。また、このエージェントベースの設計により、専門的な基盤モデルをシームレスに統合し、さまざまな入力に適応しつつ透明性と解釈可能性を維持することが可能です。さらに、このフレームワークはモジュラーかつ拡張可能であり、将来の強力なモデルの登場に対応した改善が容易に行えます。