オリオン: マルチモーダル知覚、進化した視覚推論と実行のための統合ビジュアルエージェント

Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

オリオンは、あらゆるモダリティを取り込み、生成することができる視覚エージェントフレームワークです。このシステムは、従来の視覚言語モデルとは異なり、複数のコンピュータビジョンツールを活用し、複雑な視覚ワークフローを実行します。具体的には、物体検出、キーポイントの位置特定、全体的なセグメンテーション、光学文字認識、幾何学的分析などを組み合わせ、強力なツール駆動型の視覚知能を実現しています。オリオンは、MMMU、MMBench、DocVQA、MMLongBenchといったベンチマークで競争力のある性能を示し、従来の視覚言語モデルから生産品質の視覚知能へと進化しています。神経的知覚とシンボリック実行を組み合わせることで、自律的な視覚推論を可能にし、受動的な視覚理解から能動的な視覚知能への移行を示しています。