Open-o3ビデオ：明示的な時空間証拠を用いた地に足のついたビデオ推論

本記事では、ビデオ推論モデルの新たなアプローチである「Open-o3 Video」について紹介されています。従来のモデルは、テキストによる推論の痕跡を生成するだけで、重要な証拠の発生時期や場所を示すことができませんでした。Open-o3は、画像に対する証拠重視の推論に関心を集めましたが、ビデオへの応用は、動的なシーンを通じての時間追跡と空間特定が求められるため、より困難です。この新しいフレームワークでは、明示的な時空間証拠を統合し、トレーニングデータの収集と戦略設計を行うことで、この課題に対処しています。モデルは、回答に加えて重要なタイムスタンプやオブジェクトを示し、視覚的観察に基づいた推論を可能にします。さらに、Open-o3 Videoは、V-STARベンチマークで最先端の性能を達成し、さまざまなビデオ理解ベンチマークでも改善が見られました。