視覚知能の再考：ビデオ事前学習からの洞察

本論文では、視覚分野における大規模な事前学習が言語分野の成功に比べて効率的でない理由を探求しています。特に、動画拡散モデル（VDM）を新たなアプローチとして提案し、これらのモデルが時空間データでの事前学習を通じて、構造やダイナミクスに関する強いインダクティブバイアスを持つことを示しています。これにより、視覚タスクへの広範な適応能力が支援されると仮定しています。実験では、事前学習した言語モデル（LLM）とVDMを用いて、視覚ゲームや経路計画などの様々なタスクに対するデータ効率をテストしました。その結果、VDMは言語モデルよりも高いデータ効率を示し、視覚基盤モデルの進展に寄与する可能性があることが示されました。