OpenMMReasoner: オープンで一般的なレシピを用いたマルチモーダル推論の最前線を推進する

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

最近の大規模推論モデルの進展に伴い、マルチモーダル領域における能力の拡張に対する関心が高まっています。特に視覚的推論において進展が見られますが、データの透明性や再現性が欠如しているため、スケーラブルな研究には大きな障壁があります。本研究では、OpenMMReasonerという、監視付きファインチューニング(SFT)と強化学習(RL)を含む完全に透明な二段階のレシピを提案します。SFT段階では874Kサンプルのデータセットを構築し、厳密なステップバイステップの検証を行います。次に、執行した74Kサンプルのデータセットに基づくRL段階で推論能力をさらに強化します。この方法は、Qwen2.5-VL-7B-Instructのベースラインに対して11.6%の改善を達成し、将来の大規模マルチモーダル推論研究の実証的基盤を築きます。また、全てのコードやデータをオープンソースで公開しています。