MathSE: 自己進化的な反復反省と報酬ガイドによる多モーダル数学推論の向上

MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

本研究では、多モーダル大規模言語モデル（MLLM）が直面する複雑な数学問題解決における課題を克服するための新しいフレームワーク「MathSE」を提案します。従来の手法は固定的な教師モデルによるデータセットに依存しており、これによりモデルの柔軟性が制限され、新しい複雑な問題への適応力が低下します。MathSEは、推論、反省、報酬に基づくフィードバックの反復サイクルを通じてモデルを洗練させる自己進化的な方法を採用しています。このアプローチにより、以前の推論から得た正しい推論経路を取り入れ、専門の成果報酬モデルからの反省を統合することが可能です。評価の結果、MathSEは既存のモデルに対し、特にMathVL-testにおいて顕著な性能向上を示しました。これにより、効率的かつ効果的な数学的推論の能力を持つモデルの実現に寄与します。