MENTOR: 小規模モデルの教師最適化報酬によるモデル強化のための強化学習フレームワーク

MENTOR: A Reinforcement Learning Framework for Model Enhancement via Teacher-Optimized Rewards in Small Models

本記事では、小規模言語モデル（SLMs）の実用的な応用に向けて、大規模言語モデル（LLMs）のツール利用能力を抽出する重要な課題について述べています。従来の監視下でのファインチューニング（SFT）は、静的な教師の軌跡を模倣することに依存し、一般化性能が低下する問題があります。この課題を解決するために、本研究では、教師による蒸留と強化学習（RL）を組み合わせた新しいフレームワーク「MENTOR」を提案します。MENTORは、単なる模倣ではなく、探索を通じてより一般化されたポリシーを学ぶRLプロセスを利用し、教師の参照軌跡を用いて密な報酬を生成することで、報酬のスパース性を克服します。実験結果により、MENTORはSFTや従来のスパース報酬RLに比べ、SLMsのドメイン間一般化能力と戦略的能力を大幅に向上させることが示されています。