ツールを使用して推論する言語モデルの教育

本記事では、大規模推論モデル（LRMs）におけるツールの利用方法について述べています。これらのモデルは自然言語推論で優れた能力を示す一方で、複雑な数学的操作に取り組む際に効率が悪かったり、不正確な結果になることがあります。計算ツールとの統合が有望な解決策であるものの、内部の確率的推論と外部の決定論的知識との間に対立を引き起こすことがあるため、モデルが非生産的な熟考をすることがしばしばです。この課題を克服するために、CoRT（Code-Optimized Reasoning Training）というフレームワークを提案し、ユーザーに最適なポイントで多様なヒントを注入する新しいデータ合成戦略「Hint-Engineering」を実行します。このアプローチにより、LRMと計算ツールの相互作用を最適化した高品質なデータを生成。実験結果では、数学的推論データセットにおいて絶対的な改善を示し、モデルの効率を大幅に向上させることを実証しています。