arXiv cs.AI

再構築された再帰を用いた事前学習言語モデルの深い思考の教え方

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

http://arxiv.org/abs/2511.07384v1


この記事では、深さ再帰言語モデルの最近の進展に焦点を当て、非再帰の事前学習言語モデルを深さ再帰モデルに変換する方法を探求しています。研究者たちは、トレーニングの際に再帰のカリキュラムを使用してモデルの有効な深さを増すことで、パフォーマンスを維持しつつ計算コストを削減できることを発見しました。特に数学に関する実験では、事前学習モデルを再帰的なものに変換することで、同じ計算予算内で元の非再帰モデルを再トレーニングするよりも優れたパフォーマンスが得られることが観察されています。新しいアプローチが、言語モデルの性能向上と計算効率化に寄与する可能性が示唆されています。