コード駆動の数列計算：大規模言語モデルの帰納的推論能力を強化する

Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models

この記事では、大規模言語モデル（LLMs）が帰納的推論タスクにおいてどのように進展を遂げているかを論じています。特に、現行の帰納的データは表面的な規則に偏っており、より複雑な内部パターンが不足しています。著者たちは、数列を利用し、アルゴリズム問題として包み込むことで、一般項生成（GTG）タスクを定義する新たなデータセット『CodeSeq』を提案しています。このデータセットは、失敗したテストケースの再評価と反復的な修正を通じて、LLMsに自律的なケース生成と自己チェックを学ばせる仕組みを提供します。また、問題の通過率と自己生成ケースの成功率に基づく報酬を用いた強化学習が活用され、成功と失敗の両方からモデルがより効果的に学べるようになっています。実験結果は、CodeSeqで訓練されたモデルがさまざまな推論タスクで改善され、他のデータに対する性能も維持できることを示しています。