TabR1: GRPOを用いた表形式推論LLMの制御

この記事では、TabR1という新しい推論LLM（大規模言語モデル）を紹介しています。従来の表形式の予測は、解釈性が限られた勾配ブースティング決定木や特化した深層学習モデルに依存していましたが、TabR1は多段階の推論を可能にします。中心となるのは、列の順列不変性を構造的先行知識として組み込むPermuation Relative Policy Optimization（PRPO）という強化学習手法です。この手法により、サンプルごとに複数のラベル保持順列を生成し、スパース報酬を密な学習信号に変換することで、LLMの推論能力を活性化します。実験結果では、TabR1はフルサポートの微調整において強力なベースラインと同等のパフォーマンスを示し、ゼロショット設定でも顕著な成果を上げていることが確認されました。さらに、TabR1（8B）は、より大規模なLLMに対しても優れた性能を示しました。