arXiv cs.AI

多様な合成コーディングタスクを通じてLLMのコーディング能力を向上させる

Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks

http://arxiv.org/abs/2510.23208v1


この記事では、大規模言語モデル(LLM)におけるコーディング能力の向上方法について述べています。著者らは、既存のデータセットが多様性や人間の推論に合わせたものが不足している点を指摘し、それを解決するための800,000件の指示・推論・コード・テストの四重項を生成する合成データ生成パイプラインを提案しています。このパイプラインは、選定されたコンテスト問題やウェブで収集した内容、推論パターンに基づくデータ拡張、そして実行ベースの多段階検証を組み合わせています。また、遺伝的突然変異アルゴリズムを用いてタスクの多様性を高めつつ、推論トレースとコード実装の一貫性を保っています。研究結果は、このデータセットでファインチューニングされたLLMがコーディングベンチマークで一貫して向上することを示しています。著者は、この推論中心の合成データ生成がLLMのコーディング能力を進展させる効率的なアプローチであると結論付けており、データセットと生成パイプラインを公開しています。