CircuitSeer: 数学的推論回路を探ることで高品質データを採掘する

CircuitSeer: Mining High-Quality Data by Probing Mathematical Reasoning Circuits in LLMs

本記事では、CircuitSeerという新しいデータ選択手法を提案しています。大規模言語モデル（LLMs）は優れた推論能力を持っていますが、そのパフォーマンス向上には膨大な推論データセットが必要であり、訓練コストが高くなります。従来のデータ選択法は高品質なサブセットを選定しますが、高価な外部モデルや不透明なヒューリスティックに依存することが多いです。本研究では、外部ヒューリスティックからモデル内部のメカニズムに焦点を移し、複雑な推論タスクが特定の注意ヘッドを活性化させることを発見しました。この気づきを基に、CircuitSeerはデータがこれらの重要回路に与える影響を測定することで推論の複雑さを定量化し、データ選択を行います。実験では、選択したデータの10%のみでファインチューニングを行った場合、フルデータセットの訓練に比べて1.4ポイントの性能向上を示し、その効率性と有効性を強調しています。