arXiv cs.AI

LLMの事前訓練コーパスにおける行レベルフィルタリングを超えて

Beyond Line-Level Filtering for the Pretraining Corpora of LLMs

http://arxiv.org/abs/2510.24139v1


本論文では、従来の行レベルフィルタリング手法(行レベルの重複排除や後続句読点フィルタリングなど)が持つ限界点を指摘し、重要なコンテンツを捨ててしまう可能性について述べています。著者は、従来の手法を強化するために、パターン認識に基づく行レベルの重複排除(PLD)と後続句読点フィルタリング(PTF)という二つの新しい方法を提案しています。これらの手法は、行単独の信号だけでなく、文書間の順序分布も考慮することで、構造的に重要な内容を保持できるようにしています。英語と韓国語での小型言語モデルの訓練を通じて、この新しいアプローチが複数選択肢のベンチマークにおいて性能を一貫して向上させ、生成的Q&Aの精度を顕著に改善することが確認されました。