LLMの事前訓練コーパスにおける行レベルフィルタリングを超えて

本論文では、従来の行レベルフィルタリング手法（行レベルの重複排除や後続句読点フィルタリングなど）が持つ限界点を指摘し、重要なコンテンツを捨ててしまう可能性について述べています。著者は、従来の手法を強化するために、パターン認識に基づく行レベルの重複排除（PLD）と後続句読点フィルタリング（PTF）という二つの新しい方法を提案しています。これらの手法は、行単独の信号だけでなく、文書間の順序分布も考慮することで、構造的に重要な内容を保持できるようにしています。英語と韓国語での小型言語モデルの訓練を通じて、この新しいアプローチが複数選択肢のベンチマークにおいて性能を一貫して向上させ、生成的Q&Aの精度を顕著に改善することが確認されました。