arXiv cs.AI

ドメイン特化型要約とタグ付けのためのファインチューニングされた言語モデル

Fine-Tuned Language Models for Domain-Specific Summarization and Tagging

http://arxiv.org/abs/2510.25460v1


本論文では、ファインチューニングされた大規模言語モデル(LLM)と名前付きエンティティ認識(NER)を統合したパイプラインを提案し、ドメイン特化したテキストの要約とタグ付けを効率的に行う方法を示しています。著者たちは、急速に進化するサブカルチャーの言語やスラングによる自動情報抽出や法執行監視の難しさを扱い、政治やセキュリティ分野の一般的およびカスタムドメイン特化型データセットでLLMのファインチューニングを実施しました。評価はBLEUおよびROUGE指標を用いて行い、特に専門的コーパスにおいて要約とタグ付けの精度が向上することを示しました。LLaMA3-8B-Instructモデルは、中国語の理解に限界があったにもかかわらず、ドメイン特化型ファインチューニングの後に中国語訓練モデルを上回る結果を示し、推論能力が言語を超えて転移する可能性を示唆しています。このアプローチは、迅速な文書分類と情報管理の効率化を支援し、現代の知識管理やセキュリティオペレーションにおいて重要な洞察を得るための堅牢なソリューションを提供します。