arXiv cs.AI

稀なICDコードのための合成臨床ノート:ロングテール医療コーディングのためのデータ中心フレームワーク

Synthetic Clinical Notes for Rare ICD Codes: A Data-Centric Framework for Long-Tail Medical Coding

http://arxiv.org/abs/2511.14112v1


自動ICDコーディングは医療NLPにおいて重要な課題ですが、診断コードの極端なロングテール分布によって妨げられています。特に、MIMIC-IIIなどのデータセットでは稀なICDコードが何千と存在し、それによりマクロF1スコアが低くなっています。本研究では、これらの不均衡を軽減するために、高品質の合成退院サマリーを生成するデータ中心のフレームワークを提案します。この方法では、実際の共起パターンやICDの記述、同義語、分類法、類似した臨床ノートを活用し、稀なコードに基づいた現実的なマルチラベルコードセットを構築します。これにより、90,000件の合成ノートを生成し、7,902のICDコードをカバーし、トレーニング分布を大幅に拡大しました。結果として、マクロF1スコアが若干向上し、マイクロF1スコアも良好なまま維持され、従来の手法を上回る性能を示しました。合成データを適切に活用することで、長尾のICDコード予測における公平性を向上させることができることを示しています。