この記事では、大規模言語モデル(LLM)の希少疾病の診断能力を評価するための研究が紹介されています。著者らは、医療教育における希少疾病認知を教えるために検証された医療テレビシリーズ「House M.D.」から抽出した176の症状と診断のペアからなる新しいデータセットを導入し、GPT 4o mini、GPT 5 mini、Gemini 2.5 Flash、Gemini 2.5 Proといった4つの最先端LLMを評価しました。その結果、正確性は16.48%から38.64%の範囲で変動し、新しいモデル世代は2.3倍の改善を示しました。すべてのモデルは希少疾病の診断において大きな課題に直面していますが、観察された改善は今後の発展において有望な方向性を示唆しています。この研究は、物語に基づく医療推論の基準性能指標を確立し、AI支援診断研究を進めるための公共の評価枠組みを提供しています。