病院や医療システムは、患者の流れ、コスト、質の向上を決定する運営上の意思決定に依存しています。従来のテキストで訓練された基盤モデルは、医療運営に必要な専門知識が欠けることが指摘されています。この研究では、NYU Langone Healthの電子カルテからの臨床データを含む専門的なコーパスを使用して訓練されたLang1モデルを紹介します。実世界での評価のために、668,331件のEHRノートから得られた5つの重要なタスクを評価するREalistic Medical Evaluation(ReMedE)ベンチマークを開発しました。結果として、一般的なモデルと専門的なモデルの両方が、多くのタスクで性能が不十分であることが示されましたが、Lang1-1Bモデルは、ファインチューニング後に他の一般的なモデルを大幅に上回る結果を示しました。この研究は、病院運営における予測能力を向上させるには、専門的なファインチューニングが必要であることを示唆しており、効果的な医療システムに向けたAIの開発にはドメイン内の事前訓練と監督されたファインチューニングが不可欠であると結論付けています。