医療キャプショニングのためのMedGemmaのファインチューニング：マレーシアのCPGにおけるマルチモーダルRAGの強化

Fine-Tuning MedGemma for Clinical Captioning to Enhance Multimodal RAG over Malaysia CPGs

本研究では、マレーシアの臨床診療ガイドライン（CPG）からの事実に基づくガイダンスを提供するためのRetrieval-Augmented Generation（RAG）システムに着目し、画像ベースのクエリに対する有効性が限られている問題を解決します。特に、一般的な視覚言語モデルのキャプションは臨床的な特異性や事実に基づいた内容が不足しています。これを受けて、医療用のMedGemmaモデルを特化させ、高忠実度のキャプションを生成するフレームワークを提案し、バリデーションを実施しました。データ不足を克服するために、皮膚科、眼底、胸部X線の領域にわたる合成データセットを作成し、QLoRAという効率的なパラメータでMedGemmaをファインチューニングしました。性能評価は、分類精度とキャプションの信頼性、関連性、正確性を計測する新しいRAGASフレームワークを通して厳密に行われ、ファインチューニングしたモデルは顕著な改善を示しました。これにより、医療用視覚言語モデルの特化と、根拠に基づく臨床意思決定支援の強化に向けた確固たるパイプラインが確立されました。