arXiv cs.AI

CARE-RAG - RAGにおける臨床評価と推論

CARE-RAG - Clinical Assessment and Reasoning in RAG

http://arxiv.org/abs/2511.15994v1


本稿では、臨床における大規模言語モデル(LLM)の推論能力と、その裏にある情報収集とのギャップについて検討します。特に、医療現場では出力が構造化されたプロトコルに一致する必要があり、適切な証拠へのアクセスが必ずしも正確な推論を保証しないという問題が重要視されます。本研究では、Written Exposure Therapy(WET)ガイドラインをテストベッドとして用い、強化された出力生成(RAG)が生成物を制約する一方で、安全な展開には推論の厳密な評価が必要であることを示します。評価フレームワークを提案し、精度、一貫性及び忠実性を測定することで、LLMの潜在的なリスクと可能性を明らかにします。