arXiv cs.AI

認知能力の多面的分析:CONSORTチェックリストにおける大規模言語モデルのプロンプト手法の評価

A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist

http://arxiv.org/abs/2510.19139v1


本研究は、医療分野において急増する大規模言語モデル(LLM)を用いた臨床試験レポートのCONSORT基準に沿った評価能力について探求する。特に、モデルの認知的・推論的戦略に焦点を当て、専門家により検証されたデータを用いて、二つの代表的なLLMを三つのプロンプト条件下で系統的に比較した。その結果、各モデルがCONSORTの項目に対してどのようにアプローチしているかに顕著な違いが見られ、推論スタイルの変化や明示的な不確実性、代替解釈が応答パターンに影響を与えていることが確認された。この研究は、医療AIの信頼性と説明可能性を高めるために、現在のシステムの限界を明らかにし、彼らの認知的適応と戦略的行動を理解する重要性を強調している。