本研究は、医療分野において急増する大規模言語モデル(LLM)を用いた臨床試験レポートのCONSORT基準に沿った評価能力について探求する。特に、モデルの認知的・推論的戦略に焦点を当て、専門家により検証されたデータを用いて、二つの代表的なLLMを三つのプロンプト条件下で系統的に比較した。その結果、各モデルがCONSORTの項目に対してどのようにアプローチしているかに顕著な違いが見られ、推論スタイルの変化や明示的な不確実性、代替解釈が応答パターンに影響を与えていることが確認された。この研究は、医療AIの信頼性と説明可能性を高めるために、現在のシステムの限界を明らかにし、彼らの認知的適応と戦略的行動を理解する重要性を強調している。