CareMedEvalは、バイオメディカル分野における科学文献の批判的評価を評価するために設計された独自のデータセットです。このデータセットは、フランスの医学部学生が受けた実際の試験から派生した534の質問を含み、37の科学論文に基づいています。近年の大規模言語モデル(LLMs)の支援が期待される一方で、専門的な領域における信頼性は制限されており、特に研究の限界や統計分析に関する質問に対するモデルの性能は厳しいものでした。CareMedEvalは現状のLLMの限界を明らかにし、批判的評価のための自動支援技術の将来的な発展への道を開く挑戦的なベンチマークを提供します。