大規模言語モデル(LLMs)が医療分野に進出する中、これまでのベンチマークは主に質問応答や記述的推論を評価しており、臨床判断に不可欠な定量的推論が欠けている。既存のデータセットであるMedCalc-Benchは計算タスクが少なく、実際の計算シナリオを反映できていない。本稿では、医療計算能力を評価するための最も大きなベンチマークであるMedCalc-Evalを紹介する。これは700以上のタスクで構成され、方程式ベース(例:Cockcroft-Gault、BMI)とルールベースの評価システム(例:Apgar、Glasgow Coma Scale)の2種類が含まれる。これらのタスクは内科、外科、小児科、心臓病学など多様な専門分野を網羅し、より広範で挑戦的な評価環境を提供する。さらに、MedCalc-Envという強化学習環境を開発し、臨床的な多段階推論と計画を可能にし、Qwen2.5-32Bモデルの成果を向上させた。課題としては単位変換や多条件論理、文脈理解が残っている。