ORCAベンチマーク: 大規模言語モデルにおける実世界の計算精度評価

The ORCA Benchmark: Evaluating Real-World Calculation Accuracy in Large Language Models

ORCA（Omni Research on Calculation in AI）ベンチマークは、大規模言語モデル（LLMs）の多様なドメインにおける実生活の定量的推論を評価する新しいベンチマークである。計500の自然言語タスクを通じて、ChatGPT-5やGemini 2.5 Flash、Claude Sonnet 4.5などの5つの先進的なシステムが、全体で45％から63％の精度を達成し、主に丸め誤差（35％）や計算ミス（33％）が原因であった。特定のドメインにおける結果は、数学や工学には強みがある一方で、物理学や自然科学には弱みがあることを示している。相関分析はモデルが同時に失敗することが多いが、誤りの種類が異なることを示しており、部分的な補完性を強調している。ORCAは標準的な数学データセットと異なり、実際の問題からの段階的な推論、数値の精度、ドメイン一般化を評価することに重点を置いている。