TaxCalcBench: 税計算タスクにおける最前線モデルの評価

本記事では、米国の個人所得税計算にAIがどの程度対応できるかを評価するためのベンチマーク「TaxCalcBench」を提案しています。税計算は膨大な英語のテキスト理解を要し、正確な結果を出すためには高い計算能力が求められます。実験の結果、最新のモデルでも簡略化したサンプルセットにおいて、連邦所得税申告の計算に成功したのは3分の1未満にとどまりました。分析の結果、モデルは税表の誤用、計算ミス、適格判定の誤りが頻繁に見られ、個人所得税計算においてLLMを適用するための追加のインフラが必要であることが示唆されました。