APTBenchは、基本的なLLM(大規模言語モデル)の事前学習段階におけるエージェントの能力を評価するための新しいフレームワークです。現在の事前学習ベンチマークは、孤立した静的スキルに焦点を当てており、モデルのエージェント能力を反映していません。一方でエージェント向けのベンチマークは主に後処理されたモデルに対して設計されており、基本モデルには対応できない多段階タスク実行能力を要求します。そのため、事前学習中のエージェントの可能性を評価し、モデル訓練を効果的に指導する新たな基準が必要とされています。APTBenchは、現実のエージェントタスクと成功した経路を、基本モデル向けの選択肢問題やテキスト補完問題に変換します。これにより、計画やアクションなどの主要なエージェント能力に焦点を当て、ソフトウェア工学や深い研究といった重要なシナリオをカバーします。APTBenchは、既存の一般的なベンチマークよりもモデルの実行性能をより予測的に示す一方で、フルスケールのエージェント評価よりも軽量でコスト効果的です。