この記事では、ツールを活用したエージェントにおけるスケーリングの重要性とその課題について述べています。特に、エージェントがツールコールの予算を意識しない場合、より多くのツールコールを許可しても性能が向上しないことが明らかになりました。著者たちは、エージェントに継続的な予算意識を与えるための「バジェットトラッカー」という軽量プラグインを導入し、これを基に「BATS(Budget Aware Test-time Scaling)」という高度なフレームワークを開発しました。BATSは、残りのリソースに基づいて計画と検証戦略を動的に適応させ、エージェントの行動を最適化します。全体のコストパフォーマンスを検討するために、新たなコストメトリックが導入され、予算意識のある方法がスケーリングにおいてより有利な曲線を示すことが実証されました。