本論文では、ディープ検索エージェントの評価を目的とした新しいベンチマーク「HSCodeComp」を紹介します。このベンチマークは、法律条項や医療マニュアル、関税ルールなどの複雑なルールを扱う能力を評価するもので、特に異なる製品カテゴリに基づく632の製品エントリを含んでいます。エージェントは、実際の説明から10桁のHarmonized System Code(HSCode)を予測することが求められますが、現状のベンチマークではこの重要な能力が無視されてきました。実験結果によると、最良のエージェントは46.8%の精度しか達成できず、専門家の95.0%には大きな差があります。この研究は、ディープ検索エージェントの性能向上の足掛かりとなることを目指しています。