反応性を超えて：LLMエージェントにおける積極的問題解決の測定

LLM（大規模言語モデル）ベースのエージェントは、指示を待つのではなく、ユーザーのニーズを予測し、自律的に問題を解決する方向に進化しています。しかし、プロアクティブな能力を評価することは難しく、既存のベンチマークは局所的な文脈に制約されているため、複数の情報源や長期的な思考を必要とする推論を試験する能力に限界があります。この課題に対処するために、著者らはPROBE（プロアクティブなボトルネック解決）を提案し、これはプロアクティブ性を未指定の問題を探したり、特定のボトルネックを特定したり、適切な解決策を実行するという3つのコア能力のパイプラインとして分解します。最先端のLLMやエージェントフレームワークにPROBEを適用した結果、GPT-5とClaude Opus-4.1の40%のパフォーマンスが最高であることが分かり、各モデルの相互の能力や失敗パターンを分析しました。この研究は、エージェントシステムにおける自律的な行動の限界を際立たせ、今後の研究の可能性を示唆しています。