HackerNews

主要なAIエージェントのGoogle reCAPTCHA v2に対するベンチマーク評価

Benchmarking leading AI agents against Google reCAPTCHA v2

https://research.roundtable.ai/captcha-benchmarking/

本記事では、Claude Sonnet 4.5（Anthropic）、Gemini 2.5 Pro（Google）、GPT-5（OpenAI）の3つのAIモデルがGoogleのreCAPTCHA v2に挑戦し、その性能を比較しました。結果、Claude Sonnet 4.5が60%の成功率で最も優れており、Geminiが56%で続き、GPT-5は28%と大幅に劣悪でした。各モデルは静的な挑戦で最も良い結果を出し、交差タイル挑戦では最も悪い結果を示しました。特に、GPT-5は長時間の推論を行い過ぎ、作業の流れが停滞してタイムアウトを招くことが多かったため、他のモデルと比較して性能が低下しました。また、リロード型の挑戦では、正しい選択をした後に新しい画像が現れるため、エージェントが誤って前のクリックをやり直そうするといった失敗ループに陥ることが多く見受けられました。このように、CAPTCHAの挑戦に対して各AIモデルの性能には明確な差がありました。