WebDevJudge: ウェブ開発品質の批評としての(M)LLMの評価

WebDevJudgeは、ウェブ開発におけるLLM（大規模言語モデル）を評価するための体系的なベンチマークを提供します。従来の人間による評価に代わるスケーラブルで効率的な手法として注目されるLLMを、静的観察に基づく非インタラクティブ評価や動的ウェブ環境における連続インタラクティブ評価を通じて評価します。このベンチマークでは、人間の好みのラベルを使い、高品質な基準を保証するための構造化されたルブリックを活用しています。研究結果は、LLMによる評価と人間の専門家との間に顕著なギャップが存在することを示しており、このギャップは機能的等価性の認識やタスク実行可能性の検証、不偏見の軽減におけるモデルの限界から生じていることがわかりました。WebDevJudgeは、より信頼性の高い自動評価装置の開発に向けた未来の研究への洞察を提供します。