この記事では、ソフトウェアの品質保証におけるコードレビューの自動化に向けた大規模言語モデル(LLM)の新しいベンチマークであるContextCRBenchの導入が説明されています。既存のベンチマークは、セマンティックコンテキストの欠如、データ品質の問題、およびレビューの詳細な理解に必要な細かいレベルの推論の不足などの制限がありました。ContextCRBenchは、トップレベルのリポジトリから収集した153.7Kの課題とプルリクエストを基に、問題とプルリクエストのリンクによるテキストコンテキストの抽出や、古く不適切なサンプルを除去するための多段階データフィルタリングを行い、67,910のコンテキストが豊富なエントリーを作成しました。このベンチマークは、コードレビューのワークフローに沿った内容で評価を行い、テキストコンテキストを用いた評価が優れたパフォーマンス向上を示す一方、目前のLLMが人間のレビュー能力には程遠いことも明らかになりました。