この記事では、大規模法律埋め込みベンチマーク(MLEB)について紹介されています。MLEBは、法律情報検索のための最も大規模で多様性に富んだオープンソースのベンチマークで、米国、英国、EU、オーストラリア、アイルランド、シンガポールなどの法域をカバーしています。これには、法的文書の種類(裁判例、立法、規制ガイダンス、契約、文献)や、タスクの種類(検索、ゼロショット分類、質問応答)が含まれます。MLEBには新たに構築された7つのデータセットがあり、オープンソースの法律情報検索領域におけるドメインや法域のギャップを埋めることを目的としています。この記事では、MLEBの構築方法論と新しいデータセットの作成方法を詳述し、再現可能な評価を支援するために、コード、結果、データをオープンに公開しています。