本記事では、自然言語処理技術(LLM)を活用したベンチマーク設計の自動化に関する新しいフレームワーク「BeTaL」を提案しています。従来の手作りの静的なベンチマークは評価が飽和する一方、動的ベンチマークはモデルと共に進化しますが、作成と更新が高コストです。BeTaLはベンチマークテンプレートのデザイン選択をパラメータ化し、LLMを利用して目標特性(難易度やリアリズムなど)を経済的に導き出します。このアプローチにより、期待される難易度に近い3つのベンチマークを作成し、従来の方法と比べて2-4倍の精度向上を実現しました。