この記事では、スロベニア語に特化した初のプラグマティクス理解ベンチマーク「SloPragEval」と「SloPragMega」を紹介しています。これらは405の選択肢質問から構成され、言語モデルの進化に伴い、単なる言語能力を超えた評価の必要性が高まっています。著者たちは、文脈や文化的規範によって形作られる状況的意味を理解する能力を評価しようとしています。また、翻訳の困難さや人間の基準を確立するための取り組みについても説明しています。最近の結果では、モデルは微妙な言語を理解する能力が向上しているものの、文化特有の非文字的発言からの意味を推測するのに課題が残ることが示されています。企業製とオープンソースモデルの間に大きなギャップも観察されており、プラグマティクス理解のベンチマークは慎重に設計されるべきと結論づけています。