本論文では、多様な言語における論理推論能力を比較するための高品質なデータセットを用意した「MultiZebraLogic」という多言語論理推論ベンチマークを提案しています。大規模言語モデル(LLM)の性能を総合的に測定するためには、様々なタスクに特化したベンチマークが必要です。著者たちは、14種類の手がかりと8種類の不明瞭な手がかりを使って、異なる規模やテーマのゼブラパズルを生成し、難易度を調整しました。特に、2x3と4x5サイズのパズルは、異なる推論能力を持つLLM(例えばGPT-4o miniやo3-mini)に適した難易度です。また、デンマーク語と英語間での性能差は見られず、手がかりの種類と難易度の関連性も確認されませんでした。最終的に、9つのゲルマン語に対して128+1024のパズルデータセットを公開し、さらに多様な言語やテーマへの適応が可能なパズル生成コードも提供しています。