Ko-MuSRは、長い韓国語の物語における多段階のソフト推論を包括的に評価するための初のベンチマークです。このベンチマークは、MuSRに基づいて構築されており、完全に韓国語で構成された物語、推論の連鎖、及び論理的一貫性と回答可能性を確認した選択肢問題を含んでいます。評価には、2つの多言語モデルと2つの韓国語専門モデルが使用され、韓国語の推論タスクにおいても多言語モデルが韓国語モデルを上回る結果が示されました。また、少数の例、推論の痕跡、タスク特有のヒントを組み合わせた慎重に設計されたプロンプティング戦略が精度をさらに向上させ、人間レベルのパフォーマンスに近づくことができました。Ko-MuSRは、韓国語自然言語処理(NLP)の進展に向けた体系的な評価を可能にする基盤を提供します。