大規模言語モデル(LLM)の指示従い能力は、会話エージェントから複雑な推論システムまで、多くのアプリケーションにとって重要です。しかし、現在の評価は主に英語モデルに焦点を当てており、他の言語の言語的および文化的ニュアンスを無視しています。特に、韓国語に関しては、独自の構文や豊富な形態素特性、敬語システム、二重番号システムを持ちながらも、オープンエンドの指示従い能力を評価するための専用のベンチマークが不足しています。このギャップを埋めるために、Korean Instruction-following Task Evaluation(KITE)という包括的なベンチマークを導入します。KITEは、一般的および韓国特有の指示を評価することを目的とし、事実に基づく知識や選択肢テストに主に焦点を当てた既存の韓国語ベンチマークとは異なり、多様なオープンエンドのタスクを直接ターゲットにします。この評価パイプラインでは、自動評価指標と人間による評価を組み合わせており、モデル間のパフォーマンスの違いを明らかにし、その強みと弱みの深い洞察を提供します。KITEのデータセットとコードを公表することで、文化的および言語的に包括的なLLMの開発に向けたさらなる研究を促進し、他の少数派言語の同様の取り組みにインスピレーションを与えることを目指しています。