FilBenchは、大規模言語モデル(LLM)がフィリピン語、特にタガログ語やセブアノ語の理解と生成能力を評価するために開発された総合評価ツールです。フィリピンはChatGPTの利用が非常に活発であり、利用者は世界的に見ても上位に位置しますが、LLMの言語パフォーマンスについては明確な理解が欠けていました。FilBenchは文化的知識、古典NLP、読解力、生成の4つの主要カテゴリーにわかれ、12のタスクを通じて評価を行います。各カテゴリーは、フィリピン言語に関連する研究と使用の傾向を反映するように策定されています。評価結果は、フィリピン語におけるLLMの能力を計測するための貴重なデータを提供します。具体的なタスクには、感情分析、翻訳、読解理解などが含まれており、フィリピン語使用の実態に即した評価が可能です。