UA-Code-Bench: ウクライナ語におけるLLMコード生成評価のための競技プログラミングベンチマーク

UA-Code-Bench: A Competitive Programming Benchmark for Evaluating LLM Code Generation in Ukrainian

「UA-Code-Bench」は、ウクライナ語における大規模言語モデル（LLM）のコード生成と競技プログラミングの問題解決能力を評価するために設計された新たなオープンソースベンチマークです。この記事では、500の問題が5つの難易度に分けられた形で収録されており、Eolympプラットフォームから取得されたものです。13種類の商用およびオープンソースモデルが評価され、Pythonソリューションを一発プロンプトに基づいて生成しました。その結果、最高性能のモデルであっても問題の半分しか解けないことが示され、低リソースな自然言語でのコード生成の難しさが浮き彫りになりました。また、さまざまな難易度における性能分析や解決策のユニーク性、生成されたソリューションの計算効率も評価されています。この研究は、評価が難しい少数語の言語モデルの評価における競技プログラミングベンチマークの重要性を示しており、将来的な多言語コード生成や推論強化モデルの研究への道を開くものです。