モデルのサイズは重要か？要件分類における小型と言語モデルと大型言語モデルの比較

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

本研究は、小型言語モデル（SLM）と大型言語モデル（LLM）の要件分類タスクにおけるパフォーマンスを比較しています。両モデルが自然言語処理（NLP）で著しい成果を上げる中、LLMは計算リソースが高く、データ共有のリスクも伴います。一方、SLMは軽量でローカルで展開可能な利点を持ちます。研究では、PROMISE、PROMISE Reclass、SecReqのデータセットを用いて、3つのLLMと5つのSLMを比較しました。結果、LLMの平均F1スコアはSLMより2%高かったものの、その差は統計的に有意ではありませんでした。SLMはほぼLLMに匹敵する性能を示し、PROMISE Reclassにおいてはリコール性能で優位に立つケースもありました。また、モデルのサイズよりもデータセットの特性がパフォーマンスに大きく影響することがわかりました。これにより、SLMはLLMに対する有効な代替手段であることが示され、プライバシーやコスト、ローカル展開の面での利点が強調されています。