スケーリング法則とモデルアーキテクチャの統合：推論効率的なLLMに向けて

本研究は、大規模言語モデル（LLM）の性能向上におけるパラメータ数と学習データサイズのスケーリングの効果を探求しています。しかし、モデルが強力になるにつれて、推論コストが懸念されるようになり、モデルの精度と推論効率のトレードオフが十分に研究されていません。著者たちは、隠れ層のサイズやMLPとアテンション間のパラメータ割り当ての比率、グループクエリアテンション（GQA）が推論コストと精度に与える影響を検討しました。条件付きスケーリング法則を導入し、効率性と精度を両立できるアーキテクチャを特定するための探索フレームワークを構築しました。200以上のモデルを訓練し、提案した法則の妥当性を確認した結果、条件付きスケーリング法則が最適なアーキテクチャ選択を信頼性高く予測でき、最適化されたアーキテクチャが既存のオープンソースのベースラインを上回ることが示されました。