LLMの訓練方法：パート1

この記事では、著者が特定のドメインに特化したモデルを構築する過程を綴っています。最初に、基本的な前訓練インフラの設定を行い、Llama 3スタイルの1Bモデルを8つのH100で訓練する予定です。過去にモデルの訓練経験はありますが、今回の取り組みは特に大規模です。データとしてはKarpathyのfine-web-edu-shuffledを利用し、最初は短いコンテキストで訓練し、その後、徐々に調整を行う計画です。訓練プロセスでは、トークンの数を2048に設定し、メモリ使用量やパラメータ数の見積もりも行います。最終的に目指すのは、4096のコンテキスト長での効率的な推論モデルです。