ゼロからLLMを作成する：パート22 – 私たちのLLMを訓練する

この記事では、著者がゼロから大規模言語モデル（LLM）を作成する過程での22番目のパートとして、モデルの訓練の実施について説明しています。著者は、Sebastian Raschkaの書籍『Build a Large Language Model (from Scratch)』の第5章に基づき、クロスエントロピー損失や困惑度の理解が難しかったことを振り返りつつ、残りの28ページは主にコードをつなぎ合わせて動かすことに使われたと述べています。このセクションは、著者にとって最も興奮すべきものであり、訓練セットでモデルを動かし始めた結果、モデルが実際に応答を示す様子が描かれています。サンプルデータセット『The Verdict』を使用してモデルを訓練し、短時間で次のトークンの予測を行う成功例も紹介しています。全体として、長い過程の中で手にする成果として、このモデルの訓練がどれほど重要でエキサイティングかを強調しています。