Instella: 卓越した性能を持つ完全オープンの言語モデル

Instellaは、完全にオープンな3兆パラメータの言語モデルファミリーで、オープンなデータとコードベースでトレーニングされています。AMDのInstinct MI300X GPUを活用し、大規模な事前学習や一般的な指示調整を通じて開発されました。多くの同時期モデルよりも事前学習トークン数は少ないにもかかわらず、Instellaはオープンモデルの中で最先端の結果を達成し、同等のサイズのオープンウェイトモデルとも競争力を持っています。また、Instella-Long（最大128Kトークンの文脈長を処理可能）やInstella-Math（数学的タスクで強化学習を通じて改良された推論モデル）の2つの専門的なバリアントも公開しています。これにより、Instellaはオープンで再現性のある言語モデリング研究の進展に寄与する透明性のある高性能かつ多用途な代替案を提供します。