Cerebras上で動作するGPT-OSS 120Bが3000トークン/秒の速度を実現

OpenAIのGPT OSS 120BモデルがCerebrasで利用可能になりました。このモデルは、オープンな重みの推論モデルとして初めて登場し、Cerebrasの推論クラウドで最大3000トークン/秒の速度を実現します。従来のGPU上で最大1分かかる推論タスクを、Cerebrasではわずか1秒で完了し、131Kのコンテキストを持ち、トークン当たりのコストは入力$0.25、出力$0.69と優れたコストパフォーマンスを誇ります。GPT OSS 120Bは、1200億のパラメータを持つモデルであり、数学的推論やコーディングタスクでの精度が高く、従来のモデルと同等のパフォーマンスを提供します。Cerebrasは、業界最速の応答速度と最高の精度を実現し、ユーザーには優れた価値を提供しています。