Cerebras、1兆パラメータを毎秒981トークン推論
詳細を読む
Cerebras Systemsは、2026年最大のテックIPOを完了した直後に、1兆パラメータの推論性能を公表しました。北京のMoonshot AIが開発したオープンウェイトモデルKimi K2.6を、独自のウェーハスケールチップ上で毎秒981トークンで処理し、GPU系クラウドの最速を6.7倍上回る記録をベンチマーク企業Artificial Analysisが独立検証しています。
Kimi K2.6は1兆パラメータのMixture-of-Expertsモデルで、トークンあたり320億パラメータを活性化します。SWE-Bench Proで58.6を記録し、Claude Opus 4.6やGPT-5.4と同等以上の性能を示しており、AnthropicやOpenAIの高額な閉鎖型APIの代替として企業の関心を集めています。コーディングやエージェント処理など高付加価値タスクでの利用が想定されています。
Cerebrasの速度優位を支えるのはWafer-Scale Engine 3です。ディナープレート大の単一チップに44GBのオンチップSRAMを搭載し、NVLink対比200倍以上の帯域幅を実現します。MoEモデルの全エキスパートを同一ウェーハ上に配置することで、GPU間のデータ転送ボトルネックを解消しました。
同社はFortune 500のソフトウェア・金融・ヘルスケア企業にクラウド試験を提供中で、消費者向けAPIよりも企業顧客を優先する戦略を採っています。料金はGPUベースのプロバイダと同等水準としつつ、速度に対する付加価値で差別化を図ります。
競争環境も急変しています。NVIDIAが高速推論のGroqを200億ドルで買収し、推論市場が訓練市場を商業的重要性で追い越しつつあることを示唆しました。Cerebrasは新ハードウェアの発表を予告しており、OpenAIとの200億ドル超の推論インフラ契約も含め、エージェント時代の推論基盤としての地位確立を目指しています。