Zyphra、8Bパラメータで大規模モデルに迫る推論モデルを公開

2026年05月07日 NVIDIA DeepSeek Claude 数学 Sonnet 推論

ZAYA1-8Bの革新

総パラメータ8B、活性パラメータわずか760M

独自MoE++アーキテクチャ採用

KVキャッシュ8分の1に圧縮

Apache 2.0で商用利用可能

驚異的ベンチマーク性能

AIME '25で91.9%達成

HMMT数学でClaude 4.5 Sonnet超え

LiveCodeBenchでDeepSeek-R1超え

AMD基盤と業界への示唆

AMD Instinct MI300で全訓練完了

エッジデバイスへの展開が現実的に

出典：VentureBeat

詳細を読む

Palo AltoのスタートアップZyphraは2026年5月7日、オープンソースの推論特化型言語モデルZAYA1-8BをApache 2.0ライセンスで公開しました。総パラメータ数は約84億、活性パラメータはわずか7.6億という超効率設計で、AMD Instinct MI300 GPUのみで訓練された点が大きな特徴です。

ZAYA1-8Bは独自のMoE++アーキテクチャを採用しています。圧縮畳み込みアテンション（CCA）によりKVキャッシュを従来の8分の1に削減し、長文脈での推論効率を大幅に向上させました。さらにMLPベースのルーター設計やPID制御に着想を得た安定化手法など、Transformer基盤に根本的な改良を加えています。

最大の技術的突破は推論時の計算手法Markovian RSAです。複数の推論トレースを並列生成し、末尾部分のみを集約して再推論するという手法で、コンテキスト窓を溢れさせずに深い思考を実現します。これによりAIME '25で91.9%、HMMT '25数学で89.6%（Claude 4.5 Sonnetの79.2%を上回る）、LiveCodeBenchで69.2%（DeepSeek-R1-0528超え）という驚異的なスコアを記録しました。

事前学習段階から推論能力を組み込む「推論ファースト事前学習」も特徴的です。長い思考連鎖がコンテキストに収まらない場合、問題設定と最終回答を保持しつつ中間部分を刈り込むAnswer-Preserving Trimmingを開発し、問題と解答の関係を効率的に学習させています。

企業にとっての実用的意義は大きく、活性パラメータ760Mという軽量さはオンデバイス展開やエッジ推論を現実的にします。データ所在地の制約やAPI依存コストといった課題を解消し、高度な推論能力をローカル環境で利用可能にします。AMD GPUでの訓練成功は、Nvidia一強への有力な対抗軸が成立することを示しました。2025年にユニコーン評価を得たZyphraは、AMDやIBMの支援のもと「パラメータを増やす」以外のAI進化の道筋を示しています。