Zyphra、8Bパラメータで大規模モデルに迫る推論モデルを公開
詳細を読む
Palo AltoのスタートアップZyphraは2026年5月7日、オープンソースの推論特化型言語モデルZAYA1-8BをApache 2.0ライセンスで公開しました。総パラメータ数は約84億、活性パラメータはわずか7.6億という超効率設計で、AMD Instinct MI300 GPUのみで訓練された点が大きな特徴です。
ZAYA1-8Bは独自のMoE++アーキテクチャを採用しています。圧縮畳み込みアテンション(CCA)によりKVキャッシュを従来の8分の1に削減し、長文脈での推論効率を大幅に向上させました。さらにMLPベースのルーター設計やPID制御に着想を得た安定化手法など、Transformer基盤に根本的な改良を加えています。
最大の技術的突破は推論時の計算手法Markovian RSAです。複数の推論トレースを並列生成し、末尾部分のみを集約して再推論するという手法で、コンテキスト窓を溢れさせずに深い思考を実現します。これによりAIME '25で91.9%、HMMT '25数学で89.6%(Claude 4.5 Sonnetの79.2%を上回る)、LiveCodeBenchで69.2%(DeepSeek-R1-0528超え)という驚異的なスコアを記録しました。
事前学習段階から推論能力を組み込む「推論ファースト事前学習」も特徴的です。長い思考連鎖がコンテキストに収まらない場合、問題設定と最終回答を保持しつつ中間部分を刈り込むAnswer-Preserving Trimmingを開発し、問題と解答の関係を効率的に学習させています。
企業にとっての実用的意義は大きく、活性パラメータ760Mという軽量さはオンデバイス展開やエッジ推論を現実的にします。データ所在地の制約やAPI依存コストといった課題を解消し、高度な推論能力をローカル環境で利用可能にします。AMD GPUでの訓練成功は、Nvidia一強への有力な対抗軸が成立することを示しました。2025年にユニコーン評価を得たZyphraは、AMDやIBMの支援のもと「パラメータを増やす」以外のAI進化の道筋を示しています。