Arcee、米国発400Bオープンソース推論モデルを公開

2026年04月03日 NVIDIA Meta Claude Qwen Llama Opus

モデルの技術的特徴

400BパラメータのMoE構成

推論時に13Bのみ活性化

同等規模比2〜3倍の推論速度

Apache 2.0で完全商用利用可能

PinchBenchで91.9を記録

出力トークン単価は約96%安価

米国製オープンモデルの空白を補完

詳細を読む

Arcee AIは、399億パラメータのテキスト専用推論モデル「Trinity-Large-Thinking」をApache 2.0ライセンスで公開しました。30人規模のサンフランシスコ拠点のスタートアップが、米国発のオープンソースフロンティアモデルとして開発したものです。

同モデルはMixture-of-Experts（MoE）アーキテクチャを採用し、400Bの総パラメータのうち推論時には約13Bのみを活性化します。これにより大規模モデルの知識を保持しつつ、同等規模のモデルと比べ2〜3倍の推論速度を実現しています。

開発にあたりArceeは総資金の約半額にあたる2000万ドルを33日間の学習に投入しました。NVIDIA B300 Blackwell GPU 2048基のクラスタを使用し、20兆トークンのデータで学習を行っています。

エージェント性能の指標であるPinchBenchでは91.9を記録し、プロプライエタリモデルのClaude Opus 4.6（93.3）に迫る水準です。出力トークンあたりの価格は0.90ドルで、Opus 4.6の25ドルと比較して約96%安価となっています。

「Thinking」機能の追加により、以前のプレビュー版で課題とされたマルチステップ指示への対応が改善されました。長時間のエージェントループでも一貫性を維持できる「長期エージェント」の実現を目指しています。

背景には、中国のQwenやz.aiがプロプライエタリ路線に転換し、MetaのLlamaも品質問題で後退するなど、オープンソースフロンティアモデルの空白が生じている市場環境があります。Arceeはこの領域を米国企業として埋める狙いです。

OpenRouterでは前身のTrinity-Large-Previewが米国で最も利用されたオープンモデルとなり、ピーク時には1日806億トークンを処理しています。今後はフロンティアモデルの知見をMini・Nanoモデルへ蒸留し、コンパクトモデルの強化も進める方針です。