微博の30億パラメータ新モデルが数学性能で巨大モデルと並ぶ

2026年06月17日 Google OpenAI DeepSeek Gemini Qwen 数学

驚異の性能

数学AIMEで94.3点

巨大DeepSeekと同等の水準

コードでも高い合格率

ノートPCで動く30億規模

広がる懸念

ベンチマーク水増し疑惑

知識問題GPQAは70.2点と低調

実利用での性能ギャップ

出典：VentureBeat

詳細を読む

中国の交流サイト大手である新浪微博の研究チーム9人が2026年6月15日、わずか30億パラメータの言語モデル「VibeThinker-3B」の技術報告をarXivに公開しました。数百倍の規模を持つGoogleやOpenAIの最上位モデルに数学推論で匹敵すると主張し、AI研究界に衝撃を与えています。同モデルはMITライセンスで重みが無償公開されました。

中核となる主張はベンチマーク性能です。数学競技AIME 2026で94.3点を記録し、6710億パラメータのDeepSeek V3.2と肩を並べ、Gemini 3 Proの91.7点を上回りました。コーディングでも実施前のLeetCode週次大会で128問中123問を初回正解し、96.1%という合格率を示しています。

チームはこの結果をパラメトリック圧縮被覆仮説で説明します。数学やコードのように答えを検証できる「推論能力」は小さな中核に圧縮できる一方、幅広い事実を要する「知識能力」は多くのパラメータを要するという考え方です。実際、大学院レベルの科学知識を問うGPQAでは70.2点にとどまり、上位モデルに大きく劣りました。

このモデルはアリババのQwen2.5-Coder-3Bを土台に後処理学習したものです。4段階の学習工程を経ており、能力の境界にある難問を優先的に訓練するMGPOという独自の強化学習手法を採用しています。なお微博は2025年11月にも前身の1.5B版を公開しており、その学習費用はわずか7,800ドルだったと説明しています。

一方で批判も強く出ています。実際に試した利用者からは「人気のPython開発ツールすら理解しない」との報告が相次ぎ、ベンチマーク向けに最適化しただけではないかという「水増し」批判が広がりました。論文側は学習データから評価セットとの重複を除去したと反論しています。

今回の論争が示すのは、巨大化一辺倒だったAI開発への問い直しです。推論と知識を分離できるなら、小型の推論エンジンと大型の知識モデルを組み合わせる構成が現実味を帯びます。導入コストを大きく下げる可能性があり、その真価は順位表ではなく実務での有用性で問われることになります。