Microsoft、自社開発AI基盤モデル3種を公開

2026年04月03日 Google OpenAI マイクロソフト Amazon Gemini PowerPoint

3モデルの概要と性能

音声認識MAI-Transcribe-1が25言語で最高精度

音声合成MAI-Voice-1、1秒で60秒分の音声生成

画像生成MAI-Image-2、前世代比2倍以上の高速化

各モデルを10人未満の小規模チームで開発

戦略的背景と競争環境

OpenAIとの契約改定で独自AGI開発が可能に

競合を下回る積極的な価格設定で市場攻勢

Suleyman氏、フロンティアLLM開発を明言

株価低迷の中でAI投資の収益化を加速

出典：VentureBeat

詳細を読む

Microsoftは4月3日、自社開発の基盤AIモデル3種を発表しました。音声認識のMAI-Transcribe-1、音声合成のMAI-Voice-1、画像生成のMAI-Image-2で、いずれもMicrosoft Foundryを通じて即日提供を開始しています。

MAI-Transcribe-1は業界標準ベンチマーク「FLEURS」で主要25言語の平均ワードエラー率3.8%を達成しました。OpenAIのWhisper-large-v3を全25言語で、GoogleのGemini 3.1 Flashを22言語で上回り、競合の半分のGPUで動作すると発表しています。

MAI-Voice-1は数秒の音声サンプルから話者の声を再現でき、100万文字あたり22ドルで提供されます。MAI-Image-2はArena.aiリーダーボードでトップ3に入り、BingやPowerPointへの展開が進んでいます。

注目すべきは開発体制の規模です。Mustafa Suleyman氏によると、音声モデルはわずか10人のチームで構築され、画像チームも10人未満です。少人数による高品質モデル開発は、AI開発に数千人規模が必要とする業界通念を覆すものです。

これらのモデル開発は、2025年10月のOpenAIとの契約改定により実現しました。従来Microsoftは独自にAGI開発を行うことが契約上禁止されていましたが、新条件により独立したモデル開発の自由を得ています。

価格戦略も競争的です。Suleyman氏は「すべてのハイパースケーラーの中で最も安い価格にする」と明言し、Amazon・Google双方を下回る設定にしたと述べました。年初来約17%の株価下落が続く中、AI投資の収益化圧力に応える狙いがあります。

Suleyman氏は今後、テキスト生成を含む全モダリティで最先端モデルを提供する方針を示しました。「Microsoftが必要とするなら、最高効率・最安価格で完全に独立した形で提供できるようにする」と語り、OpenAIとの協力関係を維持しつつ自立を目指す戦略を鮮明にしています。