Microsoft、自社開発AI3モデルを発表し独自路線を本格化

マルチモーダル市場動向Microsoft

新モデル3種の概要

音声認識MAI-Transcribe-1が25言語で最高精度を達成
音声生成MAI-Voice-1は1秒で60秒分の音声合成が可能
画像生成MAI-Image-2をBingやPowerPointに展開

少人数チームと価格戦略

各モデルの開発チームは10人未満の少数精鋭
競合比でGPU使用量を半減しコスト構造を改善
ハイパースケーラー最安値の価格設定を明言

OpenAIとの関係と今後

2025年10月の契約改定で独自AGI開発が解禁
フロンティアLLMの自社開発にも着手を表明
詳細を読む

Microsoftは2026年4月3日、自社開発のAIモデル3種を発表しました。音声認識の「MAI-Transcribe-1」、音声生成の「MAI-Voice-1」、画像生成の「MAI-Image-2」で、いずれもMicrosoft Foundryを通じて即日提供を開始しています。同社のAI自給自足戦略を率いるムスタファ・スレイマン氏が主導する超知能チームの初の成果物となります。

MAI-Transcribe-1は業界標準のFLEURSベンチマークにおいて、主要25言語で平均WER3.8%を達成しました。OpenAIのWhisper-large-v3には全25言語で、GoogleのGemini 3.1 Flashには22言語で優位に立っています。バッチ処理速度は従来のAzure Fast比で2.5倍に向上し、TeamsやCopilot Voiceへの内部展開も開始されています。

MAI-Voice-1は数秒の音声サンプルから話者の声を再現し、リアルタイムの60倍速で音声を生成します。価格は100万文字あたり22ドルです。MAI-Image-2はArena.aiリーダーボードで上位3位に入り、前世代比で生成速度が2倍以上に向上しています。広告大手WPPが初期パートナーとして採用しています。

注目すべきは開発体制の規模です。スレイマン氏によれば、音声モデルはわずか10人のチームで構築され、画像チームも10人未満でした。競合の半分のGPU数で最高精度を実現しており、大規模チームと巨額投資が必須とされてきたフロンティアAI開発の常識に一石を投じています。

これらのモデルが実現した背景には、2025年10月のOpenAIとの契約再交渉があります。従来MicrosoftはAGIの独自追求を契約上禁じられていましたが、OpenAIがSoftBankなど他社とも提携を拡大したことを受けて条件が改定されました。OpenAIとのパートナーシップは2032年まで継続しつつ、独自のフロンティアモデル開発が可能になっています。

価格戦略も攻撃的です。スレイマン氏はAmazonやGoogleなどのハイパースケーラー最安値を目指すと明言しました。同社の株価は年初来約17%下落しており、巨額のAIインフラ投資に対するリターンを投資家が求めるなか、コスト効率の高いモデルで自社製品の原価を下げつつ外部開発者にも安価に提供する戦略です。

スレイマン氏は今後、GPTと直接競合するフロンティア大規模言語モデルの開発にも取り組むと明言しました。「すべてのモダリティで最先端モデルを提供し、完全に独立する」と述べ、ナデラCEOも2〜4年の計算資源ロードマップを共有しています。今回の3モデルは専門特化型であり、汎用推論への挑戦はこれからの課題です。