ElevenLabs(企業)に関するニュース一覧

AI音楽業界が激変、Suno v5.5発表と規制・提携が加速

AI音楽生成の進化

Suno v5.5ボイス学習機能追加
ユーザー自身の声でAI歌唱が可能に
GoogleがProducerAIを買収しLyria 3搭載
ElevenLabsがAI生成アルバムを公開

業界の対応と規制

BandcampがAI楽曲を全面禁止
Apple MusicがAI透明性タグを導入
DeezerがAI検出ツールを外部販売
AI詐欺で800万ドル不正取得の男が有罪答弁

大手レーベルの戦略転換

Warner MusicがSunoとライセンス契約
Universal MusicがNvidiaとAIモデル提携
Sunoの評価額24.5億ドルに急騰
レーベル各社が訴訟から協業路線へ転換

AI音楽生成プラットフォームSunoが最新モデルv5.5を発表しました。今回のアップデートでは音質向上だけでなく、ユーザーが自分の声を学習させる「Voices」機能、好みを反映する「My Taste」、カスタムモデル作成の3機能が追加され、制作の自由度が大幅に向上しています。

GoogleはChainsmokers公認のAI音楽プラットフォーム「ProducerAI」を買収し、Google Labs傘下に統合しました。DeepMindの最新音声モデルLyria 3を搭載し、Geminiアプリからテキストや画像をもとに30秒の楽曲を生成できる機能のベータ版を全世界で提供開始しています。

一方、プラットフォーム側では規制と透明性の動きが加速しています。Bandcampは主要音楽プラットフォームとして初めてAI生成コンテンツを全面禁止しました。Apple Musicはアーティストやレーベルに対しAI使用の自主的なタグ付けを求める「透明性タグ」制度を開始し、Deezerは精度99.8%のAI楽曲検出ツールを外部企業向けに販売開始しました。

大手レーベルの戦略も大きく転換しています。かつてAI企業を著作権侵害で提訴していたWarner Music GroupはSunoとライセンス契約を締結し、所属アーティストの声や肖像のAI利用を許諾しました。Universal Music GroupもNvidia提携し、音楽理解AIモデル「Music Flamingo」の活用を発表するなど、訴訟から協業へと舵を切っています。

しかし課題も山積しています。ノースカロライナ州の男性がAI生成楽曲をボットで数十億回再生し800万ドル超の印税を不正取得した事件で有罪答弁を行いました。アーティストからはAIクローンへの怒りの声が高まり、著作権法の整備も追いついていません。Sunoは評価額24.5億ドルに達する一方、3大レーベルからの訴訟も継続しており、AI音楽の法的・倫理的な枠組みは依然として不透明な状況です。

Cohere、オープンウェイト音声認識モデルを公開

モデルの性能

WER 5.42%で業界最高精度
Whisper Large v3の7.44%を大幅に上回る
14言語対応(日本語含む)
20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能
データ残留リスクなしの音声処理
RAGエージェント構築に即戦力
商用利用を前提とした設計

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインエージェントワークフロー音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

Mistral AIが音声合成モデルをオープンウェイトで無償公開

モデルの技術的特徴

30億パラメータでスマホ動作可能
音声まで90ミリ秒の低遅延
リアルタイムの6倍速音声生成
量子化時わずか3GBのRAM消費
9言語対応で5秒の音声で声質複製

競合との差別化戦略

ElevenLabs比で約70%の選好率
オープンウェイトで完全自社運用可能
音声データの主権を企業側に確保

企業向けAI基盤の完成

音声認識から合成まで一気通貫パイプライン
Forge・AI Studioと統合しフルスタック提供
年間売上10億ドル超えの見通し

Mistral AIは2026年3月26日、企業向けテキスト音声合成モデル「Voxtral TTS」をオープンウェイトで公開しました。パリ拠点の同社は、競合他社がAPIベースの従量課金モデルを採用する中、モデルの重みを無償提供し、企業が自社サーバーやスマートフォン上で自由に運用できる方針を打ち出しています。

技術面では、34億パラメータのTransformerデコーダ、3.9億パラメータのフローマッチング音響変換器、3億パラメータの自社開発ニューラルオーディオコーデックの3層構造を採用しています。初音声までの遅延はわずか90ミリ秒で、リアルタイムの約6倍速で音声を生成します。量子化すれば約3GBのRAMで動作し、旧型ハードウェアでもリアルタイム処理が可能です。

同社の人間評価では、ElevenLabs Flash v2.5に対して62.8%、音声カスタマイズでは69.9%の選好率を達成しました。わずか5秒の参照音声で声質を複製でき、ゼロショットの多言語クロスリンガル音声適応も実現しています。9言語に対応し、話者のアクセントや声質を保持したまま言語を切り替えられるため、多国籍企業の顧客対応や社内コミュニケーションに大きな可能性があります。

この公開は、Mistralが過去1年で構築してきた企業向けAIフルスタック戦略の集大成です。音声認識モデル「Voxtral Transcribe」、カスタマイズ基盤「Forge」、本番運用基盤「AI Studio」と組み合わせることで、外部プロバイダーに依存しない音声エージェントパイプラインが完成します。CEOのArthur Mensch氏は年間売上10億ドル超の見通しを示しています。

同社科学担当副社長のPierre Stock氏は、音声データには感情やアイデンティティが含まれ、金融・医療・政府機関にとって第三者APIへの送信はコンプライアンス上のリスクだと指摘しました。欧州ではデジタルサービスの80%以上を米国企業に依存しており、Mistralデータ主権を重視する欧州企業の受け皿として、今後は完全エンドツーエンドの音声AIモデルへの進化を目指すとしています。

Luma AIがマルチモーダル統合モデルで創作エージェント公開

統合知能モデルの特徴

Uni-1モデルで画像動画音声を統合処理
テキストから映像まで一貫した推論が可能
自己批評ループで出力品質を自動改善

広告業界での実績

Publicisやアディダス等が既に導入
1500万ドル規模の広告40時間・2万ドルで制作
複数国向けローカライズ広告を自動生成

従来ツールとの違い

100種のモデルを個別操作する非効率を解消
会話型で方向性を指示し大量バリエーション生成

Luma AIは2026年3月、テキスト・画像動画音声を横断して創作業務を一気通貫で担うLuma Agentsを公開しました。同社独自の統合知能モデル「Uni-1」を基盤とし、広告代理店やマーケティングチーム、デザインスタジオ向けに提供されます。

Uni-1モデルは音声動画画像・言語・空間推論単一のマルチモーダル推論システムで学習しています。CEOのAmit Jain氏は「言語で思考し、ピクセルで想像・描画する」と表現し、この能力をピクセルの知能と呼んでいます。今後のリリースで音声動画の出力にも対応予定です。

Luma Agentsの最大の強みは、アセットや協力者、クリエイティブの反復にわたって持続的なコンテキストを維持できる点です。自己批評による反復改善ループを備え、コーディングエージェントと同様に自らの成果物を評価・修正する能力を持ちます。

実際の導入事例では、あるブランド1500万ドル規模・1年がかりの広告キャンペーンを、複数国向けのローカライズ広告として40時間・2万ドル未満で制作し、社内品質管理を通過しました。200語のブリーフと製品画像1枚から、ロケーション・モデル・配色の多様なアイデアを自動生成するデモも披露されています。

Luma AgentsはAPI経由で一般公開されていますが、ワークフローの安定性を確保するため段階的にアクセスを拡大する方針です。Google Veo 3ElevenLabs音声モデルなど外部AIモデルとも連携し、エンドツーエンドの創作ワークフローを実現します。

Decagon、評価額45億ドルで初の従業員株式売却を完了

資金調達と評価額

評価額45億ドルで株式売却
6月の15億ドルから3倍に急騰
Coatue・a16zら主要VCが主導
創業3年未満で急成長

事業と市場環境

AI顧客対応エージェントを提供
大手100社超が導入済み
世界1700万人のCS人員が自動化対象
AI人材獲得競争が株式流動化を加速

Decagonは、AI顧客サポートスタートアップとして初のテンダーオファー(従業員向け株式売却)を完了しました。評価額45億ドル(約6,750億円)で、300人超の従業員が保有株式の一部を現金化できるようになります。

今回の株式売却は、2カ月前に2億5,000万ドルのシリーズDを主導したCoatue、Index Ventures、a16z、Forerunnerなど同じ投資家陣が引き受けています。投資家は急成長企業への持分拡大に意欲的で、従業員への流動性提供が実現しました。

同社の評価額は2025年6月の15億ドルから3倍に跳ね上がりました。ARR(年間経常収益)は2024年末時点で8桁ドルを超えており、その後の具体的な売上は非公開ですが、評価額の急騰が事業成長の勢いを物語っています。

AI人材の獲得競争が激化するなか、ElevenLabs、Linear、Clayなど有力AIスタートアップも相次いで従業員向けテンダーオファーを実施しています。株式の現金化機会は、優秀な人材の採用・定着における強力なインセンティブとなっています。

Decagonは大企業向けにチャット・メール・音声で顧客問い合わせを自律的に解決するAI「コンシェルジュエージェントを開発しています。Avis Budget Group、1-800-Flowers、Oura Healthなど100社超が導入済みです。Gartnerによると世界に1,700万人のコンタクトセンター要員が存在し、巨大な自動化市場が広がっています。

Claude Codeに音声モード搭載、ハンズフリー開発を実現

音声モードの概要

Claude Code音声操作機能を追加
現在ユーザーの約5%に提供開始
数週間かけて全ユーザーに順次展開予定

使い方と背景

/voiceコマンドで音声モードを有効化
音声リファクタリング等を指示可能
昨年5月のClaude本体音声対応に続く展開
外部音声AI企業との連携は不明
Claude Codeの年間収益は25億ドル突破

Anthropicは、開発者向けAIコーディングアシスタントClaude Code」に音声モード機能を追加しました。同社エンジニアのThariq Shihipar氏が3月3日にXで段階的リリースを発表しています。

音声モードは、開発者コーディング中にハンズフリーで会話的にAIと対話できる機能です。/voiceコマンドで有効化し、「認証ミドルウェアをリファクタリングして」といった音声指示でClaude Codeが処理を実行します。

現時点では約5%のユーザーに提供されており、今後数週間で対象を拡大する予定です。音声インタラクションの上限や技術的制約など、詳細な仕様はまだ明らかにされていません。ElevenLabsなど外部音声AI企業との協業の有無も不明です。

Anthropicは2025年5月に通常版Claudeチャットボットへの音声モードを先行導入しており、今回はその技術を開発者向けツールに拡張した形です。AIコーディングアシスタント市場ではGitHub CopilotCursorなどとの競争が激化しています。

Claude Codeの勢いは顕著で、2月時点で年間収益が25億ドルを超え、2026年初頭から倍増しました。週間アクティブユーザーも1月以降2倍に増加しており、国防総省への技術提供拒否を契機にClaudeアプリの利用者も急増しています。

独テレコム、通話中に呼び出せるAIアシスタントを導入

サービスの概要

ElevenLabsと共同開発
「Hey Magenta」で通話中に起動
リアルタイム翻訳や予定確認に対応
アプリ不要で端末を問わず利用可能

プライバシーの懸念

非暗号化通話へのAI導入リスク
研究者がUXの不自然さを指摘
音声アクセント偏り問題も浮上

展開計画と制約

まずドイツ国内のみで提供開始
12カ月以内に50言語対応予定

ドイツの通信大手ドイツテレコムは、AI音声企業ElevenLabs提携し、通話中にウェイクワード「Hey Magenta」で呼び出せるAIアシスタントMagenta AI Call Assistant」を発表しました。MWC 2026バルセロナで両社幹部が登壇し、概要を公開しています。

このアシスタントリアルタイムの多言語翻訳、カレンダー参照による空き時間の確認、地図サービスを使った近隣施設の検索などの機能を備えています。特定のアプリやスマートフォンを必要とせず、通信ネットワーク側に組み込まれている点が既存の端末依存型サービスとの大きな違いです。

一方で、プライバシーに関する懸念も指摘されています。Hugging Faceの研究者アビジット・ゴーシュ氏は、非暗号化の電話回線にAIアシスタントを導入することでデータ収集のリスクが高まると警告しました。通話中に突然AIに話しかけるUXの不自然さも問題視しています。

さらにゴーシュ氏は、ElevenLabs合成音声におけるアクセント偏りに関する研究を発表しており、英語を母語としない話者の地域アクセントの認識精度に課題があると述べています。汎用的なAIを十分な安全策なしに展開することへの懸念を示しました。

ドイツテレコムは、サービスはオプトイン方式で通話の双方が同意する必要があると説明しています。音声録音は保存されず、EU一般データ保護規則(GDPR)に完全準拠するとしています。まずドイツ国内で年内に提供を開始し、12カ月以内に最大50言語への翻訳対応を計画しています。

ElevenLabs CEOが「音声こそが次のAIインターフェース」と宣言

音声AIの将来像

音声が次世代AIの主要接点と主張
スクリーンレスインターフェースの台頭
感情表現と自然な対話の重要性
多言語リアルタイム通訳の可能性
ElevenLabsのビジョンと戦略
TechCrunchインタビューで詳説

ビジネス・産業への示唆

コールセンター自動化の加速
音声UI設計の重要性増大
可聴化AI市場の急成長

ElevenLabsのCEOはTechCrunchのインタビューで、「音声がAIの次のメインインターフェースになる」と述べ、テキスト主体のAI時代からの移行を展望した。

現在のAI体験の多くはキーボード入力とテキスト出力に依存しているが、自然な音声対話への移行は誰もがAIを使える真の民主化をもたらすと主張する。

ElevenLabsのリアルな音声合成技術は感情のニュアンスを含む自然な発話を実現しており、コンテンツ制作・カスタマーサービス・教育などで導入が進んでいる。

同社は500億円超の調達資金を元に多言語対応音声インターフェース開発を加速する方針で、日本語を含む多言語市場への展開を強化する。

音声AIの普及はスマートスピーカーを超えた新しいUXパラダイムを生み出し、ヘッドレスデバイスや車載AIなどの成長を後押しする。

ElevenLabsが評価額110億ドルで500億円超の調達成功

資金調達の概要

Sequoia主導で5億ドルを調達
評価額110億ドルでユニコーン超え
Andrew Reed氏が取締役会に参加
音声AI市場のリーダーとして確立
テンダー経由の株主還元も実施
研究開発と国際展開に投資予定

音声AI市場の展望

テキスト読み上げから感情表現AIへ
企業向け音声アシスタント需要急増
多言語対応で世界市場を狙う

音声AI企業ElevenLabsは2026年2月4日、Sequoia Capital主導で5億ドルの資金調達を完了したと発表した。企業評価額は110億ドルに達した。

今回の調達ラウンドにはSequoiaのパートナーAndrew Reed氏が取締役として参加し、今後の戦略的方向性への関与を強める。

ElevenLabsはリアルな音声合成・クローニング技術で市場シェアを拡大しており、コンテンツ制作者から企業ユーザーまで幅広い顧客基盤を持つ。

調達資金は研究開発の加速とグローバル展開に充てられる予定で、特に日本語を含む多言語対応の強化が見込まれる。

音声AIは次世代インターフェースとして注目度が高く、ElevenLabsの成長はこの市場の投資価値を改めて証明するものだ。

ElevenLabsがAI生成楽曲アルバムを音楽生成機能のデモに

アルバムの詳細

AI生成楽曲のフルアルバム発表
音楽生成機能のプロモーション
多様なジャンルで品質アピール
商用利用権も付与

音楽AI市場への影響

SunoやUdioとの競合激化
プロ音楽家との権利問題
AI音楽著作権議論が加速
クリエイター向けツール化戦略

ElevenLabs音声AI技術を応用した音楽生成機能をアピールするため、AIが生成した楽曲アルバムを公開した。音声合成技術の強みを活かした音楽制作への展開を示すものだ。

SunoやUdioといった音楽特化AIとの競争が激化する中、ElevenLabs音声品質の高さをアルバムという形で実証しようとしている。商用利用を前提とした権利整理も進めている。

AI生成音楽著作権をめぐる議論はいまだ続いており、プロ音楽との関係構築がAI音楽企業の長期的課題となっている。

音声AIエージェント工場のVoiceRunが6億円を調達

事業モデルと市場

大量展開可能な音声エージェントを提供
カスタマーサービスの自動化に特化
5.5百万ドルのシード調達を完了
人件費削減効果の高さが評価される
日本市場でも需要が高い分野

音声AIエージェントプラットフォームのVoiceRunが550万ドル資金調達を完了しました。コールセンター自動化や顧客対応の効率化を実現するスケーラブルな音声エージェントの「工場」として、エンタープライズ向けに展開しています。

音声AIエージェント市場はElevenLabsやDeepgramとともに急成長しており、特にコールセンター代替というユースケースは費用対効果が明確なため企業採用が進みやすい分野です。

ElevenLabsが昨年330億円規模のARRを突破、音声AI市場の急成長を証明

成長の規模と背景

ARRが$330M(約500億円)を突破
前年比で急速な成長を記録
音声クローン・音声合成が柱
エンタープライズ契約が成長を牽引

競合環境と今後

GoogleMetaOpenAI音声AI強化中
差別化は音声品質と多言語対応
多言語音声生成市場でリード
IPO等の次のステップが焦点
音声AIのB2B市場が急拡大

音声AI特化スタートアップElevenLabsがCEO自ら昨年のARRが3億3000万ドルを突破したと発表しました。コンテンツ制作、ポッドキャスト、カスタマーサポート、ゲームなど多様な業界からの需要が急成長を支え、特にエンタープライズ向けの音声クローン・音声合成サービスが主力収益源となっています。

ElevenLabsの急成長は音声AI市場の商業的成熟を示す重要なデータポイントです。GoogleMetaOpenAIなど大手もTTS・音声クローン機能を強化していますが、ElevenLabs音声品質と多言語対応における専門性で差別化を維持しています。

日本市場においても音声AIの活用は広告制作、電話自動応答、アクセシビリティ向上など多くのユースケースで拡大しています。ElevenLabsの成功は音声AIビジネスの収益化可能性を実証しており、日本AI活用戦略にも参考になります。

Deepgramが1.3億ドル調達でユニコーンに、YCスタートアップも買収

調達と買収の詳細

シリーズBで1.3億ドルを調達
評価額13億ドルのユニコーンに
YCアクセラレーター出身AIスタートアップ買収
音声認識・音声AI技術が評価
エンタープライズ市場での顧客基盤

音声認識AIのDeepgramが1億3000万ドルのシリーズBラウンドを完了し、評価額13億ドルのユニコーンとなりました。同社はさらにY Combinatorアクセラレーター出身のAIスタートアップ買収し、技術力の強化を図っています。

音声AI市場はElevenLabsの高成長とDeepgramの資金調達が相次ぎ、リアルタイム音声処理技術への投資家の高い期待を示しています。エンタープライズ向けカスタマーサポート自動化、会議の書き起こし、コンプライアンス記録など多様なユースケースが成長を支えています。

AI投資ブーム継続、消費者向けスタートアップの持続力に懐疑論も

相次ぐ大型資金調達

Lightspeedが同社史上最大の90億ドルを調達、AI特化投資家として165社超を支援
OpenAI出資のバイオテックChai DiscoveryがシリーズB 1億3,000万ドルを調達、評価額13億ドルに到達
AI動画向け音響スタートアップMireloがIndex・a16zから4,100万ドルのシード調達
AIコンパニオンアプリ「Momo」のFirst Voyageが250万ドル調達、習慣形成市場に参入

消費者AI vs. エンタープライズAI:VCの視点

VC各社「生成AI登場から3年、消費者向け特化アプリはいまだ定着せず」と分析
動画音声画像アプリはプラットフォーム側の機能統合で競争優位を失いやすい構造
「スマートフォン黎明期の2009〜2010年相当」——消費者AIが本格普及する転換点が近いとの見方も
AIで最も稼いでいるのはモデル企業でなくデータ供給・仲介事業者——Mercorが年商5億ドルを達成

Lightspeed Venture Partnersは創業25年で過去最大となる総額90億ドルのファンドを組成しました。2021年のバブル崩壊後、LPは実績ある一部の有力VCへ資本を集中させており、Lightspeedはその恩恵を受けた格好です。

AIバイオテクのChai Discoveryは、OpenAIをはじめGeneral CatalystやThrive Capitalらが参加するシリーズBで1億3,000万ドルを調達しました。同社は創薬向けの基盤モデル「Chai 2」を開発しており、評価額は13億ドルに達しています。

ベルリン発のMireloは、AI生成動画に同期した効果音を自動付与する技術に特化したスタートアップです。IndexとAndreessen Horowitzが共同でリードした4,100万ドルのシードラウンドを獲得し、SonyやTencent、ElevenLabsなど大手との競争に備えます。

AIコンパニオンアプリ「Momo」を手がけるFirst Voyageはa16z speedrunなどから250万ドルを調達しました。ユーザーがデジタルペットを世話することで習慣形成を促す仕組みで、すでに200万件超のタスクが作成されています。

TechCrunchのStrictlyVCイベントでは、VCが消費者向けAIスタートアップの持続力について議論しました。Goodwater CapitalのCo-founder Chi-Hua Chienは「多くの初期AIアプリはプラットフォームに吸収されてしまった」と指摘し、スマートフォン普及初期と同様の「安定化期間」が必要だと述べています。

一方で、AIエコシステムの中で最も急速に収益を伸ばしているのはモデル企業ではなく、AIトレーニングデータの供給・仲介を担う事業者だという見方も広がっています。Mercorは年商5億ドルを達成し、「史上最速の成長企業」を自称するに至りました。

今回の一連の動向は、生成AI投資が依然として活況である一方、勝者が絞られつつあることを示しています。大型VCへの資本集中と、ビジネスモデルの持続性を重視する投資判断の変化が、次のAIスタートアップ世代の姿を規定していくと考えられます。

ElevenLabs評価66億ドル 音声AIから対話PFへ

評価額倍増と市場での躍進

評価額は9ヶ月で倍増し66億ドル
Sequoiaらが1億ドル規模を出資
創業から短期間で黒字化を達成

音声技術のコモディティ化と転換

音声モデルは数年でコモディティ化
会話型AIエージェントへ戦略転換

AI音声生成のElevenLabsが、評価額66億ドルに到達しました。米Sequoiaなどが主導する投資ラウンドで、わずか9ヶ月で企業価値を倍増させています。注目すべきは、CEOが「音声モデル自体は数年でコモディティ化する」と予測し、次なる成長戦略へ舵を切っている点です。

ポーランド出身のエンジニアが創業した同社は、映画の吹き替え品質への不満から始まりました。現在では黒字化を達成し、Fortniteのキャラクターボイスや企業のカスタマーサポートに技術を提供。OpenAIと競合しながらも、AI音声のデフォルトスタンダードとしての地位を確立しつつあります。

Staniszewski CEOは、音声生成技術の優位性は長く続かないと分析しています。競合が追いつく未来を見据え、単なる音声モデルの提供から、会話型AIエージェントの構築プラットフォームへと事業をピボット。対話機能そのものを包括的に提供する戦略です。

さらに、ディープフェイク対策としての電子透かしや、音楽生成動画モデルとの融合も推進しています。「人間よりもAI生成コンテンツの方が多くなる」という未来予測のもと、音声を超えたマルチモーダルな展開を加速させています。

パリ発AI音声Gradium、シードで7000万ドル調達

仏発の超低遅延AI音声技術

仏ラボKyutai発のスピンアウト
設立数ヶ月で7000万ドルを調達
人間並みの超低遅延応答を実現
初日から5言語に対応し提供

激化する市場競争と勝機

Google元CEOら著名投資家が支援
OpenAIElevenLabs競合
エージェント普及で高まる需要

フランス・パリを拠点とするAI音声スタートアップ「Gradium」は2025年12月2日、ステルスモードを解除し、7000万ドルのシード資金調達を発表しました。Google DeepMind出身者が創業し、エリック・シュミット氏らが出資する大型案件です。

Gradiumの最大の強みは、超低遅延を実現した音声言語AIモデルにあります。人間同士の会話のように「即座に応答する」自然な体験が可能で、開発者がより高速かつ正確な音声対話システムを構築できるよう支援します。

欧州発の強みを活かし、英語やフランス語など主要5言語に多言語対応してのローンチとなりました。同社はフランスのAIラボ「Kyutai」からのスピンアウトであり、創業者DeepMind音声モデルの研究を重ねたエキスパートです。

音声AI市場にはOpenAIElevenLabsなどの強豪がひしめいています。しかし、AIエージェントの普及に伴い、よりリアルな表現力と正確性への需要は急増しており、Gradiumはこの成長領域で技術的な優位性を武器に勝負を挑みます。

AI音声ElevenLabs、有名人の声を公式に商品化

公認AI音声マーケットプレイス

ブランドが有名人のAI音声を利用可能
マイケル・ケインら大物俳優が参加
肖像権を保護した新たな収益源

ハリウッドとの新たな関係

AIへの警戒から協業モデルへ転換
俳優自身がAI活用の主導権を確保
投資家でもある俳優マコノヒー氏
ニュースレターをAI音声で多言語化

AI音声技術のスタートアップElevenLabsは今週、俳優マイケル・ケイン氏らと提携し、有名人の声をAIで生成する公認マーケットプレイスを立ち上げました。ブランドは公式に許諾された有名人のAI音声コンテンツ制作に利用可能になります。これはアーティストの新たな収益源となり、AIとエンタメ業界の協業モデルを提示する動きです。

新設されたマーケットプレイスには、アカデミー賞俳優のマイケル・ケイン氏やライザ・ミネリ氏、故マヤ・アンジェロウ博士など、象徴的な人物の声が名を連ねています。ブランドはこれらの声を活用することで、キャンペーンに唯一無二の魅力と信頼性を付与できると期待されています。

この動きは、AIに対するハリウッドの姿勢の変化を象徴しています。数年前の俳優ストライキでは、無断でのAI利用が大きな争点となりました。しかし現在では、アーティスト自身が自らのデジタル肖像権を管理し、AIを新たな表現と収益化のツールとして積極的に活用する流れが生まれつつあります。

今回の提携には、ElevenLabs投資家でもある俳優マシュー・マコノヒー氏も参加しています。具体的な活用例として、同氏は自身のニュースレターを自らのAI音声でスペイン語に翻訳し、音声コンテンツとして配信する計画です。これにより、言語の壁を越えてファンとのエンゲージメントを深めることが可能になります。

Andreessen Horowitz (a16z) など有力な投資家から支援を受けるユニコーン企業ElevenLabs。今回のマーケットプレイス創設は、同社の技術力と事業展開力を示すものです。エンターテインメント業界におけるAI活用倫理的な枠組みと商業モデルをリードする存在として、今後の動向が注目されます。

ElevenLabs、著名人のAI音声ライセンス市場を開設

許諾に基づくAI音声利用

AI音声公式ライセンス市場
権利者の同意と公正な報酬を保証
広告コンテンツ制作での活用
倫理的懸念を払拭する新モデル

著名人から歴史上の偉人まで

マイケル・ケイン氏など存命著名人
マーク・トウェインら歴史上の人物
クローニングや過去音源から合成
検証済みタレント・IP所有者のみ

AI音声技術のスタートアップElevenLabsが、有名人や歴史上の人物のAI複製音声を企業が公式にライセンス利用できる「Iconic Voice Marketplace」を開始しました。このプラットフォームは、これまで問題視されてきた無許諾での音声利用に対し、権利者の同意と公正な報酬を保証する倫理的な枠組みを提供し、広告コンテンツ制作での活用を目指します。

このマーケットプレイスは、声の権利を持つ所有者と利用したい企業をつなぐ仲介役として機能します。ElevenLabsはライセンス契約の締結から音声合成までを一貫して管理。参加できるのは検証済みのタレントやIP所有者に限定し、透明性の高い取引を実現します。

提供される音声は多岐にわたります。俳優のマイケル・ケイン氏のような存命の著名人に加え、作家マーク・トウェインや発明家トーマス・エジソンなど、歴史上の人物の声も利用可能です。これらは最新のクローニング技術や、過去の音声記録を元に合成されています。

自身の声を提供したマイケル・ケイン氏は「これは声を置き換えるのではなく、増幅させるものだ」と述べ、新世代のクリエイターを支援する技術だと歓迎しています。彼のコメントは、この取り組みが演者側の協力を得て進められていることを象徴しています。

この動きは、生成AIと知的財産(IP)が共存する新たなビジネスモデルの試金石となるでしょう。企業にとっては、ブランドの物語性を高める強力なツールとなり得ます。同時に、クリエイターや権利者の権利をいかに保護し、公正に収益を分配するかが、今後の市場成長の鍵を握ります。

AI音声モデル、数年で汎用品に ElevenLabs CEO予測

AI音声モデルの現状

短期的な最大の競争優位性
未だ解決すべき品質課題の存在
課題解決に自社開発が必須

AI音声の未来予測

数年以内に進むコモディティ化
モデル間の性能差は縮小傾向へ
マルチモーダル化が進展

ElevenLabsの長期戦略

モデル構築と応用の両面に注力
他社連携やオープンソース活用

AI音声合成技術のスタートアップElevenLabsの共同創業者兼CEOであるマティ・スタニシェフスキ氏は2025年10月28日、米国のテックカンファレンスで、AI音声モデルは今後数年でコモディティ化(汎用品化)するとの見通しを明らかにしました。同氏は、短期的にはモデル開発が競争優位性を生むものの、長期的には技術が成熟し、応用面での価値創造が重要になると強調しました。

スタニシェフスキ氏は「長期的にはコモディティ化するでしょう」と明言。現在、各社がしのぎを削るモデル開発ですが、数年もすれば技術的な差は縮小していくと予測します。特定の音声や言語で多少の差は残るものの、全体としてモデル自体の独自性で差別化することは難しくなる、という見方です。

では、なぜ同社はモデルが汎用品化すると分かっていながら、今その開発に注力するのでしょうか。それは、短期的に見ればモデルの性能こそが「最大の優位性であり、最大の変革」だからです。AIが生成する音声の品質が低ければ、ユーザー体験を損ないます。この根本的な課題を解決するには、現時点では自社でモデルを構築する以外にないと説明します。

今後の技術トレンドとして、同氏はマルチモーダル化を挙げました。これは、音声動画、あるいは音声と大規模言語モデル(LLM)を同時に生成・処理するアプローチです。「会話形式で音声とLLMを同時に扱うようになるでしょう」と述べ、モデルの融合が新たな可能性を開くと指摘しました。

ElevenLabsの長期戦略は、モデル構築とアプリケーション開発の両輪を回すことにあります。スタニシェフスキ氏は、かつてAppleハードウェアとソフトウェアの融合で魔法を起こしたように、「製品とAIの組み合わせが、最高のユースケースを生み出す魔法になる」と語りました。他社との提携やオープンソース技術の活用も視野に入れ、応用面での価値創造を目指します。

AIモデル開発の競争が激化する中、技術そのものはやがて誰でも利用できる汎用的なものになる可能性があります。今回の発言は、AIを活用する企業にとって、モデルの性能競争だけでなく、それをいかに独自の製品やサービスに組み込み、顧客価値を創造するかという、応用力こそが長期的な成功の鍵を握ることを示唆しています。

TC Disrupt2日目: AIと未来を語る巨人たち

豪華登壇者が語る未来

Netflixの未来とストリーミング
Khosla Venturesの技術予測
Figmaが描くAI時代のデザイン
ElevenLabsの合成音声技術

AIとスタートアップの今

VCが求めるAIスタートアップ
300社以上が出展するEXPO
熱戦を繰り広げるStartup Battlefield

米TechCrunchは2025年10月28日、サンフランシスコで年次技術カンファレンス「TechCrunch Disrupt 2025」の2日目を開催しました。NetflixやKhosla Venturesなど業界の巨人が登壇し、AIとテクノロジーの未来について議論。スタートアップ投資家が集結し、会場は終日熱気に包まれました。

メインステージでは、Khosla Ventures創設者のヴィノド・コースラ氏が技術の未来を大胆に予測。また、NetflixのCTOであるエリザベス・ストーン氏が登壇し、競争が激化するストリーミング業界の次の一手について語り、聴衆の注目を集めました。

特に活況を呈したのがAIステージです。VCが求めるAIスタートアップの条件や、AIと創造性の融合、物理世界で活躍するフィジカルAIの未来など、多岐にわたるセッションが開催。合成音声技術で知られるElevenLabsの共同創業者も登壇しました。

「Builders Stage」では、プロダクトマーケットフィットの達成法やAI時代の製品設計といった、スタートアップにとって実践的なテーマが議論されました。またEXPOホールには300社以上のスタートアップが集結し、投資家へ自社の技術をアピールする姿が見られました。

ネットワーキングもイベントの重要な柱です。投資家創業者専用の「Deal Flow Cafe」などが設けられ、具体的な商談が進行。恒例のピッチコンテスト「Startup Battlefield」も熱戦が繰り広げられ、次世代のユニコーン誕生への期待が高まりました。

英AIスタジオ、ハリウッド進出へ18億円調達

1200万ドルの資金調達

英AIスタジオが18億円を調達
チーム倍増とIP所有を加速
OpenAIDeepMind幹部も出資

制作実績と今後の展望

有名歌手のAI MVを制作
オリジナル作品のリリース開始
大手制作会社との連携も

揺れるエンタメ業界のAI

Netflixは生成AIに肯定的
著作権侵害での訴訟リスクも存在

ロンドンに拠点を置くAIクリエイティブ企業「Wonder Studios」は10月23日、1200万ドル(約18億円)のシード資金調達を発表しました。今回の調達は、AIが生成するコンテンツ制作を本格化させ、ハリウッドをはじめとするエンターテインメント業界への参入を加速させるのが目的です。同社は今後、独自IP(知的財産)の創出やオリジナルコンテンツ制作に注力する方針です。

今回のラウンドはベンチャーキャピタルのAtomicoが主導し、既存投資家も参加しました。Wonder Studiosには以前、ElevenLabsGoogle DeepMindOpenAIの幹部も出資しています。調達資金は、エンジニアリングチームの倍増や、独自IPの所有、オリジナルコンテンツ制作の加速に充てられます。

同社はすでに具体的な実績を上げています。最近では、DeepMindYouTubeなどと協力し、人気歌手ルイス・キャパルディのAIミュージックビデオを制作しました。さらに、初のオリジナル作品となるアンソロジーシリーズも公開しており、その技術力と創造性を示しています。

今後のプロジェクトも複数進行中です。Netflixの人気作を手掛けたCampfire Studiosとドキュメンタリーを共同制作しており、同スタジオのCEOも出資者の一人です。大手との連携を深め、来年には複数の商業・オリジナル作品のリリースを予定しています。

エンタメ業界ではAI活用を巡り、意見が二分しています。Netflixが効率化のため生成AIに積極的な一方、ディズニーなどは著作権侵害でAI企業を提訴。また、AIによる俳優の肖像権侵害なども問題視され、クリエイターの雇用を脅かすとの懸念も根強くあります。

こうした中、Wonder Studiosは「国境なきハリウッド」を掲げ、全クリエイターがAIツールを使える未来を目指します。テクノロジーと芸術性が共に成長する架け橋となり、AI時代の新たな創造性を定義する方針です。その動向は、エンタメ業界の未来を占う試金石となりそうです。

音楽大手、AIライセンス契約間近。新時代へ

大手レーベルのAI戦略

ユニバーサル、ワーナーが交渉
相手はGoogleやAI新興企業
数週間以内に契約締結見込み
AI時代の新たな収益モデル構築

ストリーミング型報酬モデル

AI学習での楽曲利用を許諾
再生ごとのマイクロペイメントを要求
AIによる音楽生成も対象
楽曲使用を追跡する技術開発

ユニバーサル・ミュージックやワーナー・ミュージックといった世界の音楽大手レーベルが、AI技術に関するライセンス契約の締結に近づいています。フィナンシャル・タイムズによると、GoogleやSpotifyなどのテック大手やAIスタートアップと交渉を進めており、数週間以内にも合意する見込みです。この動きは、AI時代における音楽業界の収益モデルを再定義する可能性があります。

交渉の焦点は、AIモデルの学習データとしてレーベルが保有する膨大な楽曲カタログをどのようにライセンス供与するか、そしてAIが生成する音楽からいかにして収益を得るかという点です。これは、著作権保護と技術革新の両立を目指す音楽業界にとって、極めて重要な一歩と言えるでしょう。

レーベル側が推進しているのは、音楽ストリーミングサービスから着想を得た報酬モデルです。AIによる楽曲の使用一回ごとに、権利者へ少額の支払い(マイクロペイメント)が発生する仕組みを求めています。これにより、AI利用の拡大を新たな収益源とすることを目指します。

この新たなモデルを実現するには、技術的な課題も残ります。AI企業は、どの楽曲が、いつ、どのように使用されたかを正確に追跡・報告するソフトウェアを開発する必要があります。この技術的基盤の構築が、契約の成否を分ける鍵となりそうです。

交渉相手は多岐にわたります。GoogleやSpotifyといった巨大プラットフォーマーに加え、Klay VisionやElevenLabsなどのAIスタートアップも含まれています。一方で、音楽生成AIのSunoやUdioのように、レーベル側と著作権侵害で係争中の企業もあり、業界全体の対応が注目されます。

元Google社員、音声AIリサーチアプリ「Huxe」公開、460万ドル調達

GoogleのAIノートアプリ「NotebookLM」の開発者3名が、音声ファーストのAIリサーチアプリ「Huxe」を9月23日に公開しました。このアプリは、AIが生成するポッドキャスト形式でニュースやリサーチ情報を要約し、ユーザーの情報収集を支援します。同社はConvictionなどから460万ドル(約6.9億円)を調達。アプリはiOSAndroidで利用可能です。 Huxeの最大の特徴は、複数のAIホストが特定のトピックについて議論する「ポッドキャスト」を自動生成する点です。ユーザーはAIホストと対話し、質問したり別の角度からの説明を求めたりできます。これは、元々開発に携わったNotebookLM音声機能をさらに発展させたもので、情報収集のあり方を変える可能性を秘めています。 このアプリは、ユーザーのメールやカレンダーと連携し、スケジュールに基づいたパーソナライズされた日次ブリーフィングを提供します。また、関心のあるトピックを「ライブステーション」として登録すると、関連ニュースを継続的に追跡し、最新情報を音声で更新してくれます。これにより、受動的かつ効率的な情報収集が実現します。 開発チームは2024年12月にGoogleを退社後、当初はB2B向けのチャットボットを開発していました。しかし、音声生成機能へのユーザーの強い関心を捉え、消費者向け市場へ転換。スクリーンタイムが長く、情報過多に悩む知識労働者や専門家を主なターゲットとしてHuxeを開発しました。 Huxeはシードラウンドで460万ドルを調達しました。FigmaのCEOやGoogle Researchのジェフ・ディーン氏など著名投資家も名を連ねています。音声AI市場は成長が著しく、ElevenLabsやOboeといったスタートアップも参入。GoogleMetaも類似機能を開発しており、競争が激化しています。

NVIDIAが英国の「AIメーカー」戦略を加速 物理AI・創薬・ロボティクス分野で広範に連携

英国の国家AI戦略を支援

英国のAI機会行動計画を後押し
世界クラスの計算基盤への投資
AI採用を全経済分野で推進
AIユーザーでなくAIメーカーを目指す

重点分野での協業事例

スパコンIsambard-AI」で基盤構築
ロボティクス:自律走行、製造、ヒューマノイド開発
ライフサイエンス:AI創薬デジタルツインを活用

NVIDIA英国のAIエコシステムとの広範なパートナーシップを強調し、英国の国家戦略である「AIメーカー」としての地位確立を強力に支援しています。ジェンスン・ファンCEOの英国訪問に際し、物理AI、ロボティクス、ライフサイエンス、エージェントAIなど最先端領域における具体的な協業事例が公表されました。

英国のAI基盤強化の核となるのは、NVIDIA Grace Hopper Superchipsを搭載した国内最速のAIスーパーコンピューター「Isambard-AI」です。これにより、公的サービスの改善を目指す独自の多言語LLM(UK-LLM)や、早期診断・個別化医療に向けた医療基盤モデル(Nightingale AI)など、重要な国家プロジェクトが推進されています。

特に物理AIとロボティクス分野での応用が加速しています。Extend Roboticsは製造業向けに安全なロボット遠隔操作システムを開発。Humanoid社は倉庫や小売店向けの汎用ヒューマノイドロボットを開発しており、いずれもNVIDIAのJetsonやIsaacプラットフォームが活用されています。

ライフサイエンス分野では、AIによる創薬の加速が目覚ましいです。Isomorphic LabsはAI創薬エンジンを構築し、英国CEiRSIはNVIDIA技術を用いて複雑な患者のデジタルツインを作成。これにより、大規模かつ多様な患者集団に対する新しい治療法のテストを可能にしています。

エージェントAIおよび生成AIのイノベーションも活発です。Aveniは金融サービスに特化したLLMを開発し、コンプライアンスを確保しながら顧客対応やリスク助言を行うエージェントフレームワークを構築しました。ElevenLabsやPolyAIは、超リアルな音声生成や、大規模な顧客サポート自動化を実現しています。

また、AIスキルギャップ解消への取り組みも重要です。技術ソリューションプロバイダーのSCANは、NVIDIA Deep Learning Instituteと連携し、コミュニティ主導型のトレーニングプログラムを展開しています。これにより、英国全土でAIや専門的なワークロードに対応できる人材育成が進められています。