音声(マルチモーダル)に関するニュース一覧

Google翻訳、全イヤホンでリアルタイム通訳 Gemini搭載

任意のイヤホンで同時通訳

Pixel Buds限定を撤廃し全機種対応
Android70言語以上を即時翻訳
Geminiが話者のトーンや抑揚を維持

文脈を読む翻訳精度

慣用句やスラングのニュアンスを理解
直訳を脱し文脈に応じた意訳を実現
日本語含む約20言語でテキスト品質向上

提供地域と学習機能

米国などで先行開始、iOSは2026年
語学学習機能に継続記録などを追加

Googleは12日、翻訳アプリに最新AI「Gemini」を統合しました。目玉は、あらゆるヘッドフォンで利用可能なリアルタイム音声翻訳です。従来は自社製限定だった機能を解放し、言語の壁を取り払うツールとして、ビジネスや海外渡航の生産性を劇的に高めます。

今回の更新で、Androidユーザーはメーカーを問わず手持ちのイヤホンで「Live Translate」を利用可能です。Geminiにより、話者のトーンや抑揚まで維持した自然な音声翻訳を実現。会話のニュアンスや感情まで正確に伝わりやすくなります。

テキスト翻訳の精度も飛躍的に向上しました。Geminiが文脈を解析し、慣用句やスラングも直訳ではなく本来の意味を汲み取って翻訳します。「Stealing my thunder」といった表現も適切に変換され、誤解のリスクが大幅に減少します。

音声翻訳はベータ版として米国、メキシコ、インドAndroid向けに提供開始され、70言語以上に対応します。iOS版や対象国の拡大は2026年を予定しており、グローバルビジネスの標準ツールとなる可能性を秘めています。

翻訳アプリ内の語学学習機能も強化されました。連続学習の記録や発音への詳細なフィードバック機能が追加され、約20カ国に拡大。単なる翻訳ツールから、言語習得のパートナーへと進化を続けています。

Google新音声AI、会話品質と外部連携が大幅向上

AIエージェントの性能が進化

指示順守率が90%に向上
外部ツール連携の精度改善
文脈を維持した多重ターン会話

ビジネス実装と新体験

抑揚も再現する同時通訳機能
Vertex AIでの即時利用が可能
Shopify等が顧客対応に導入

Googleは12日、AIの音声対話能力を飛躍的に高める新モデル「Gemini 2.5 Flash Native Audio」を発表しました。この更新により、複雑なワークフロー処理やユーザー指示の理解度が大幅に向上し、より自然で実用的な音声エージェントの構築が可能になります。開発者や企業は、Vertex AIなどを通じて即座に利用を開始できます。

特筆すべきは、外部ツールを操作する「Function Calling」の精度の高さです。ベンチマークで71.5%という高スコアを記録し、会話の流れを止めずにリアルタイム情報を取得する能力が強化されました。また、開発者の指示を守る順守率も84%から90%へ改善されており、意図通りの動作を安定して実現します。

この進化は、企業の生産性に直結します。既にShopifyや米住宅ローン大手のUWMが導入し、顧客対応やローン処理の効率化で成果を上げています。AIが文脈を記憶し、多言語を切り替えながら感情豊かに話すことで、ユーザーがAIであることを忘れるほどの自然な顧客体験を提供できるのです。

グローバルビジネスを加速させる「リアルタイム音声翻訳」も見逃せません。話し手の抑揚やペースを維持したまま、70以上の言語間で双方向の会話を自動翻訳します。ノイズ除去機能も備え、騒音下でもスムーズな意思疎通を支援するこの機能は、Google翻訳アプリでベータ版として提供されます。

さらに、この技術はGoogle検索の対話機能「Search Live」にも統合され、情報収集の在り方を変えようとしています。高度な音声AIを自社サービスに組み込みたいエンジニアやリーダーにとって、Gemini 2.5は強力な武器となるでしょう。APIは現在、Vertex AIなどで利用可能です。

Runwayがワールドモデル発表、動画生成に音声機能追加

物理法則を学ぶ「GWM-1」

物理法則を理解し世界を模擬
ロボット等のエージェント訓練に応用
環境・ロボット・人の3領域で展開

実用化進む「Gen 4.5」

ネイティブ音声と対話生成に対応
一貫性ある1分間の長尺動画を作成
制作現場で使える編集機能を強化

AI映像生成のRunwayは2025年12月11日、同社初となるワールドモデル「GWM-1」と、動画生成モデル「Gen 4.5」のアップデートを発表しました。物理シミュレーション音声付き動画生成の両軸で、AIの産業応用と市場価値を大きく高める狙いです。

新発表の「GWM-1」は、物理法則や時間の経過を理解するAIモデルです。環境構築用の「Worlds」、ロボット学習用の「Robotics」、人間行動再現の「Avatars」を展開し、現実世界の高度なシミュレーションを可能にします。

動画モデル「Gen 4.5」はネイティブ音声に対応しました。映像に同期した音や対話を生成でき、一貫性を保った1分間の長尺動画も作成可能です。単なる生成実験を超え、実用的な映像制作ツールとしての地位を固めます。

同社は「動画生成の進化がワールドモデルへの近道」と位置づけます。特にロボット分野では、天候や障害物を含む高品質な合成データを提供し、実機での試行錯誤を減らすことで開発効率と生産性の向上に貢献します。

NVIDIA、モンハン2作をクラウド配信 RTX5080級で強化

人気作追加とデバイスフリー

カプコンのモンハンストーリーズ1・2が追加
ダウンロード不要でクラウドゲーミングが可能
スマホやPCなど多様なデバイスに対応

最新サーバー技術と特典

Game Awards候補作など注目作も多数配信
Ultimate会員はRTX 5080級環境を利用可
ARC Raidersの限定アイテム特典を用意

NVIDIAは12月11日、クラウドゲーミングサービス「GeForce NOW」にカプコンの人気RPG『モンスターハンターストーリーズ』シリーズを追加しました。これにより、高性能なハードウェアを持たない層へも、ダウンロード不要で高品質なゲーム体験を提供します。

今回追加されたのは、シリーズ第1作および続編の『モンスターハンターストーリーズ2』です。ユーザーはスマートフォンやノートPCなど、あらゆるデバイスでカプコンのリッチなコンテンツを楽しめます。特に第1作はフルボイス化などの機能強化も施されています。

プラットフォームの技術的優位性も強化されています。最上位のUltimateプランではRTX 5080クラスのサーバーが稼働しており、従来の最大2.8倍のフレームレートを実現しました。シネマティック品質のストリーミングにより、遅延のない没入感あるプレイが可能です。

年末の「The Game Awards」シーズンに合わせ、ノミネート作品を含む多数のタイトルも拡充されました。さらに『ARC Raiders』の限定特典を用意するなど、コンテンツインフラの両面からクラウドゲーミング市場での競争力を高めています。

Adobe、AI戦略奏功し過去最高売上237億ドル

過去最高業績の達成

売上高は前年比11%増の237.7億ドル
AI関連収益が事業全体の3分の1以上
生成AIツールの急速な普及が貢献

AI戦略と今後の展望

独自モデルFireflyを全製品に展開
2026年はARR10.2%増が目標
OpenAIGoogle等と連携強化

Adobeは2025年度決算を発表し、売上高が前年比11%増の237億7000万ドルと過去最高を記録しました。株価は年初来で下落傾向にあるものの、生成AI戦略が実を結び、収益面での堅実な成長を証明しています。

シャンタヌ・ナラヤンCEOは、この好業績について「世界的なAIエコシステムにおける重要性の高まり」を反映していると説明しました。特にAI関連の年間経常収益は、今や事業全体の3分の1以上を占めるまでに成長しています。

成長の原動力となっているのが、独自開発の生成AIモデル「Firefly」です。画像動画音声の生成機能をクリエイティブアプリ群に統合し、ユーザーによるAIツールの採用が急速に進んでいます。

また、自社技術だけでなくパートナーシップも強化しています。AWSGoogleOpenAIなど主要なAIプラットフォームと連携することで、競合との対立を避けつつ、クリエイティブ産業での地位を固める戦略です。

2026年に向けては、生成AIやエージェント機能の革新を通じ、年間経常収益をさらに10.2%増加させる目標を掲げています。AdobeはAI活用を軸に、さらなる顧客基盤の拡大を目指します。

米TavusのAIサンタ、感情認識と記憶機能で長時間対話へ

進化した「Tavus PAL」

視覚・聴覚を持ち人間らしく振る舞うAIエージェントを採用
表情やジェスチャーを認識し会話内容や興味を長期記憶
Web検索やメール下書きなど自律的なタスク実行が可能

高い没入度と安全性

1日数時間対話し利用制限に達する長時間利用が多発
昨年の数百万回を大幅に上回るペースでアクセス急増
フィルターやデータ削除機能を実装し家族の安全に配慮

米国のAIスタートアップTavusは、音声と顔のクローニング技術を用いた「AIサンタ」の提供を開始しました。昨年に続く2年目の取り組みですが、今年は感情認識や長期記憶といった高度な機能を搭載し、大幅に進化しています。創業者によると、ユーザーが1日に数時間も話し込むケースが見られるなど、極めて高いエンゲージメントを記録しています。

今年のAIサンタは、同社のリアルタイムAIエージェント基盤「Tavus PAL」によって駆動されています。ユーザーの表情やジェスチャーを視覚的に認識して反応するほか、過去の会話内容や興味を記憶することで、よりパーソナライズされた体験を提供します。さらに、プレゼントのアイデアをWebで検索したり、メールの下書きを作成したりするなど、自律的なアクションも可能です。

実際のテストでは、特定のゲームタイトルについて掘り下げるなど、文脈を理解した自然な会話が確認されました。CEOのHassaan Raza氏によれば、昨年の数百万アクセスを大幅に上回るペースで利用が拡大しており、多くのユーザーが日々の利用制限に達するほど熱中しています。一方で、AI特有の長い沈黙や声の抑揚など、改善の余地も残されています。

長時間のAI対話がもたらす子供への影響も懸念されますが、Tavusはこれを「家族で楽しむ体験」と位置づけています。不適切な会話を防ぐコンテンツフィルタの実装や、必要に応じたメンタルヘルスリソースへの誘導など、安全対策を強化しています。また、収集されたデータはユーザーの要求に応じて削除可能であり、プライバシー保護にも配慮されています。

iFixitの修理AI「FixBot」検証、複雑な作業は時期尚早

AI修理アシスタントの実力

iFixitが対話型修理AIを公開
既存ガイドがある作業は概ねスムーズ
状況認識が甘く物理的警告が不足

致命的リスクとLLMの限界

高電圧機器で危険な手順を指示
基本を見落とし過剰な修理を提案
専門家マニュアルの過学習が原因か

米修理情報サイトiFixitは12月10日、修理支援AI「FixBot」を公開しました。The Vergeの記者がゲーム機や家電の修理で実力を検証したところ、単純な作業には有用な一方、複雑で危険を伴う修理では致命的な誤りを犯すことが明らかになりました。

既存の修理ガイドが存在するNintendo 64の領域変更では、AIは音声で適切に手順を案内しました。しかし、本体を裏返す際に部品が脱落するといった物理的な注意点は警告されず、トラブル時の画像診断も機能不全に陥るなど、未完成な部分が目立ちました。

より深刻なのは、高電圧を扱うCRTテレビの修理における助言です。AIは「ケースを開ける前に内部のアノードを放電せよ」という物理的に不可能な指示や、単なる電源コードの不具合に対して基板の再はんだ付けを勧めるなど、危険かつ不適切な対応を繰り返しました。

ヒートポンプの不調に対しても、「フィルター掃除」という最も基本的な解決策を提案できず、専門家を呼ぶよう促しました。iFixitのCEOは、LLMが専門家向けマニュアルを学習データとしているため、素人には不向きな「専門家ロールプレイ」をしてしまうと説明しています。

今回の検証を受け、iFixitは音声モードに「アルファ版」のラベルを追加しました。AIによる修理支援は将来性が期待されるものの、現時点では情報の正確性に課題があり、特に安全に関わる作業においては人間の判断が不可欠です。

Google、AI検索の出典強化と報道機関との有償提携を発表

情報源へのアクセス強化

「Preferred Sources」を世界展開
購読メディアのリンクを優先表示
AIモードでの出典リンクを増量
リンクの有用性をAIが解説

報道機関との共存モデル

大手メディアと有償プログラム開始
Google NewsでAI要約を実験
Geminiリアルタイム情報統合

Googleは2025年12月10日、検索およびAI機能における報道機関との連携強化と新機能を発表しました。ユーザーが信頼する情報源へアクセスしやすくする仕組みを導入し、同時に出版社への対価支払いを含む新たなパートナーシップを開始します。

注目すべきは、ユーザーがお気に入りのメディアを指定できる「Preferred Sources」の世界展開です。英語圏から順次拡大し、検索結果のトップニュース枠で選択した情報源が優先的に表示されるようになります。

さらに、ユーザーが有料購読しているニュースサイトのリンクを強調表示する機能も追加されます。まずはGeminiアプリで導入され、AI検索機能である「AI Overviews」や「AI Mode」にも順次適用される予定です。

AI検索の透明性も向上します。「AI Mode」において、回答の根拠となる出典リンクを増やし、なぜそのリンクが有用かを説明するテキストを追加します。これにより、ユーザーは情報の信頼性を確認しやすくなります。

また、Der SpiegelやThe Washington Postなど、世界的な報道機関との有償パイロットプログラムも開始しました。Google News上でAIによる記事要約や音声読み上げを実験し、読者のエンゲージメント向上を図ります。

今回の施策は、AI検索の普及に伴うウェブサイトへのトラフィック減少に対する懸念に対応するものです。高品質なコンテンツを提供するパブリッシャーとの共存関係を模索し、持続可能な情報エコシステムの構築を目指しています。

Google、オンデバイスAI開発コンペの受賞者を発表

障害者支援とオフライン活用

視覚障害者向けウェアラブルAIが優勝
胸部カメラ映像をリアルタイム解析
認知障害者支援の完全オフライン動作
個人の発話特徴をローカル学習

警備・教育へのエッジ実装

警備カメラ映像の文脈的脅威判定
通信遮断地域での教育ハブ構築
ロボットJetson上での実装

Googleは12月10日、オンデバイスAIモデル「Gemma 3n」を活用した開発コンペ「Impact Challenge」の受賞者を発表しました。600以上の応募から選出されたプロジェクトは、クラウドに依存しないエッジAIが、低遅延かつ高プライバシーで社会課題を解決する可能性を実証しています。

最優秀賞の「Gemma Vision」は、視覚障害者が胸部に装着したカメラ映像をAIが解析し、周囲の状況を伝えるウェアラブルアシスタントです。白杖を持つ手が塞がらないよう音声や小型コントローラーで操作でき、すべての処理をデバイス上で完結させることで、実用的な応答速度を実現しています。

2位の「Vite Vere Offline」は、認知障害者のために画像音声指示に変換する完全オフラインアプリです。3位の「3VA」は、脳性麻痺を持つデザイナー向けにピクトグラムを豊かな文章へ変換するシステムで、ローカル環境での追加学習により、個人の意図を正確に反映させることに成功しました。

そのほか、警備カメラの映像から脅威のみを文脈的に識別するシステムや、インターネット接続がない地域向けの教育用マイクロサーバーなど、多彩なプロジェクトが入賞しました。これらの事例は、AIが画面の中だけでなく、物理的な制約のある現場でいかに具体的価値を生み出せるかを示唆しています。

Gemini 2.5音声モデル刷新 表現力と制御性が向上

表現力とペース制御の進化

表現力と指示忠実度が大幅に向上
文脈に応じたペース調整が可能に
独自のトーン指定に正確に対応

対話生成と実用性の拡大

複数話者の声質一貫性を維持
24言語対応で多言語展開を支援
AI Studioですぐに試用可能
Wondercraft等が本番環境で採用

Googleは12月10日、開発者向けブログにて「Gemini 2.5 Flash」および「Pro」のTTSモデル更新を発表しました。今回のアップデートでは、感情表現の豊かさやプロンプトへの忠実性が大幅に向上し、文脈に応じたペース制御や複数話者による自然な対話生成が可能になりました。これらの新機能はGoogle AI Studioですぐに利用でき、開発者はより没入感のある音声コンテンツを効率的に制作できます。

今回の更新で最も注目すべき点は、表現力の飛躍的向上です。楽観的な口調から深刻なトーンまで、プロンプトでのスタイル指定に忠実な音声生成が可能になりました。また、文脈を理解して話す速度を調整する機能も追加され、物語の緊張感や説明の間合いを自然に表現できます。

ポッドキャストやインタビュー形式のコンテンツ制作に不可欠な、複数話者機能も改善されました。話者が切り替わる際も各キャラクターの声質が一貫して保たれます。さらに、24の対応言語すべてで独自のトーンやピッチを維持できるため、グローバルな多言語展開にも最適です。

新モデルはGoogle AI Studioですでに公開されており、旧モデルからの置き換えが推奨されています。AI音声プラットフォームのWondercraftなどは既に本機能を導入し、感情豊かな対話生成や詳細な音声編集機能を実現しており、市場での実用性が証明されています。

ElevenLabs評価66億ドル 音声AIから対話PFへ

評価額倍増と市場での躍進

評価額は9ヶ月で倍増し66億ドル
Sequoiaらが1億ドル規模を出資
創業から短期間で黒字化を達成

音声技術のコモディティ化と転換

音声モデルは数年でコモディティ化
会話型AIエージェントへ戦略転換

AI音声生成のElevenLabsが、評価額66億ドルに到達しました。米Sequoiaなどが主導する投資ラウンドで、わずか9ヶ月で企業価値を倍増させています。注目すべきは、CEOが「音声モデル自体は数年でコモディティ化する」と予測し、次なる成長戦略へ舵を切っている点です。

ポーランド出身のエンジニアが創業した同社は、映画の吹き替え品質への不満から始まりました。現在では黒字化を達成し、Fortniteのキャラクターボイスや企業のカスタマーサポートに技術を提供。OpenAIと競合しながらも、AI音声のデフォルトスタンダードとしての地位を確立しつつあります。

Staniszewski CEOは、音声生成技術の優位性は長く続かないと分析しています。競合が追いつく未来を見据え、単なる音声モデルの提供から、会話型AIエージェントの構築プラットフォームへと事業をピボット。対話機能そのものを包括的に提供する戦略です。

さらに、ディープフェイク対策としての電子透かしや、音楽生成動画モデルとの融合も推進しています。「人間よりもAI生成コンテンツの方が多くなる」という未来予測のもと、音声を超えたマルチモーダルな展開を加速させています。

Rivian、独自AI助手を開発 車両制御と統合しVW提携外

車両制御と統合する独自AI

2年前から開発、VW提携とは独立したプロジェクト
単なる対話ではなく車両制御と深く統合
特定のモデルに依存しない柔軟なアーキテクチャ

エッジとクラウドの最適化

端末側とクラウド側を組み合わせたハイブリッド構成
タスクに応じて処理を振り分けるオーケストレーション
顧客の信頼とエンゲージメント向上を重視

米新興EVメーカーRivianが、VWとの提携とは別枠で独自のAIアシスタントを開発していることが明らかになりました。約2年前から極秘に進められてきたこのプロジェクトは、単なる音声対話機能にとどまらず、車両制御システムと高度に統合されたエージェント型AIです。

このAIアシスタントは、特定の基盤モデルに依存しない柔軟な設計が特徴です。Rivianのソフトウェア責任者によれば、業界で「エージェント・フレームワーク」と呼ばれる構造を早期から採用し、複数の異なるAIモデルと連携できるようアーキテクチャを構築しました。

システムは、車両内で処理するエッジAIと、高度な計算を要するクラウドAIを組み合わせたハイブリッド構成です。独自開発のオーケストレーション層が交通整理役となり、タスクに応じて最適な処理場所とモデルを瞬時に判断して割り振ります。

本開発はRivianが進める垂直統合戦略の一環であり、顧客エンゲージメントの向上が狙いです。VWとの58億ドル規模の提携は電気アーキテクチャ等に焦点を当てており、現時点でAIアシスタントは対象外ですが、将来的な連携の可能性も残されています。

Pebble創業者、充電不要の音声メモ特化リング「Index 01」発表

「脳の外部メモリ」を指先に

ボタン長押しで音声メモを即座に記録
充電不要で約2年間稼働する使い切り設計
ヘルスケア機能を削ぎ落とした単機能
常時録音せずプライバシーを確保

AI連携とハッカビリティ

スマホ上のローカルAIで文字起こし
オープンソースで機能を拡張可能
プレオーダー価格は75ドル

スマートウォッチのパイオニア、Pebble創業者のエリック・ミジコフスキー氏が、新たなウェアラブル「Index 01」を発表しました。この指輪型デバイスは、フィットネス追跡や通知機能を一切持たず、「音声メモの記録」という一点のみに特化しています。価格は75ドル(約1万1000円)で、充電不要という大胆な仕様が特徴です。

最大の売りは、日々のふとしたアイデアやタスクを逃さず記録できる即時性です。人差し指に装着し、親指でボタンを押している間だけ録音が作動します。データはBluetooth経由でスマートフォンに転送され、アプリ内のローカルAIモデルによってテキスト化されるため、クラウドへの送信によるプライバシーリスクも回避できます。

既存のスマートリングとは異なり、Index 01は充電ポートを持ちません。内蔵バッテリーにより、1日10〜20回の短いメモであれば約2年間稼働します。「充電のために外す」という行為をなくすことで、常に身につける「脳の外部メモリ」としての役割を徹底させました。電池切れ後はメーカーへ返送し、リサイクルされます。

エンジニアやハッカー向けの拡張性も魅力です。ソフトウェアはオープンソース化されており、ボタン操作をカスタマイズして音楽再生やカメラのシャッター制御、さらには自作アプリとの連携も可能です。Notionやカレンダーアプリへの統合も視野に入れており、生産性を追求するユーザーに適しています。

ミジコフスキー氏は今回、VC資金に依存しない「収益性重視」の経営スタイルをとっています。新会社Core Devicesは少人数のチームで運営され、単一の課題を極めてうまく解決する製品作りに集中しています。Pebble時代とは異なる、持続可能なハードウェアビジネスの模索としても注目に値します。

iFixitが修理特化AI搭載アプリ公開、故障診断を自動化

AIによる高度な故障診断

画像認識で機種・問題を特定
熟練工のように対話で原因診断
12万件超の独自データを学習
解決策と部品購入へシームレス誘導

収益モデルと戦略的背景

バッテリー寿命の予測と管理
高度機能は月額サブスクへ移行
欧州法準拠で修理する権利を促進
過去のストア削除を経て再リリース

米修理情報サイトiFixitは12月9日、生成AIチャットボット「FixBot」を搭載した新モバイルアプリをiOSおよびAndroid向けにリリースしました。ユーザーはスマートフォンのカメラや音声入力を使って対象機器の故障箇所を診断させ、即座に修理手順や必要な部品の提案を受けることが可能になります。

核となる「FixBot」は、同社が長年蓄積してきた12万件以上の修理ガイドやマニュアルを学習しています。例えば故障した家電の写真を撮るだけで、AIがモデルを特定し、熟練技術者のように対話形式で問題の切り分けを行います。単なる検索ではなく、的確な解決策と部品購入への動線が設計されており、DIY修理のハードルを大幅に下げています。

アプリには高度なバッテリー診断機能も実装されました。現在の劣化状態を示すだけでなく、充放電サイクルデータに基づき将来の寿命を予測し、計画的な交換を促します。CEOのカイル・ウィーンズ氏は、これを車のオイル交換のように定期的なメンテナンスとして定着させたい意向を示しており、ハードウェア管理の新しい形を提案しています。

将来的には音声操作や独自ドキュメントの読み込み機能などを月額4.99ドルのサブスクリプションとして提供する計画です。かつてAppleによりアプリを削除された経緯を持つ同社ですが、欧州の消費者法などを背景に「修理する権利」を支援する不可欠なプラットフォームとして、再びモバイルエコシステムへの浸透を図ります。

Googleが26年にAIグラス発売へ 2モデル展開でMeta追撃

生活に溶け込む2つのモデル

Geminiと対話する画面なしモデル
ナビや字幕を映すレンズ内表示
Xrealと連携した有線XRグラス

ブランド提携と市場競争

Warby Parker等とデザイン協力
最大1.5億ドル投資小売網を活用
先行するMetaの牙城に挑む
26年はApple・Snapも参入

Googleは2026年に初のAIグラスを発売すると発表しました。Android XRをOSに採用し、人気アイウェアブランドのWarby ParkerやGentle Monsterと提携して開発を進めます。先行するMetaに対抗し、日常に溶け込むデザインと機能性を両立させた製品で市場シェア獲得を狙います。

投入予定のモデルは主に2種類です。一つはディスプレイを省き、AI「Gemini」との音声対話や撮影に特化したスクリーンフリー型。もう一つは、レンズ内に着用者のみが見えるディスプレイを搭載し、ナビゲーションや翻訳字幕などを表示できるモデルです。

さらに、Xrealと協力した有線XRグラス「Project Aura」も披露されました。これは軽量グラスと高機能ヘッドセットの中間に位置し、Google Workspaceでの作業や動画視聴に適した拡張ディスプレイとして機能します。

スマートグラス市場ではMetaがRay-Banとの提携で成功を収めており、2026年にはAppleやSnapの参入も予想されます。GoogleはWarby Parkerへの巨額投資を通じて開発と販路を強化し、激化する次世代ウェアラブル競争に挑みます。

Amazon Alexa Plus、AI自動購入と注文管理ハブ機能を実装

指定価格での自動購入

指定価格を下回ると自動で決済まで完了
カート内商品を監視し値下がり通知も実施

Echo Showの管理ハブ化

配送や履歴を一元管理するShopping Essentials
声掛けのみでリアルタイム配送追跡を表示

柔軟な配送とAI提案

倉庫出荷直前まで既存注文への商品追加が可能
生成AIが相手や状況に最適なギフト提案

Amazonは2025年12月9日、AIアシスタント「Alexa Plus」に対し、新たなショッピング機能群を導入しました。このアップデートには、ユーザーが設定した価格条件に基づく自動購入機能や、Echo Showデバイス向けの統合管理ハブ「Shopping Essentials」が含まれます。同社は生成AIを活用し、購買プロセスの自動化と効率化を加速させることで、Eコマース体験の刷新を図っています。

ビジネスパーソンにとって注目の新機能は、機会損失を防ぐ「自動購入」です。これはAIチャットボット「Rufus」の機能を拡張したもので、ウィッシュリストやカート内の商品を常時監視し、指定価格を下回った瞬間に自動的に決済まで完了させます。デフォルトの配送・支払い設定が適用されるため、多忙なユーザーでもセールや価格変動のタイミングを逃さずに商品を確保できます。

また、Echo Show 15および21向けに提供される「Shopping Essentials」により、デバイスが強力な購買管理ハブへと進化します。最近の注文履歴、リアルタイムの配送追跡、再注文の提案などが一元的に表示され、「Alexa、荷物はどこ?」と話しかけるだけで状況を即座に把握可能です。これまで音声のみでは不十分だった情報確認が、視覚的なダッシュボードによって大幅に改善されます。

さらに、倉庫から出荷される直前まで既存の配送便に商品を追加できる機能や、生成AIが贈る相手や状況に合わせて最適な品物を推薦するギフト提案機能も実装されました。これまでスマートスピーカー経由の購買普及に苦戦していたAmazonですが、AIによる利便性とパーソナライズ機能を強化することで、新たな収益機会の創出を目指しています。

ヴァージン航空、AIで「規模の不利」を武器に変える

開発加速と業務効率化

競合との規模格差を技術力で相殺
コード生成活用で機能実装を高速化
人事や財務でカスタムGPTを運用

AIコンシェルジュの構築

ブランド独自の温かみとウィットを再現
複雑な案件は人間へスムーズに連携
音声API活用で顧客体験を刷新

CFO視点の投資戦略

ROIは短期的効率と長期戦略で評価
成果逆算型の野心的な目標設定

英国のヴァージン・アトランティック航空が、AI活用により事業変革を加速させています。同社CFOのオリバー・バイヤーズ氏は、規模で勝る競合に対抗するため、OpenAIの技術を「差別化の源泉」と位置づけました。AIを全社的に導入し、業務効率と顧客体験の両面で成果を上げています。

最大の成果はソフトウェア開発の領域で現れています。AIによるコーディング支援により、開発・テストのサイクルが劇的に短縮されました。これにより、モバイルアプリやチェックイン機能の改善を迅速に顧客へ提供可能となり、市場での競争力を高める重要な要因となっています。

社内業務でも「カスタムGPT」の活用が進んでいます。人事規定の照会や財務データの初期分析などに専用のAIモデルを導入し、数百種類のツールが稼働中です。これにより、従業員は定型業務から解放され、より創造的で付加価値の高い業務に集中できる環境が整いました。

顧客対応では、ブランドを体現する「デジタルコンシェルジュ」を構築しました。単なる自動応答に留まらず、ヴァージン特有の温かみある対話を目指しています。日常的な問い合わせはAIが即座に解決し、複雑な案件は人間が引き継ぐことで、効率と満足度を両立させています。

CFOとして、投資対効果(ROI)は二つの軸で厳格に管理しています。短期的には「時間の節約」などの生産性指標を、長期的には「顧客待ち時間の短縮」や「収益増」などの戦略目標を重視します。明確なガバナンスの下でリスクを抑えつつ、大胆な技術投資を行う姿勢が奏功しています。

会話リズムで相手特定、ワシントン大がAI聴覚技術を開発

会話リズムで相手を自動特定

話者交代パターンをAIが解析
ユーザー自身の声を基準に相手を特定
従来の方向や音量に依存しない手法

脳を模倣したデュアルモデル

文脈理解と音声処理を分離して実行
10ミリ秒未満の超低遅延を実現
未学習の日本でも動作を確認
音声明瞭度を最大14.6dB向上

ワシントン大学の研究チームは2025年12月、騒音下でも会話相手の声だけをクリアにする「プロアクティブ聴覚アシスタント」を発表しました。AIが会話特有のリズムを解析し、能動的に相手を特定する技術であり、従来の補聴器の課題を解消する可能性があります。

このシステムの核心は、人間が自然に行う「話者交代」のパターン認識にあります。マイクで拾ったユーザー自身の声をアンカー(基準)とし、自然なタイミングで応答する音声をAIが識別。方向や音量に頼らず、適切な会話パートナーのみを強調します。

処理遅延を防ぐため、人間の脳の情報処理を模した「デュアルモデル」を採用しています。会話の流れを把握する「遅いモデル」と、音声を即座に分離する「速いモデル」を並列稼働させ、リップシンクがずれない10ミリ秒以内の高速処理を実現しました。

実験では、英語と中国語で学習させたモデルが、未学習の日本語会話にも適応できることが確認されました。これは会話のリズムに言語を超えた普遍性があることを示唆しています。相手の特定精度は最大92%に達し、音声の明瞭度も大幅に向上しました。

今後は大規模言語モデル(LLM)を統合し、誰が「意味のある発言」をしているかまで理解するシステムの構築を目指します。実環境での複雑なノイズ処理など課題は残りますが、次世代の補聴器やARグラスへの実装により、生産性向上が期待される技術です。

音声指示で物体を数分生成、MITが「現実化AI」を開発

生成AIとロボットの融合

LLMと3D生成AIで設計を自動化
ロボットアームが数分で実体化
3Dプリントより高速なモジュール組立

製造の民主化と持続可能性

専門知識不要で誰でも製造可能
部品再利用により廃棄物を削減
ジェスチャー操作や大規模化も視野

米マサチューセッツ工科大学(MIT)の研究チームは2025年12月5日、音声指示だけで物理的な物体を生成する「Speech-to-Reality」システムを発表しました。生成AIとロボティクスを統合し、ユーザーが欲しいものを口にするだけで、ロボットアームが数分以内に家具などを自動で組み立てます。

このシステムは、大規模言語モデル(LLM)が音声を解析し、3D生成AIが設計図を作成することから始まります。生成されたデジタルデータはボクセル化アルゴリズムによって組み立て可能な部品構成に変換され、ロボットアームが最適な手順で物理的な構築を行います。

最大の特徴は、専門的な3Dモデリングやプログラミングのスキルが一切不要である点です。従来の3Dプリンティングが数時間から数日を要したのに対し、本システムはわずか数分で完了するため、製造プロセスの劇的な効率化と民主化を実現します。

また、組み立てにはモジュール式のコンポーネントを使用しており、持続可能性にも配慮されています。不要になった家具は分解して別の物体へと作り変えることができるため、廃棄物を削減し、資源を循環させるエコシステムとしての側面も持ち合わせます。

研究チームは今後、より堅牢な接続方法の採用や、ジェスチャー操作の統合を計画しています。将来的には、SF映画のように誰もがオンデマンドで必要なものを即座に手に入れられる世界の実現を目指し、モバイルロボットへの応用も視野に入れています。

米音楽界で生成AI「Suno」がデモ制作工程を席巻

伝統的制作プロセスの崩壊

デモ制作コストを劇的に削減
数秒でフルバンド音源が完成
スタジオ奏者の需要が激減

プロによるAI共存戦略

アイデア出しの壁打ち相手
作詞作曲は人間、編曲はAI
著作権倫理規定は未整備

米ナッシュビルの音楽産業で、生成AI「Suno」が制作現場を激変させています。従来、楽曲のデモ制作には高額なスタジオ費用と時間が必要でしたが、今やAIが瞬時に編曲・生成を行う時代となりました。この技術革新は、制作コストの削減とスピードアップを実現する一方で、既存の雇用や権利関係に深刻な課題を突きつけています。

かつて1曲数百ドルを要したデモ制作が、年間約100ドルで無制限に行えます。指示と音声メモを入力するだけで、数秒後には完成された音源が生成されます。この圧倒的なコスト効率と速度が、プロの作家たちを急速なAI利用へと駆り立てています。

多くの作家はAIを「無限の共同作業者」として扱います。歌詞やメロディの核は人間が担い、ジャンル変換や編曲をAIに任せることで試行錯誤を高速化しています。AIは単なる自動化ツールではなく、創造性を拡張する武器として定着しつつあります。

一方で、デモ演奏を担うスタジオ奏者の仕事は消滅の危機にあります。生産性向上は、長年業界を支えてきた育成システムを破壊する側面も持ち合わせており、効率化と産業エコシステムの維持という難しいバランスが求められています。

著作権の所在や学習データへの対価など、法的リスクも未解決です。AIが実在の歌手の声質を模倣する倫理的問題も浮上しており、技術の普及スピードに対して、法整備や業界ルールの策定が追いついていないのが実情です。

Wazeがスポンジ・ボブの音声を導入、移動体験をエンタメ化

映画公開に合わせたコラボ

映画『Search for SquarePants』記念
12月19日の公開に先駆け実装
日常の運転を冒険へ変える演出

没入感を高めるUX設計

スポンジ・ボブの声で道案内
車両アイコンを専用デザインに変更
気分設定で「Brave」を選択可能

グローバル展開と言語対応

英語など4言語でグローバル提供
アプリ内バナーから即時有効化

Google傘下のWazeは12月3日、新作映画の公開を記念し、ナビゲーション音声スポンジ・ボブを追加しました。日常の移動にエンターテインメント要素を取り入れ、ユーザー体験の向上とアプリの活性化を図る狙いです。

この新機能では、キャラクター特有の機知に富んだ音声で道案内を行うほか、車両アイコンを「Patty Blaster」に変更可能です。没入感のある演出により、退屈になりがちな通勤や運転を、予期せぬ楽しさのある冒険へと変えます。

本機能は英語、フランス語、スペイン語、ポルトガル語に対応し、グローバルで展開されます。最新版アプリのメニューから簡単に設定でき、人気IPとのコラボレーションを通じて、競合ひしめくナビアプリ市場での差別化を強化しています。

SnowflakeとAnthropic、2億ドル提携でエージェントAI加速

300億円規模の戦略的提携

Anthropic2億ドルのパートナーシップ
Claude12,600社以上に提供
企業向けエージェント型AIを加速

データ活用とセキュリティの両立

構造化・非構造化データの統合分析
データ抽出精度は90%以上を記録
企業の厳格なガバナンスを維持

高度な分析機能の実装

自然言語で分析するSnowflake Intelligence
SQLで扱うマルチモーダル分析
本番運用可能な自律型エージェント

SnowflakeとAnthropicは2025年12月3日、企業向けAI導入を加速させるため、2億ドル規模の戦略的パートナーシップ拡大を発表しました。この提携により、12,600社以上の顧客が、自社のデータ環境内で高度な推論能力を持つ「Claude」を活用し、自律的なエージェント型AIを展開できるようになります。

最大の狙いは、企業の機密データを外部に出すことなく、Claudeの高度な推論力を活用することです。Snowflakeのガバナンス下で、構造化データと非構造化データの双方を分析でき、複雑なデータ抽出タスクでは90%以上の精度を実現しています。

具体的には、「Snowflake Intelligence」にClaude Sonnet 4.5が搭載され、自然言語での高度な分析が可能になります。また「Cortex AI」を通じて、最新モデルを用い、SQLベースで画像音声を含むマルチモーダル分析も行えます。

Snowflake自身も社内業務でClaudeを広範に利用し、エンジニア生産性向上や営業サイクルの短縮を実現しています。金融やヘルスケアなどの規制産業でも、セキュリティを担保しながら本番環境へのAI移行が加速する見込みです。

Google教育AIが示す生産性革命 週10時間削減の実践知

教育現場でのAI実装加速

米大学1000校導入、1000万人へ展開
北アイルランド教員週10時間を節約
週末の作業時間を20分に短縮

理解と創造を加速するツール

NotebookLM音声概要を即座に生成
Gemini試験対策や面接練習を支援
インドマップで情報の接続を可視化

全員参加型のスキル向上

100万人以上がAIトレーニングを受講
10万人がGemini認定を取得
ゲーム形式で学ぶAI開発プロセス

2025年、Googleの教育部門はAIの実用化を決定づけました。世界中の機関でGeminiが導入され、現場の生産性が劇的に向上しています。教育分野で実証された「AIによる業務効率化」の波は、あらゆるビジネスリーダーにとって注視すべき変革のモデルケースです。

特筆すべきは、その圧倒的な時間短縮効果です。北アイルランドの教育現場では、AIツールの活用により週10時間もの業務時間削減を実現しました。メキシコでは、従来週末を潰していたタスクがわずか20分で完了するなど、生産性革命が現実のものとなっています。

中核を担うのがGeminiNotebookLMです。単なる回答生成に留まらず、複雑な資料からの音声概要作成や、概念を整理するマインドマップ生成など、情報のインプットと整理を高度に支援します。これはビジネスにおけるリサーチや資料作成にも直結する機能です。

ハードウェア面でも進化が止まりません。AI機能を内蔵したChromebook Plusは、画面上の情報を即座にテキスト化する機能などを搭載し、デバイスレベルでの作業効率を底上げします。既存機器をChromeOS化するChromebox OPSなど、資産の有効活用も進んでいます。

組織的なAI活用にはリテラシー教育が不可欠です。Googleは100万人以上にトレーニングを提供し、既に10万人が認定資格を取得しました。ツールを導入するだけでなく、使いこなすための人材育成こそが、競争力を分ける鍵となります。

教育現場での成功事例は、AIがもはや実験段階ではなく、実務に不可欠なインフラとなったことを証明しています。リーダーはこれらのツールを自組織にどう適用し、人的資本の価値を最大化するかを問われています。今こそ、実践的なAI導入に踏み切るときです。

アマゾン、AI生成のアニメ吹き替えを撤回 「感情欠如」に批判殺到

実験的導入から撤回までの経緯

3月にAI吹き替え活用を発表
11月下旬にベータ版を公開
『BANANA FISH』等が対象
品質への苦情受け取り下げ

露呈した技術と受容性の課題

感情表現が乏しく棒読み
深刻な場面でもトーン一定
人間の声優起用求める声
効率化とUXのバランス課題

Amazon Prime Videoは、一部のアニメ作品に試験導入していたAI生成による吹き替え機能を取り下げました。11月下旬、『BANANA FISH』などの人気作品向けに英語とスペイン語のAI音声を公開しましたが、視聴者から品質に対する批判が殺到したためです。

最大の問題点は、AI音声における感情表現の欠如でした。ユーザーが共有した動画では、銃撃された子供を揺り動かす緊迫したシーンであっても、AI音声は平坦で無機質なトーンのままでした。これに対し「不気味だ」「作品への敬意がない」といった厳しい意見が寄せられました。

Amazonは3月、これまで吹き替え版が存在しなかった作品の多言語展開を加速させるため、AI技術を活用する方針を示していました。しかし、人間の声優ではなくAIを選択したことに対し、ファンからはクリエイター軽視であるとの反発も強く、技術的な課題以上に倫理的な反感が広がりました。

今回の事例は、AIによる効率化とユーザー体験(UX)のバランスがいかに繊細であるかを示唆しています。特に感情的なつながりが重視されるエンターテインメント分野では、コスト削減を優先した性急なAI導入が、逆にブランド価値を毀損するリスクがあることを認識すべきでしょう。

パリ発AI音声Gradium、シードで7000万ドル調達

仏発の超低遅延AI音声技術

仏ラボKyutai発のスピンアウト
設立数ヶ月で7000万ドルを調達
人間並みの超低遅延応答を実現
初日から5言語に対応し提供

激化する市場競争と勝機

Google元CEOら著名投資家が支援
OpenAIやElevenLabsと競合
エージェント普及で高まる需要

フランス・パリを拠点とするAI音声スタートアップ「Gradium」は2025年12月2日、ステルスモードを解除し、7000万ドルのシード資金調達を発表しました。Google DeepMind出身者が創業し、エリック・シュミット氏らが出資する大型案件です。

Gradiumの最大の強みは、超低遅延を実現した音声言語AIモデルにあります。人間同士の会話のように「即座に応答する」自然な体験が可能で、開発者がより高速かつ正確な音声対話システムを構築できるよう支援します。

欧州発の強みを活かし、英語やフランス語など主要5言語に多言語対応してのローンチとなりました。同社はフランスのAIラボ「Kyutai」からのスピンアウトであり、創業者DeepMind音声モデルの研究を重ねたエキスパートです。

音声AI市場にはOpenAIやElevenLabsなどの強豪がひしめいています。しかし、AIエージェントの普及に伴い、よりリアルな表現力と正確性への需要は急増しており、Gradiumはこの成長領域で技術的な優位性を武器に勝負を挑みます。

脱クラウドの覇者:Home Assistantが示すOSSの未来

ローカルファーストの衝撃

AIインフラ並みの成長を記録
200万世帯で稼働する家のOS
クラウド依存を排した完全ローカル処理

持続可能なエコシステム

開発者が即ユーザーとなる高品質な開発
買収を防ぎ永続性を守る財団による運営
実用性を重視したハイブリッドAI活用

AIインフラと並び、GitHubで最も急成長しているOSSの一つが「Home Assistant」です。これは200万世帯以上で稼働するホームオートメーション基盤であり、クラウドに依存せず全ての処理を端末内で行う「ローカルファースト」を貫いています。開発者自身が自宅でテストを行う独自のコミュニティモデルにより、品質と開発速度を両立。巨大テック企業のクラウド戦略に対する、技術的な対案として注目を集めています。

最大の特徴は、インターネット接続を必須としない完全なローカル処理です。クラウド依存モデルでは、サービス終了や仕様変更により自宅の機器が「電子ゴミ」化するリスクがあります。Home Assistantは、プライバシー保護と永続性を担保するため、すべてのデータをユーザーの手元にあるハードウェアに置く設計を採用しました。

AIブームの中で、同プロジェクトは冷静なアプローチをとっています。音声操作機能「Assist」では、まずルールベースの処理で確実かつ高速な応答を実現。生成AIはあくまで「オプション」として位置づけ、自然言語の解釈が必要な場合のみ利用するハイブリッドな構成で、実用性とレスポンス速度を最大化しています。

2万1000人を超えるコントリビューターの熱量は、「自分事」としての開発に由来します。開発者が自分の生活を改善するためにコードを書き、自宅という本番環境でテストを行うため、バグ修正や機能改善の動機が極めて強力です。これが商用製品をも凌駕する開発スピードと、エッジケースへの対応力を生む源泉となっています。

プロジェクトは「Open Home Foundation」により管理され、企業の買収から保護されています。ハードウェアも含めたオープンなエコシステムを構築することで、特定のベンダーに縛られない「プログラム可能な家」を実現。ユーザーに主導権を取り戻すこの動きは、次世代の分散型システムのモデルケースといえます。

AWS、自社データで「特化型AI」を創る新基盤を発表

特化型AI構築サービス

独自データを学習過程に注入可能
開発コストと時間を大幅削減

新モデル「Nova」4種

高コスパな推論モデル「Lite」
複雑なタスク処理の「Pro」
音声・マルチモーダルも網羅

AWSのAI戦略

数値性能より実用性を重視
Reddit等が導入を開始

AWSは2日、新基盤モデル「Nova」と、企業が自社データで特化型AIを構築できる「Nova Forge」を発表しました。単なる性能競争から脱却し、ビジネス現場での「実用性」と「カスタマイズ」を最優先する戦略を鮮明にしています。

目玉の「Nova Forge」は、学習の初期段階から独自データを注入できる点が画期的です。既存モデルの微調整で起きがちな知識の消失を防ぎつつ、ゼロからの開発より低コストで、自社ビジネスに特化した「専門家モデル」を構築できます。

既にRedditが導入し、過去の投稿データを学習させた自社専用モデルを開発しました。汎用モデルでは理解が難しいコミュニティ特有の文脈やルールをAIに習得させ、コンテンツ管理の自動化と精度向上という実利を得ています。

同時発表の「Nova」モデル群は、高速な「Lite」や複雑な推論が得意な「Pro」など4種です。これらは他社とのベンチマーク競争よりも、コスト効率やエージェント機能としての使いやすさに主眼を置いた設計となっています。

AWS幹部は「ベンチマークは現実を反映していない」とし、数値上の性能より企業が制御可能なインフラとしての価値を強調します。AI開発の民主化を通じて顧客をエコシステムに定着させ、クラウド市場での優位性を盤石にする狙いです。

Android 16、AIで通知整理し生産性と安全性を大幅強化

AIが「集中」を守る

長い通知をAIが自動要約
低優先度通知を自動で整理・静音化

セキュリティと詐欺対策

画面囲って詐欺メッセージを判定
不審なグループ招待を警告

OS更新とアクセシビリティ

Geminiカメラ映像を詳細解説
OS更新頻度増で最新機能を即提供
字幕に感情や環境音を表示
補聴器との接続設定を簡素化

Googleは2025年12月2日、Android 16のプレビュー版および12月の機能アップデートを発表しました。今回の更新はPixel端末へ先行配信され、AIを活用した「通知の要約・整理」機能や、高度な「詐欺検知」ツールが目玉です。経営者やリーダーにとって、情報のノイズを減らし、セキュリティリスクを低減する実用的なアップデートといえます。

ビジネスパーソンの生産性を高めるのが、AIによる通知管理機能です。長いチャットやメッセージをAIが瞬時に要約して表示するため、内容を一目で把握できます。また、ニュースや販促などの優先度が低い通知は「Notification Organizer」が自動でグループ化し、通知音を消去。重要な連絡を見逃さず、集中力を維持できる環境を提供します。

セキュリティ面では、検索機能「かこって検索(Circle to Search)」が進化しました。不審なメッセージや画像を受け取った際、その部分を囲むだけでAIが詐欺の可能性を判定します。Web上の情報と照合し、リスクが高い場合は警告と対処法を提示するため、巧妙化するフィッシング詐欺への強力な防御策となります。

アクセシビリティ機能もGeminiモデルの統合により強化されています。カメラアプリの「Guided Frame」は、被写体を単に顔として認識するだけでなく、「黄色いTシャツの少女がソファに座っている」といった詳細な状況説明音声で行います。また、動画の字幕に「喜び」や「悲しみ」といった感情タグを表示する機能も追加され、情報伝達の質が向上しました。

今回のリリースは、Androidの更新サイクル変更を象徴する動きでもあります。従来の年1回の大型更新から、より頻繁なリリースへと移行することで、最新技術やAPIを迅速に市場投入する狙いです。企業はOSの進化に合わせたアプリ対応やセキュリティ対策を、よりアジャイルに進める必要が出てくるでしょう。

NVIDIA、思考する自動運転AIと物理AI開発基盤を公開

自動運転を変える「思考するAI」

世界初の自動運転向け推論VLAモデル
思考の連鎖人間並みの判断を実現
研究用にGitHub等でオープン提供

物理AI開発を加速するツール群

開発全工程を網羅したCosmos Cookbook
ロボット動作生成やデータ修復に対応
音声AIや安全性モデルも拡充

2025年12月、米NVIDIAはAIカンファレンス「NeurIPS」において、自動運転および物理AI(Physical AI)向けのオープンソースモデル群を発表しました。特に注目されるのは、推論能力を持つ自動運転用VLAモデル「Alpamayo-R1」と、物理AI開発ガイド「Cosmos Cookbook」です。同社はこれらの技術を開放することで、ロボティクスや自動運転分野におけるイノベーションの加速を狙います。

NVIDIA DRIVE Alpamayo-R1」は、視覚情報の処理と言語による推論を統合し、行動決定を行う世界初のモデルです。最大の特徴は「思考の連鎖(Chain-of-thought)」を組み込んだ点にあり、歩行者の多い交差点や不規則な交通状況でも、人間のような常識に基づいた判断を下せます。これにより、完全自動運転(レベル4)の実現に向けた安全性が飛躍的に向上します。

物理AIの実装を支援するため、データ生成からモデル評価までの手順を示した「Cosmos Cookbook」も提供されます。開発者はLiDARデータの生成やロボットの動作ポリシー策定など、複雑なタスクに対応した「Cosmos」モデル群を容易に活用できるようになります。ジェンスン・フアンCEOが提唱する「AIの次の波は物理AI」というビジョンを具現化する動きです。

デジタルAI領域でも、複数話者の聞き分けが可能な音声モデルや、AIの安全性を担保するデータセット、推論速度と精度を両立する軽量モデルなどが公開されました。NVIDIAは70本以上の論文を発表しており、ハードウェアだけでなく、次世代AI開発に不可欠なソフトウェア基盤においても、圧倒的な存在感を示しています。

Liquid AI、エッジAI開発の「設計図」を全公開

企業向け小規模モデルの革新

51ページの技術レポートを公開
独自のLFM2アーキテクチャ詳解
CPU環境での推論効率を最大化
競合を凌ぐ処理速度と品質

実践的なハイブリッド戦略

自社データでのオンプレミス運用
画像音声対応のマルチモーダル
クラウド不要のローカル処理実現
エッジとクラウド協調動作

MIT発のスタートアップLiquid AIは2025年12月1日、最新AIモデル「LFM2」の技術レポートを公開しました。これは単なるモデル提供にとどまらず、企業が独自のハードウェア制約に合わせて高性能な小規模モデルを構築するための「設計図」を提供するものです。巨大なGPUクラスターを前提としないこのアプローチは、コストやプライバシーを重視する企業のAI戦略に、オンデバイスでの実用化という新たな選択肢をもたらします。

LFM2の最大の特徴は、一般的なCPUやモバイルSoC上での動作に最適化されている点です。独自開発されたハイブリッドアーキテクチャにより、同規模の競合モデルであるLlama 3.2やGemma 3と比較して、推論速度と品質の両面で高いパフォーマンスを発揮します。これにより、スマートフォンやノートPC、産業機器など、通信環境や電力に制約のあるエッジ環境でも、遅延の少ない高度なAI処理が可能になります。

今回公開された51ページのレポートでは、アーキテクチャ探索プロセスやトレーニングデータの混合比率、知識蒸留の手法など、モデル開発の詳細なレシピが明かされました。企業はこの情報を参照することで、ブラックボックス化した外部APIに依存することなく、自社のデータセンターデバイス上で完結するAIシステムを構築・運用できるようになります。これは、セキュリティ要件の厳しい産業分野において大きなアドバンテージです。

さらにLFM2は、テキストだけでなく画像音声にも対応するマルチモーダル機能を、トークン効率を極限まで高めた形で実装しています。現場でのドキュメント理解や音声操作といったタスクを、データを外部に送信することなくローカルで完結させることが現実的になります。Liquid AIの提示するこのモデルは、エッジとクラウドが適材適所で連携する「ハイブリッドAI」時代の標準的な構成要素となるでしょう。

米監視AI、海外ギグワーカーが米国映像を分析と判明

安価な労働力への依存

米国内の映像データを海外でアノテーション
Upwork経由でフィリピン等の人材を活用
誤公開された内部パネルから実態が発覚

監視データの機微性と懸念

ナンバーや歩行者、悲鳴などの音声も分析
警察も利用するシステムの管理体制に疑問
AI開発におけるデータプライバシーの課題

米国の監視カメラ大手Flock Safetyが、AI学習のために海外のギグワーカーを利用し、米国内の映像データを閲覧させていたことが判明しました。誤って公開された内部資料により、監視データの管理体制に対する懸念が浮上しています。

報道によると、同社はフリーランス仲介の「Upwork」を通じ、フィリピンなどの労働者にアノテーション業務を委託していました。労働者は、米国内で撮影された車両のナンバーや色、歩行者の特徴などをAIに学習させるためのタグ付けを行っていたとされます。

AI開発で安価な海外労働力を使うことは一般的ですが、Flockが扱うのは警察捜査にも使われる機微な監視データです。米国民の移動履歴やプライバシーに関わる情報が、国外の不特定多数の作業者に露出していた可能性があり、セキュリティ上のリスクが問われています。

さらに作業内容は映像に限らず、音声データの分析も含まれていました。労働者は録音された音声から「悲鳴」や「銃声」などを聞き分け、その確信度を判定するよう指示されていました。報道後、同社はデータへのアクセスを遮断しましたが、詳細なコメントは避けています。

アリババがAI眼鏡参入、電池交換式で24時間稼働

AI搭載と長時間駆動の両立

独自AIモデル「Qwen」を搭載
バッテリー交換で24時間稼働
音声やタッチでの直感的操作

2つのモデルと価格設定

旗艦機S1はマイクロOLED採用
S1は537ドル、G1は268ドル
骨伝導マイクとカメラを内蔵

自社経済圏との強力な連携

AlipayやTaobaoと統合
即時翻訳や価格認識機能を提供

中国テック大手のアリババは27日、AI搭載スマートグラス「Quark」シリーズを発表し、ウェアラブル市場への参入を果たしました。最大の特徴は交換可能なバッテリーシステムを採用した点で、競合他社製品とは異なり、充電待ち時間なしで24時間の連続使用を可能にしています。

ラインナップは、マイクロOLED搭載の旗艦モデル「S1」(3,799元)と、ライフスタイル重視の「G1」(1,899元)の2種類です。いずれも同社の大規模言語モデル「Qwen」を搭載し、骨伝導マイクやカメラを通じた音声・タッチ操作に対応しています。

アリババの強みである経済圏との統合も進めており、決済アプリ「Alipay」やECサイト「Taobao」と連携します。着用者の視界にある商品の価格認識や、リアルタイム翻訳、ナビゲーション、さらには会議の自動文字起こしなど、ビジネスと日常の双方で実用的な機能を提供します。

MetaのRay-Banモデルなどが先行する市場において、アリババは「長時間稼働」と「実用機能」で差別化を図る狙いです。現在は中国国内での展開ですが、来年には海外市場向けモデルの投入も計画されており、激化するAIウェアラブル競争の一角を占めることになりそうです。

Speechify、Chrome拡張に音声入力とAI対話機能を搭載

読み上げから対話へ拡張

Chrome拡張で音声入力が可能に
フィラー除去やエラー自動修正に対応
サイドバーでAIと対話が可能
閲覧ページの要約や質問回答に対応

戦略と今後の展望

他社と異なり音声ファーストを重視
現状の精度には改善の余地あり
将来は電話予約等の代理実行も視野

テキスト読み上げ大手のSpeechifyは25日、Chrome拡張機能に音声入力AI音声アシスタントを追加しました。従来の記事やPDFを聴く機能に加え、ユーザーの発話をテキスト化する機能や、ブラウザ上でAIと対話する機能を実装し、音声AIツールとしての領域を拡大しています。

新たな音声入力機能は英語に対応し、言い淀みの削除やエラー修正を自動で行います。また、サイドバーに常駐するAIアシスタントは、閲覧中のWebサイトについて「3つの要点は何か」といった質問に音声で回答でき、情報収集の効率化に寄与します。

ChatGPTなども音声会話モードを備えていますが、Speechifyは「音声ファースト」の体験を重視して差別化を図ります。同社は、競合にとって音声は二次的な機能であるとし、アプリ起動直後からAIと話したいユーザー層の需要獲得を狙います。

一方で、現時点の認識精度や動作の安定性には課題も残ります。一部のサイトで起動しにくい点や、競合ツールと比較した際のエラー率の高さが指摘されていますが、同社はユーザーの利用に伴い学習が進み、精度が向上するとしています。

今後はデスクトップやモバイルアプリ全般へ機能を展開する予定です。さらに、ユーザーに代わって電話予約を行ったり、カスタマーサポートの保留時間を待機したりするAIエージェント機能の開発も進めており、音声によるタスク自動化を目指しています。

ChatGPT音声モード刷新、対話と同時に画面確認が可能に

画面遷移のない操作性

別画面遷移が廃止されシームレス
チャット内で直接音声会話が可能

視覚情報の同時確認

話しながら応答テキストを表示
画像や地図もリアルタイム確認
過去のメッセージ履歴も閲覧可能

全ユーザーへの展開

Webとアプリの全ユーザーに展開
設定で旧モードへの復帰も可能

OpenAIは2025年11月25日、ChatGPT音声モードを刷新し、従来の専用画面を廃止してチャットインターフェースに統合したと発表しました。これにより、ユーザーは画面遷移なしで、テキストと音声を自由に行き来しながら、より自然で効率的なAIとの対話が可能になります。

新仕様では、ユーザーが話すと同時にAIの応答がテキストとして表示されます。従来は音声のみで聞き取る必要がありましたが、今後は視覚的に内容を確認できるため、情報の見落としを防ぎ、履歴を遡る手間も大幅に削減されます。

音声会話中に、生成された画像や地図などのビジュアル資料をリアルタイムで閲覧できる点も大きな改善です。音声で指示を出しながら視覚情報を即座に確認することで、ビジネスシーンにおける情報収集や分析の生産性が高まります。

本機能はWebおよびモバイルアプリの全ユーザーに順次展開されています。なお、従来の全画面インターフェースを好む場合は、設定の「音声モード」から「独立モード」を選択することで、元の仕様に戻して利用することも可能です。

音声AIが描く子供の想像力、安全設計のステッカー玩具

AI×玩具の新たな顧客体験

音声指示でAI画像を即座に生成
インク不要の感熱式ステッカー印刷
デジタルとアナログな塗り絵の融合

安全性とビジネスモデル

有害情報を防ぐ独自フィルタ搭載
本体約100ドル、紙代で継続収益
著名VCから700万ドル調達済み

アメリカのスタートアップHapikoは、子供向けAIステッカープリンター「Stickerbox」を発売しました。このデバイスは、子供が音声でアイデアを伝えるとAIが画像を生成し、即座にステッカーとして印刷する革新的な玩具です。価格は99.99ドルで、安全なAI体験を提供します。

最大の特徴は、画面の中だけでなく物理的な成果物が手に入る点です。音声コマンドという抽象的な操作を行い、出力された白黒ステッカーに色を塗るプロセスは、中毒性のあるデジタル技術と、心を落ち着けるアナログな創造性を巧みに融合させています。

親にとって最大の懸念である安全性も、徹底的に考慮されています。複数のモデルを組み合わせた独自のAI技術により、暴力や性的なコンテンツ、不適切な言葉を自動でフィルタリングします。Wi-Fi経由の更新で、ガードレール機能は常に最新の状態に保たれます。

創業者のロバート・ホイットニー氏は、元ニューヨーク・タイムズやAnthropicでの経験を持ちます。自身の息子が生成AIで作った画像に目を輝かせた体験が開発のきっかけとなり、「子供のためのAI」という未開拓市場に勝機を見出しました。

同社はMaveronやSerena Venturesなどから既に700万ドルを調達済みです。ハードウェア販売に加え、消耗品の感熱紙ロールによる収益モデルを構築しており、将来的にはアプリを通じたプレミアム機能の提供も視野に入れています。

説明可能なAIが自動運転を変革、判断可視化で安全性向上

乗客の介入促すリアルタイム説明

AIの判断根拠はブラックボックス
誤認識時に理由を示し人間介入を支援
標識誤読などの事故リスクを低減
個人の能力に応じた情報提供が課題

開発効率化と法的責任の明確化

SHAP分析で重要因子を特定
シミュレーションモデルの弱点発見
事故時の法的責任や動作検証に活用
XAIは自動運転の必須機能

カナダのアルバータ大学の研究チームは、自動運転車の安全性向上には「説明可能なAI(XAI)」の導入が不可欠であるとする研究結果をIEEE論文誌で発表しました。現在のAIモデルの多くは意思決定プロセスが不透明なブラックボックスですが、XAIにより判断理由を可視化することで、技術的なデバッグを容易にしつつ、ユーザーの信頼を獲得することが可能になります。

特に重要なのが乗客へのリアルタイムな情報提供です。AIが速度標識を誤認識して加速する際、その根拠を即座に示せれば、乗客は異常を察知し手動介入できます。研究では、乗客の知識や状況に応じ、音声や視覚など最適な手段で説明を提供する重要性が指摘されています。

開発や法的検証でもXAIは威力を発揮します。SHAP分析で判断に寄与した特徴量を特定すれば、モデルの最適化が可能です。また、事故時に「歩行者を認識していたか」などを検証できるため、説明機能は法的責任を明確化する上でも中核技術となります。

Hugging Faceが音声認識評価を刷新、LLM融合が精度で圧倒

評価軸の拡張と現状

多言語と長文書き起こしを評価軸に追加
登録モデル数は150以上に急増

精度と速度のトレードオフ

LLMデコーダーとの統合が最高精度を記録
高速処理はCTC/TDT方式が最大100倍速

実用シーン別の選定指針

長文認識はクローズドソースが依然優位
英語特化と多言語対応で性能差が顕著

Hugging Faceは2025年11月、音声認識(ASR)モデルの性能を競う「Open ASR Leaderboard」を大幅に更新しました。従来の短い英語音声に加え、多言語対応長文書き起こしの評価軸を新設し、ビジネス現場で真に使えるモデルの選定指針を提示しています。

精度の面では、音声処理に特化したConformerエンコーダーとLLMデコーダーを組み合わせたモデルが首位を独占しています。NVIDIAやIBM、Microsoftの最新モデルが示すように、LLMの推論能力を統合することで、認識精度が飛躍的に向上しているのです。

一方で、会議の議事録作成など速度が求められる場面では、選択肢が異なります。LLMベースは高精度ですが処理が重いため、リアルタイム処理にはCTCTDTといった軽量なデコーダーを持つモデルが適しており、最大で100倍の処理速度を実現します。

多言語対応や長文処理においては、依然としてOpenAIのWhisperや商用のクローズドソースモデルが強力です。特定の言語に特化させて精度を高めるか、汎用性を取るかというトレードオフが存在するため、導入時には用途に応じた慎重なモデル選定が不可欠です。

GoogleがGemini 3発表も画像生成の安全性に重大な懸念

Gemini 3とエージェント機能

推論力とコーディング機能が大幅向上
雑務を自律処理するGemini Agent
話速やトーン調整可能なGemini Live

クリエイティブ機能とリスク

画像合成・図表作成のNano Banana Pro
詳細制御が可能な動画生成Veo 3.1
生成画像安全ガードレールに欠陥

Googleは11月21日、推論能力を強化した最新AIモデル「Gemini 3」や、高機能な画像生成ツール「Nano Banana Pro」を発表しました。生産性を高める新機能が多数追加された一方で、画像生成における安全対策の不備が指摘されており、ビジネス利用にはコンプライアンス面での注意が必要です。

Gemini 3では「Vibe Coding」と呼ばれるコーディング支援機能が飛躍的に向上したほか、カレンダー管理や手配業務を代行するGemini Agentが登場しました。音声対話機能Gemini Liveも進化し、話す速度やトーンの指示、特定のキャラクターになりきった対話が可能になるなど、ユーザー体験が洗練されています。

クリエイティブ領域では、新ツール「Nano Banana Pro」が画像のブレンドやポスター作成を容易にし、動画生成モデル「Veo 3.1」はキャラクターやスタイルの一貫性を保つ機能が強化されました。しかし米The Vergeの検証によると、Nano Banana Proでは歴史的な陰謀論や著作権侵害を含む画像が容易に生成可能であり、偽情報拡散のリスクが懸念されています。

科学動画配信、AIデータ販売が主力収益へ転換進む

収益構造の劇的な変化

Q3収益が前年比41%増と急伸
9月までのライセンス収入2340万ドル
24年通期サブスク収入の半額

AI需要と今後の展望

LLM学習用にオリジナル番組を提供
9社と動画音声など18件の契約完了
27年までにデータ販売が最大収益
設立10年で初の最終黒字を達成

科学系動画配信の米Curiosity Streamは2025年第3四半期、収益を前年同期比41%伸ばしました。この急成長の主因は、従来の視聴料モデルではなくAI学習用データのライセンス販売への事業転換です。

同社は保有する高品質な科学・歴史ドキュメンタリーをLLM(大規模言語モデル)の学習用に提供しています。9月までのライセンス収入は2340万ドルに達し、既に通年サブスク収入の半分以上を稼ぎ出しました。

これまでに9社のパートナーと、動画音声など18件のデータ提供契約を締結済みです。巨大なユーザー基盤を持つNetflixとは異なり、独自性のある専門データを武器に収益構造を刷新しています。

CEOは、2027年までにデータ販売収入が主力事業になると予測しています。実際、この戦略転換により創業約10年にして初の最終黒字化を達成しており、コンテンツ企業の新たな生存戦略として注目されます。

音声入力Wisprが2500万ドル調達、Fortune500も採用

急成長と資金調達の背景

Notable Capital主導で2500万ドルを追加調達
Fortune 500企業の過半数が導入済み
ユーザー数は前年比100倍に急増

技術的優位性と将来展望

エラー率は競合より低い約10%を実現
入力作業の50%以上音声へ移行
単なるツールを超え自動化OSを目指す

音声AIスタートアップのWisprが、Notable Capital主導で2500万ドルの追加調達を実施しました。同社のアプリ「Wispr Flow」はFortune 500企業の270社で利用されるなど急速に普及しており、今回の資金でさらなる人材獲得と製品開発を加速させます。

特筆すべきは圧倒的な成長速度です。ユーザーベースは前年比100倍に達し、12ヶ月後の継続率も70%と高い水準を維持しています。利用者は文字入力の50%以上を同アプリで行っており、ビジネス現場での実用性と信頼性が証明されています。

技術的な優位性も明確です。独自調査によると、他社の主要モデルが27%以上のエラー率であるのに対し、Wisprは約10%に留まります。今後は独自モデルの開発を進め、個々のユーザーに最適化したさらなる精度向上を図る計画です。

将来的には単なるディクテーションツールを超え、メール返信などのタスクを自動化する「音声主導OS」への進化を目指しています。Android版の正式ローンチやAPIの公開も予定されており、開発者エコシステムの拡大も視野に入れています。

Perplexity、Android版AIブラウザCometを公開

モバイルでのAI検索体験

Android版アプリのダウンロード開始
閲覧ページの内容を即座に要約・質問
AIとの音声対話モードを搭載

競合優位性と今後の計画

モバイル向けAIブラウザとして先行
履歴同期は数週間以内に実装へ
パスワード管理など機能拡充を計画

Perplexityは、AI搭載ブラウザ「Comet」のAndroid版アプリをリリースしました。デスクトップ版と同様、Web閲覧中にAIアシスタントを呼び出し、情報の検索や整理をシームレスに行えるのが最大の特徴です。

ユーザーは閲覧中のタブにある情報について、AIに直接質問したり要約を生成させたりできます。音声モードも搭載しており、画面上のコンテンツについて対話形式で深掘りすることが可能です。

モバイル領域におけるAI中心のブラウザとして、競合他社に先駆けた展開となります。履歴やブックマークの同期機能は未実装ですが、数週間以内に提供される予定で、パスワード管理などの機能拡張も進行中です。

GeminiでAI画像の生成元検証が可能に 透かし技術活用

機能概要と使い方

画像をアップし「AI生成か」と問うだけ
電子透かし「SynthID」を検知
Google AIによる生成を判別

今後の展望と業界標準

今後は動画音声へも対象拡大
業界標準「C2PA」への対応も推進
他社製AIツールの識別も目指す

Googleは2025年11月20日、生成AIアプリ「Gemini」において、画像がAIによって生成・編集されたものかを確認できる新機能の提供を開始しました。この機能は、同社の電子透かし技術「SynthID」を活用しており、ユーザーは簡単な操作でコンテンツの来歴を検証できます。生成AIによるメディアが急増する中、情報の透明性を高めることが狙いです。

使い方は非常にシンプルです。検証したい画像Geminiアプリにアップロードし、「これはAIで生成されたものですか?」と問いかけるだけで、システムが自動的に透かしを検出します。Google AIを用いて作成または編集された画像であれば、その旨が回答とともに表示され、画像信頼性を確認する手助けとなります。

判定の核となる「SynthID」は、人間には知覚できない信号をコンテンツに埋め込むデジタル透かし技術です。2023年の導入以来、すでに200億以上のAI生成コンテンツに適用されており、高い精度での検出を可能にしています。現在は画像のみが対象ですが、将来的には動画音声など、より幅広いフォーマットへの対応が予定されています。

さらにGoogleは、業界標準である「C2PA」規格への対応も強化しています。今週より、最新モデル「Nano Banana Pro」で生成された画像にC2PAメタデータが埋め込まれるほか、将来的にはGoogle以外のツールで作成されたコンテンツのソース確認も可能になる見込みです。これにより、エコシステム全体での真正性担保を目指しています。

PolyがAI検索ストレージへ転換、無料100GB提供

3D生成からファイル管理へ

3D生成AI市場の激化を受けピボット
ユーザーの「ファイル整理」課題を解決
累計800万ドルのシード資金を調達

高度なAI検索と大容量無料枠

自然言語でファイル検索・要約が可能
無料枠で100GBの大容量を提供
月額10ドルで2TB、Google等に対抗

外部連携とナレッジ活用

ChatGPT等と連携するMCP提供
NotebookLM以上のファイル管理目指す

Y Combinator支援のスタートアップPolyが、AI検索機能を中核に据えたクラウドストレージサービスとして再ローンチしました。かつて3D生成AIを手掛けていた同社は事業を転換し、無料プランで100GBという破格の容量を提供してGoogle DriveやDropboxなどの既存巨人に挑みます。

共同創業者のAgarwal氏は、前身である3Dアセット生成事業からのピボットを決断しました。生成AI市場の競争激化を予測しユーザーへのヒアリングを実施した結果、多くの人々が「ファイルシステムの整理」に課題を抱えていることを発見。AIでファイルを整理し、必要な情報を即座に見つけ出せるツールの開発に至りました。

Polyは単なる保存場所ではなく、AIが中身を理解するインテリジェントなファイルシステムです。テキスト、PDF、音声動画、Webリンクなど多様な形式に対応し、データに対して自然言語での検索や要約、翻訳が可能です。YouTubeリンクから内容を要約するなど、情報処理効率を大幅に高めます。

主なターゲットは、大量の資料を扱うクリエイターやナレッジワーカーです。GoogleNotebookLMと比較されますが、Polyはより包括的なファイル管理に焦点を当てています。さらにModel Context Protocol (MCP)サーバーを提供しており、Cursor等の外部ツールからPoly内のデータ活用も可能です。

「LLMバブルは来年崩壊」Hugging Faceトップが予測

LLMへの過度な期待

現在はLLMバブルの渦中にある
来年にもバブル崩壊の可能性を指摘
万能モデルへの資金集中を懸念

特化型AIへのシフト

LLMはAIの一部に過ぎない
バイオや化学など応用分野は初期段階
今後数年で実用化が加速する見通し

Hugging FaceのClem Delangue CEOは11月中旬、現在は「LLMバブル」の渦中にあり、来年にも崩壊する可能性があると警告しました。しかしAI全体については強気で、生物学や化学などへの応用はまだ初期段階だとの見解を示しています。

Delangue氏が問題視するのは、単一の巨大モデルですべてを解決しようとする汎用チャットボットへの偏重です。膨大な計算資源と資金が一部に集中する現状に対し、これらが必ずしもすべての企業や課題にとって最適解ではないと指摘します。

重要なのは、LLMバブルの崩壊がAIの終わりを意味しない点です。画像音声、科学研究といった特定領域へのAI応用はこれから本格化します。市場は「何でもできるチャットボット」から、具体的な課題を解決する実用的なAIへとシフトしていくでしょう。

Amazon、生成AIによる「動画振り返り機能」を導入開始

劇場品質の動画要約

生成AI動画要約を作成
ナレーションや音楽完全同期
『Fallout』等の人気作対象
前シーズンの復習を効率化

動画配信各社のAI戦略

YouTubeはスポーツ要約で活用
Netflixは制作現場に導入
映像業界全体でAI活用加速

Amazon Prime Videoは2025年11月19日、生成AIを活用した「動画振り返り機能(Video Recaps)」のベータ版提供を開始しました。従来のテキストベースの要約とは一線を画し、映像・音声・ナレーションを高度に同期させたリッチな視聴体験を提供することで、視聴者がシーズン間のストーリーを効率的に復習できるよう支援します。

この新機能は、生成AIを用いて「劇場品質」のシーズン要約を自動作成する点が最大の特徴です。まずは『Fallout』や『Tom Clancy’s Jack Ryan』、『Upload』といった一部の人気オリジナル作品を対象に展開されます。昨年導入されたネタバレ防止機能付きのテキスト要約機能「X-Ray Recaps」に続き、より没入感のある形式へと進化しました。

動画配信業界ではAI活用が競争の軸となりつつあり、競合他社も独自の戦略を推進しています。YouTube TVはスポーツ中継の重要シーンを抽出する機能で技術エミー賞を受賞し、Netflixは『Happy Gilmore 2』での若返り加工やプレプロダクションなど、制作の現場で生成AIを積極的に導入しています。

テキスト要約が日常化する中で、動画形式への拡張は新たな顧客体験の領域です。制作現場でのAI利用には著作権や雇用に関する議論も存在しますが、単純作業の効率化やクリエイターの表現力拡大を目的として、映像業界における技術導入は今後さらに加速すると予測されます。

Hugging Face CEO「LLMバブル」崩壊を予測

バブルの所在と予測

現在はLLMバブルの最中
来年にも崩壊する可能性
AI全体の未来はリスクなし

モデル開発の未来

万能モデルから特化型へシフト
小型・高速・安価なAIが普及
企業の自社インフラで運用へ

堅実な経営戦略

他社と異なる資本効率重視
調達資金の半分を温存
長期的な持続可能性を追求

Hugging FaceのClem Delangue CEOは11月18日、Axiosのイベントにて、現在の市場は「AIバブル」ではなく「LLMバブルの状態にあると指摘しました。このバブルは来年にも弾ける可能性がありますが、AI技術自体の将来性については楽観的な見解を示しています。

同氏は、ChatGPTなどの大規模言語モデル(LLM)に資金や注目が集中しすぎている現状を懸念しています。しかしLLMはAIの一側面に過ぎず、生物学や画像音声といった分野への応用はまだ初期段階にあり、今後数年で大きな発展を遂げると予測しています。

「一つの巨大モデルが全ての問題を解決する」という考え方から、今後は「特化型モデル」の活用へとシフトが進むでしょう。銀行のチャットボットに哲学的な問いは不要であり、より小型で安価、かつ高速なモデルが企業の課題を解決する未来を描いています。

企業の自社インフラで運用可能なカスタマイズモデルの普及は、セキュリティやコスト面でも合理的な選択です。汎用的な巨大モデルへの依存から脱却し、実用性と効率性を重視したAIの実装が、これからのエンジニア経営者に求められる視点となるでしょう。

バブル崩壊の影響について、同社は堅実な財務戦略で備えています。他社がインフラに巨額を投じる中、Hugging Faceは調達資金の半分を温存し、短期的な熱狂に流されず長期的な持続可能性を追求する姿勢を明確にしています。

百度ERNIE 5.0、画像・文書処理でGPT-5超えを主張

ERNIE 5.0の性能

ネイティブなオムニモーダルAI
画像・文書理解GPT-5超え
チャート読解など企業向け機能に強み
テキスト処理特化版も同時公開

百度のグローバル戦略

API経由のプレミアム提供
国際版ノーコードツールも展開
商用利用可能なOSSモデルも公開
オープンとクローズドの二刀流

中国検索大手、百度(バイドゥ)は年次イベント「Baidu World 2025」で、最新の独自基盤モデル「ERNIE 5.0」を発表しました。このモデルは、OpenAIGPT-5GoogleGemini 2.5 Proを、特にグラフや文書の理解といった視覚タスクで上回る性能を持つと主張しており、激化するエンタープライズAI市場での世界的な優位性を目指します。

百度が公開したベンチマークによれば、ERNIE 5.0は特に文書認識(OCRBench)やグラフの質疑応答(ChartQAといった分野で、欧米の最先端モデルを凌駕する結果を示したとされています。これは、自動文書処理や財務分析など、企業のコア業務における実用性の高さを強くアピールするものです。

ERNIE 5.0は、テキスト、画像音声動画を統合的に処理・生成できる「ネイティブ・オムニモーダル」モデルとして設計されています。同社が最近公開したオープンソースモデルとは異なり、独自のプロプライエタリモデルとして、クラウドプラットフォーム「Qianfan」のAPIを通じて企業向けに提供されます。

料金体系はプレミアムモデルとして位置づけられていますが、米国の主要モデルと比較すると競争力のある価格設定が特徴です。例えば、GPT-5.1と比較して入力トークン単価が約3割安く、高性能とコスト効率の両立を目指す企業にとって魅力的な選択肢となり得るでしょう。

注目すべきは、高性能なプロプライエタリモデルと並行して、商用利用が可能な高性能オープンソースモデル「ERNIE-4.5-VL」も提供している点です。このオープンとクローズドの「二刀流」戦略により、大企業から開発者コミュニティまで幅広い層への浸透を図っています。

ERNIE 5.0の発表は、世界の基盤モデル開発競争が新たな段階に入ったことを示唆しています。性能評価の第三者による検証が待たれますが、百度の明確な企業向け戦略とグローバル展開への野心は、既存のAI市場の勢力図を塗り替える可能性を秘めています。

Apple、AIへの個人データ共有に明示的同意を義務化

ガイドライン改訂の要点

AIへの個人データ共有に同意を必須化
既存ルールに「サードパーティAI」を明記
LLMから機械学習まで広範なAIが対象

開発者・企業への影響

アプリのプライバシーポリシー見直しが急務
違反アプリはApp Storeから削除の可能性
AI活用アプリの透明性向上が求められる

背景にあるAppleの戦略

2026年公開のAI版Siriに向けた布石
ユーザーのプライバシー保護を強力に推進

Appleは11月13日、App Storeのレビューガイドラインを改訂し、アプリ開発者に対して新たな義務を課しました。アプリが収集した個人データをサードパーティ製のAIと共有する際には、ユーザーから明示的な許可を得ることが必須となります。この動きは、ユーザーのプライバシー保護を一層強化するものです。

今回の改訂で注目すべきは、データ共有に関する既存のルール5.1.2(i)に「サードパーティAIを含む」という一文が追加された点です。これまでもデータ共有には同意が必要でしたが、AIを名指しすることで、急成長するAI分野でのデータ利用に明確な制約をかけた形です。

このタイミングでの規制強化は、Apple自身のAI戦略と無関係ではありません。同社は2026年に、AIで大幅に強化された音声アシスタントSiri」の提供を計画しています。自社サービス展開に先立ち、エコシステム全体のデータ倫理を整備する狙いがあると考えられます。

開発者やAIを活用する企業にとって、この変更は大きな影響を与えます。自社アプリが外部のAIモデルを利用している場合、データ共有の仕組みを再点検し、ユーザーへの説明と同意取得のプロセスを明確にする必要があります。対応を怠れば、アプリがストアから削除されるリスクもあります。

新ガイドラインで使われる「AI」という言葉が、大規模言語モデル(LLM)だけでなく、機械学習などの広範な技術を含む可能性があります。Appleがこのルールをどれほど厳格に適用するのか、今後の動向が開発者コミュニティから注視されています。

Geminiが表現力を獲得、自然な会話でスキル向上へ

より人間らしくなった対話機能

声の抑揚やリズムの理解
話す速度のリアルタイム調整
多様なキャラクターやアクセント

実践的なスキル習得を支援

外国語の特定分野を練習
面接や交渉のロールプレイ
登場人物になりきる物語解説
専門分野のパーソナル学習

Googleは11月12日、対話型AI「Gemini」の音声対話機能「Gemini Live」を大幅にアップデートしたと発表しました。今回の更新で、人間の話し方が持つ声の抑揚やリズム、トーンといったニュアンスを理解・再現する能力が飛躍的に向上。これにより、ユーザーはより自然で直感的な会話を通じて、学習やスキルアップにAIを役立てることが可能になります。

新しいGemini Liveは、単なる言葉のやり取りを超えたコミュニケーションを実現します。会話の文脈に応じて声のトーンを変化させたり、ユーザーの指示で話す速度を「速く」「ゆっくり」とリアルタイムで調整したりすることが可能です。まるで人間と話しているかのような自然さが、今回のアップデートの最大の特長と言えるでしょう。

この進化は、特に学習分野で大きな力を発揮します。例えば、ビジネス分析のような複雑なテーマについて、通勤中に早口で解説を求める、といった使い方ができます。ユーザーが自身のペースや理解度に合わせて学習環境を完全にコントロールできるようになるため、生産性の向上が期待されます。

語学学習や重要なプレゼンテーションの準備にも最適です。「スペイン語で挨拶を練習したい」「次の面接の模擬練習をしてほしい」といった要望に応え、Gemini実践的な練習相手となります。失敗を恐れることなくスキルを磨ける、安全なトレーニング環境を提供します。

さらに、物語の登場人物になりきって解説させたり、カウボーイ訛りでレシピを読み上げさせたりと、エンターテイメント性も向上しました。これにより、学習や情報収集がより没入感のある体験に変わります。AIとの対話が、単なる作業から楽しみへと進化する可能性を秘めています。

今回のアップデートは、AIとの対話をより直感的で効果的なものにするための重要な一歩です。AndroidおよびiOSGeminiアプリで利用可能となっており、ビジネスパーソンが自身の市場価値を高めるための新しいツールとして、早速試してみてはいかがでしょうか。

AI音声ElevenLabs、有名人の声を公式に商品化

公認AI音声マーケットプレイス

ブランドが有名人のAI音声を利用可能
マイケル・ケインら大物俳優が参加
肖像権を保護した新たな収益源

ハリウッドとの新たな関係

AIへの警戒から協業モデルへ転換
俳優自身がAI活用の主導権を確保
投資家でもある俳優マコノヒー氏
ニュースレターをAI音声で多言語化

AI音声技術のスタートアップElevenLabsは今週、俳優マイケル・ケイン氏らと提携し、有名人の声をAIで生成する公認マーケットプレイスを立ち上げました。ブランドは公式に許諾された有名人のAI音声コンテンツ制作に利用可能になります。これはアーティストの新たな収益源となり、AIとエンタメ業界の協業モデルを提示する動きです。

新設されたマーケットプレイスには、アカデミー賞俳優のマイケル・ケイン氏やライザ・ミネリ氏、故マヤ・アンジェロウ博士など、象徴的な人物の声が名を連ねています。ブランドはこれらの声を活用することで、キャンペーンに唯一無二の魅力と信頼性を付与できると期待されています。

この動きは、AIに対するハリウッドの姿勢の変化を象徴しています。数年前の俳優ストライキでは、無断でのAI利用が大きな争点となりました。しかし現在では、アーティスト自身が自らのデジタル肖像権を管理し、AIを新たな表現と収益化のツールとして積極的に活用する流れが生まれつつあります。

今回の提携には、ElevenLabsの投資家でもある俳優マシュー・マコノヒー氏も参加しています。具体的な活用例として、同氏は自身のニュースレターを自らのAI音声でスペイン語に翻訳し、音声コンテンツとして配信する計画です。これにより、言語の壁を越えてファンとのエンゲージメントを深めることが可能になります。

Andreessen Horowitz (a16z) など有力な投資家から支援を受けるユニコーン企業ElevenLabs。今回のマーケットプレイス創設は、同社の技術力と事業展開力を示すものです。エンターテインメント業界におけるAI活用倫理的な枠組みと商業モデルをリードする存在として、今後の動向が注目されます。

サムスンTV、生成AIで視聴体験が「対話型」へ

新機能「Vision AI Companion」

生成AI版Bixbyをテレビに搭載
画面の内容について自然な対話が可能
おすすめコンテンツや生活情報も提供

高度な技術と今後の展開

複数AIモデルを組み合わせ実現
文脈を理解し、追質問に対応
2025年モデルから10言語で展開
テレビを家庭内AIハブとして強化

サムスンは2025年11月11日、2025年モデルのテレビに生成AIを搭載したアシスタント『Vision AI Companion』を展開すると発表しました。視聴中の画面内容について質問したり、生活情報を得たりすることが可能になります。テレビを単なる視聴デバイスから、家庭内における対話型AIハブへと進化させる狙いです。

新機能を使えば、映画を見ながら『この俳優の代表作は?』と尋ねたり、スポーツ中継のスコアを確認したりと、リアルタイムでの対話が可能です。さらに、ユーザーの好みに合わせた番組推薦から、料理のレシピ、旅行の計画といった幅広い生活情報まで提供し、日常のパートナーとしての役割を担います。

この高度な対話は、マイクロソフトCopilotPerplexityなど複数の生成AIモデルを組み合わせて実現されています。自然な会話や文脈を理解した上でのフォローアップ質問にも対応。回答は音声だけでなく、関連情報を視覚的にテレビ画面へ表示するため、直感的な理解を助けます。

スマートスピーカーを持たないサムスンにとって、テレビは家庭内での重要な顧客接点です。新機能はAIによる画質最適化やリアルタイム翻訳など他の機能のハブとなり、同社のスマートホーム戦略の中核を担います。テレビを通じて、家庭内でのAI体験を主導する考えです。

この機能は9月の国際見本市IFAで初公開され、今回2025年モデルへの正式搭載が決定しました。英語、韓国語、スペイン語を含む10言語に対応し、グローバルに展開されます。これにより、世界中の家庭でテレビとの新しい対話体験が始まることになります。

ElevenLabs、著名人のAI音声ライセンス市場を開設

許諾に基づくAI音声利用

AI音声公式ライセンス市場
権利者の同意と公正な報酬を保証
広告コンテンツ制作での活用
倫理的懸念を払拭する新モデル

著名人から歴史上の偉人まで

マイケル・ケイン氏など存命著名人
マーク・トウェインら歴史上の人物
クローニングや過去音源から合成
検証済みタレント・IP所有者のみ

AI音声技術のスタートアップElevenLabsが、有名人や歴史上の人物のAI複製音声を企業が公式にライセンス利用できる「Iconic Voice Marketplace」を開始しました。このプラットフォームは、これまで問題視されてきた無許諾での音声利用に対し、権利者の同意と公正な報酬を保証する倫理的な枠組みを提供し、広告コンテンツ制作での活用を目指します。

このマーケットプレイスは、声の権利を持つ所有者と利用したい企業をつなぐ仲介役として機能します。ElevenLabsはライセンス契約の締結から音声合成までを一貫して管理。参加できるのは検証済みのタレントやIP所有者に限定し、透明性の高い取引を実現します。

提供される音声は多岐にわたります。俳優のマイケル・ケイン氏のような存命の著名人に加え、作家マーク・トウェインや発明家トーマス・エジソンなど、歴史上の人物の声も利用可能です。これらは最新のクローニング技術や、過去の音声記録を元に合成されています。

自身の声を提供したマイケル・ケイン氏は「これは声を置き換えるのではなく、増幅させるものだ」と述べ、新世代のクリエイターを支援する技術だと歓迎しています。彼のコメントは、この取り組みが演者側の協力を得て進められていることを象徴しています。

この動きは、生成AIと知的財産(IP)が共存する新たなビジネスモデルの試金石となるでしょう。企業にとっては、ブランドの物語性を高める強力なツールとなり得ます。同時に、クリエイターや権利者の権利をいかに保護し、公正に収益を分配するかが、今後の市場成長の鍵を握ります。

顧客対応AIのWonderful、1億ドル調達し世界展開加速

巨額調達の背景

イスラエル発AIエージェント企業
シリーズAで1億ドルを調達
ステルス解除からわずか4ヶ月
顧客対応の80%を自動解決

差別化と成長戦略

各市場の文化や言語に最適化
現地チームによる導入支援体制
2026年にアジア太平洋進出を計画
顧客対応から多用途へ展開予定

イスラエルのAIエージェント開発スタートアップ「Wonderful」が、シリーズAラウンドで1億ドル(約150億円)の資金調達を実施しました。今回の調達は、Index Venturesが主導し、ステルスモードを解除してからわずか4ヶ月での大型調達となります。同社は調達資金を活用し、各市場の文化や言語に最適化した顧客対応AIエージェントのグローバル展開を加速させる計画です。

AIエージェント市場が過熱する中、なぜ同社は大型調達に成功したのでしょうか。投資家は、単なるGPTのラッパー(応用製品)ではない、マルチエージェントシステムのスケーリングを可能にする独自のインフラとオーケストレーション能力を高く評価しました。企業の既存システムと深く連携し、実用的なソリューションを提供する点が信頼につながっています。

WonderfulのAIエージェントは、音声、チャット、メールなど多様なチャネルで顧客対応を自動化します。すでに顧客からの問い合わせの80%を自己解決する実績を持ち、欧州や中東の複数国で数万件の依頼を日々処理しています。同社の強みは、言語だけでなく文化や規制環境にまで踏み込んだきめ細やかなローカライズにあります。

同社は今回の資金調達を元に、さらなる市場拡大を目指します。2025年にはドイツや北欧諸国へ、2026年初頭にはアジア太平洋地域への進出を計画しています。将来的には顧客対応だけでなく、従業員トレーニング、営業支援、社内ITサポートなど、より広範な業務への応用も視野に入れています。

リード投資家であるIndex Venturesは、Wonderfulが「構想からわずか1年足らずでグローバルスケールに到達した」実行力を称賛しています。世界中のあらゆる市場と言語で機能するエージェントを展開できる能力こそが、同社の真の競争優位性であると投資家は見ており、その将来性に大きな期待を寄せています。

Meta、1600言語対応の音声認識AIを無償公開

Whisperを凌駕する規模

OpenAIの99言語を圧倒
1600以上の言語を公式サポート
ゼロショット学習で5400言語へ拡張可能
少数言語のデジタル化を促進

ビジネス利用を後押し

Apache 2.0ライセンスで公開
商用利用に一切の制限なし
企業の多言語対応コストを削減
新たな音声アプリ開発の起爆剤

Metaは2025年11月10日、1,600以上の言語に対応する多言語自動音声認識(ASR)モデル「Omnilingual ASR」をオープンソースで公開しました。このモデルは、OpenAIのWhisper(99言語対応)を大幅に上回る言語カバレッジを誇り、Apache 2.0ライセンスの下で商用利用も可能です。企業の多言語対応や新たな音声アプリケーション開発を加速させる一手となるでしょう。

「Omnilingual ASR」の最大の特徴は、その圧倒的な言語カバレッジです。公式サポートする1,600言語に加え、「ゼロショット学習」という技術を用いることで、事前の再学習なしに新たな言語の文字起こしが可能になります。これにより、理論上は世界に存在する約5,400の言語に対応できるとされ、これまでデジタル化から取り残されてきた少数言語の活用に道を開きます。

企業にとって、このモデルは大きなビジネスチャンスを意味します。ライセンスが商用利用を完全に許可するApache 2.0であるため、大企業も追加費用なしで自社サービスに組み込めます。多言語対応のカスタマーサポート、グローバルなコンテンツの字幕生成、教育ツールなど、これまでコストの壁で実現が難しかった分野での応用が期待されます。

このプロジェクトは、MetaのAI戦略における重要な転換点と見られています。最新の大規模言語モデル「Llama 4」が期待ほどの評価を得られなかった中、Omnilingual ASRはMetaの技術的信頼性を再確立する狙いがあります。制限の多いライセンスから完全にオープンな形態へ移行したことも、コミュニティからの信頼回復とエコシステム拡大に向けた強い意志の表れです。

今回の公開には、複数のモデルファミリーが含まれています。自己教師あり学習用の「wav2vec 2.0」モデルから、高精度な文字起こしを実現する「LLM-ASR」モデルまで、用途に応じて選択可能です。開発者GitHubやHugging Faceを通じて、モデルやデータセットに即座にアクセスし、自社のプロジェクトに統合することができます。

Omnilingual ASRの登場は、音声認識技術のあり方を「固定的な機能」から「コミュニティが拡張できる基盤」へと変える可能性を秘めています。企業は言語の壁を越えた事業展開を加速でき、研究者やコミュニティは言語の多様性を保護・活用する新たなツールを手に入れたことになります。今後の活用事例が注目されます。

Google TV、AIをGeminiへ刷新し対話機能を強化

自然な対話でコンテンツ検索

複雑な要望に応じた映画推薦
ドラマのあらすじを音声で要約
話題の新作をAIが提案

エンタメを超えた活用

テレビ画面で子供の学習を支援
YouTubeと連携したDIYガイド
レシピ検索から調理までをサポート

段階的なサービス展開

Google TV Streamerで提供開始
アシスタントからGeminiへの移行戦略の一環

Googleは2025年11月10日、同社の「Google TV Streamer」に搭載されているAIアシスタントを、従来のGoogleアシスタントから生成AI「Gemini」に置き換えると発表しました。今後数週間かけて順次展開され、ユーザーはリモコンのマイクボタンを通じて、より自然な会話形式で高度なコンテンツ検索や多様な質問が可能になります。これにより、家庭のテレビ体験が大きく変わる可能性があります。

Geminiの特長は、文脈を理解した対話能力です。例えば「私はドラマ好き、妻はコメディ好き。一緒に見れる映画は?」といった曖昧な質問にも最適な作品を提案します。また、「あのドラマの最終シーズンの結末は?」と尋ねればあらすじを要約。コンテンツを探す手間が大幅に削減されます。

Geminiの活用範囲はエンタメに留まりません。「火山の噴火理由を小学生に説明して」といった学習支援や、YouTube動画と連携したDIYの手順ガイドなど、テレビが家庭の情報ハブとしての役割を担います。リビングでの新たな活用シーンが期待できるでしょう。

この新機能へのアクセスは簡単で、リモコンのマイクボタンを押すだけでGeminiを起動できます。アップデートは今後数週間かけて展開。ただし、利用は18歳以上のユーザーに限定され、提供される国や言語には制限があります。

今回の動きは、Googleが全デバイスでアシスタントGeminiへ置き換える長期戦略の一環です。TCLやHisenseといった他社製テレビへの搭載も進んでおり、エコシステム全体でAIの世代交代が進んでいます。ユーザー体験の向上と、AIによる新たな収益機会の創出が狙いでしょう。

Google新AI、自賛の裏で基本機能に不具合

発表とは裏腹の機能不全

Googleは展開を「順調」と発表
FAQでは基本的な誤作動を報告
アラーム設定やデバイス制御に問題
展開は限定的で極めて緩慢な状況

生成AIが抱える技術的課題

LLMは一貫性ある実行が苦手
複数コマンド実行など機能後退の可能性
Amazon Alexaも同様の課題に直面

Googleが、スマートスピーカー向け新AIアシスタントGemini for Home」の展開が順調だと発表しました。しかし、その公式見解とは裏腹に、ユーザーからはアラーム設定やデバイス制御といった基本的な機能不全が多数報告されています。この状況は、生成AIをスマートホームへ統合する上での技術的な難しさを浮き彫りにしています。

Googleは公式ブログで、展開開始2週間を記念し「すべて順調に進んでいる」と成功をアピール。ユーザーの好意的な声も引用しています。しかし、同ブログ内のFAQ(よくある質問)では、「クエリを誤解する」「デバイスを制御できない」といった深刻な問題が上位に挙げられており、公式発表との大きな乖離がうかがえます。

Geminiは、自然言語を理解し、複数の命令を一度に処理できると期待されていました。しかし初期ユーザーの報告によれば、複数のコマンドを連結させる機能がまだ動作せず、アシスタントより機能が後退した可能性さえ指摘されています。音声アシスタントの核となる機能でのつまずきは、ユーザーの信頼を損ないかねません。

なぜこのような問題が起きるのでしょうか。従来のAIアシスタントが「特定の命令に特定の動作を返す」コマンド&コントロール型だったのに対し、Geminiのような生成AIは創造的で柔軟な反面、一貫した結果を出すのが苦手です。この特性が、正確性が求められるスマートホーム制御において課題となっています。

この課題はGoogleに限りません。競合のAmazonが展開する「Alexa Plus」でも、同様に基本的な機能で誤作動が報告されています。生成AIの持つ「曖昧さ」を、いかにして厳密なデバイス制御に結びつけるかは、業界全体の大きな挑戦と言えるでしょう。

Geminiの展開は現時点で一部の早期アクセスユーザーに限定されており、極めて緩慢です。一般公開は早くても来春以降と見られています。スマートホームの利便性を飛躍させると期待される新世代AIアシスタントの本格普及には、まだ多くのハードルが残されているようです。

マスク氏、AI生成動画で物議。著名作家と舌戦に

「愛」をテーマのAI動画

xAI動画生成AI Grok Imagine を使用
「愛してる」と話す女性の動画を投稿
ユーザーから「悲しい」などの批判が殺到

著名作家からの痛烈批判

作家オーツ氏がマスク氏を痛烈に批判
「教養がなく、文化に触れていない」と指摘
マスク氏は「嘘つきで意地悪」と反論

技術リーダーの発信と影響

AIの社会的・倫理的側面が浮き彫りに
開発者の発信が与える影響力の大きさ

テスラCEOのイーロン・マスク氏が週末、自身のSNSプラットフォームX上で、自社のAI「Grok Imagine」が生成した動画を公開し、大きな物議を醸しています。「愛」をテーマにしたこの投稿は、多くのユーザーから冷ややかな反応を招き、米国の著名作家ジョイス・キャロル・オーツ氏との激しい舌戦にも発展しました。

マスク氏が投稿したのは、「I will always love you(いつもあなたを愛している)」という合成音声と共に、雨の中で微笑む女性のアニメーション動画です。これに対し、ユーザーからは「史上最も離婚した投稿」「このサイトの歴史で最も悲しい投稿」といった辛辣なコメントが殺到。技術のデモンストレーション以上に、マスク氏個人の内面を映し出すものと受け止められたようです。

この騒動に、ピューリッツァー賞候補にもなった作家のオーツ氏が言及。同氏は、マスク氏の投稿には友人、自然、ペット、芸術といった人間的な温かみが欠けていると指摘し、「彼は完全に無教養で、文化に触れていないようだ」と痛烈に批判しました。技術界の寵児に向けられた、手厳しい意見です。

オーツ氏の批判に対し、マスク氏はX上で「彼女は嘘つきで、意地悪であることを楽しんでいる。良い人間ではない」と直接反論しました。これにより、AI生成物を巡る議論は、著名人同士の個人的な非難の応酬へと発展する異例の事態となりました。

今回の一件は、AI技術が社会に与える影響の大きさと、その開発を主導するリーダーの発信がいかに重要かを浮き彫りにしました。生成AIがますます身近になる中、その技術的な性能だけでなく、倫理的・社会的な文脈をどう捉え、伝えていくべきか。全てのビジネスリーダーにとって、大きな教訓と言えるでしょう。

Adobe Firefly、生成AIを統合した新基盤

Fireflyの統合機能

着想から制作までを支援
複数AIモデルを一元管理
画像動画音声のフル生成
手間を省くクイックアクション

独自のクレジット制度

機能ごとにクレジットを消費
モデルや出力品質で変動
有料プランは標準機能が無制限

商用利用について

アドビ製モデルは商用利用可
パートナー製モデルは要注意

アドビが提供する「Firefly」は、単なる画像生成AIではありません。アドビ自社モデルに加え、GoogleOpenAIなどのサードパーティ製AIモデルを統合した、クリエイティブワークフローのための包括的な生成AIツール群です。画像動画の生成から編集、アイデア出しまで、あらゆるクリエイティブ作業を一つのプラットフォーム上で完結させることを目指しています。

Fireflyの機能は大きく4つに分類されます。無限のキャンバスでアイデアを練る「着想」、テキストから画像動画を生成する「生成」、動画の自動キャプション付けなどを行う「制作」、そしてファイル変換といった定型作業を効率化する「クイックアクション」です。これらを組み合わせることで、制作プロセス全体を加速させます。

Fireflyの利用には「生成クレジット」という独自の制度が採用されています。使用するAIモデルや出力品質に応じて消費クレジット数が変動する従量課金的な側面を持ちます。例えば、Googleの最新モデルは高コストに設定されるなど、機能によって消費量が異なるため、利用計画には注意が必要です。

料金プランは無料版から月額200ドルのプレミアム版まで4種類が用意されています。有料プランでは、基本的な生成機能が無制限で利用でき、割り当てられたクレジットをより高度な「プレミアム機能」に集中して使用できます。Creative CloudのProプランにもFirefly Pro相当の機能が含まれます。

ビジネスユーザーにとって最も重要な商用利用については、明確な指針が示されています。アドビが自社データでトレーニングしたFireflyモデルで生成したコンテンツは商用利用が可能です。一方、パートナー企業が提供するモデルを使用する場合は、著作権侵害のリスクがないか個別に確認する必要があります。

Adobe Fireflyは、乱立する生成AIツールを一つに集約し、クリエイターや企業がAIをよりシームレスに活用するための強力な基盤となりつつあります。今後、クリエイティブ産業の生産性を大きく変革する可能性を秘めていると言えるでしょう。

騒音下の音声認識を革新、米新興が6百万ドル調達

革新的な音声分離モデル

騒音環境でも人の声を正確に捕捉
デバイスの音響特性に合わせて最適化
汎用モデルを凌駕する高い性能
ユーザーの声に適応しパーソナル化

事業拡大と有力企業との連携

シードで600万ドル資金調達を完了
クアルコムの公式プログラムに選定
大手自動車・家電メーカーと提携
来年には自社製品の発表も計画

カリフォルニア州のスタートアップSubtle Computingは11月6日、騒がしい環境下でも正確に音声を認識する独自の「音声分離モデル」を開発し、シードラウンドで600万ドル(約9億円)を調達したと発表しました。この技術は、AI議事録サービスや音声アシスタントなど、急成長する音声AI市場の精度向上に大きく貢献する可能性があります。

同社の強みは、デバイスごとに最適化されたモデルを提供できる点にあります。多くの既存ソリューションが汎用的なモデルをクラウドで処理するのに対し、同社はデバイス固有の音響特性を学習させます。これにより、汎用モデルより桁違いに高い性能を実現し、ユーザーの声にも適応するパーソナライズされた体験を提供できるとしています。

AI議事録作成ツールや音声入力アプリの市場は急拡大していますが、カフェや共有オフィスのような騒音環境での音声認識精度の低さが共通の課題でした。Subtle Computingの技術は、こうした実用シーンでの課題を直接解決し、音声AIの利用範囲を大きく広げる可能性を秘めています。

今回の資金調達はEntrada Venturesが主導し、Twitterの共同創業者ビズ・ストーン氏など著名なエンジェル投資家も参加しました。投資家は「音声AIはノイズの多い市場だが、同社の音声分離への特化は信頼性の高いユーザー体験を生み出すゲームチェンジャーだ」と高く評価しています。

同社は既に半導体大手クアルコムのプログラムに選定されており、同社のチップを搭載する多くのデバイスで技術が利用可能になる見込みです。また、社名は非公開ながら大手自動車メーカーや家電ブランドとも提携しており、来年には自社ブランドハードウェアとソフトウェア製品を発表する計画も明らかにしています。

Googleマップ、AIでインドの交通安全を革新

AI『Gemini』の現地化

ハンズフリーのAIアシスタント導入
インド特有の利用文脈を学習
インド9言語に初期対応

当局連携で高める安全性

事故多発地帯での警告機能
国道庁とリアルタイムで道路情報連携
ナビ中の速度制限表示

利便性を高める新機能

立体交差の音声案内サポート
沿道の公共施設(トイレ等)表示

Googleは2025年11月6日、インド市場向けにGoogleマップを大幅にアップデートすると発表しました。対話AIGemini」を統合し、ハンズフリー操作や文脈に応じた情報提供を実現。さらに、地方自治体と連携した道路安全アラートなどを追加し、ユーザー体験の向上を図ります。

今回のアップデートの核となるのがGeminiの統合です。米国に続きインドで導入されますが、単なる言語対応に留まりません。Googleは「インド人が製品をどう使うか、どう質問するか」といった文化的・言語的背景を深く考慮し、真のローカライズを目指したと強調。対応言語は9つのインド言語に及びます。

安全性の向上も大きな柱です。地方自治体と協力し、ドライバーが事故多発地帯に近づくと視覚と音声で警告する機能を一部都市で導入します。これにより、インドにおける交通安全という社会課題の解決に貢献することを目指します。過去にはナビの信頼性が問われる事故も発生していました。

さらに、インド国道庁(NHAI)との提携により、道路の閉鎖や迂回路、工事といった情報をほぼリアルタイムで地図に反映させます。この連携は、国道沿いの公衆トイレやレストランといった沿道施設の表示拡充にも繋がり、ドライバーの利便性を大きく高めるものです。

このほか、ナビ中の速度制限表示や、昨年導入された立体交差ナビの音声サポートなど、日常の運転を支援する機能も追加されます。Googleは、AIとデータ連携を駆使し、ダイナミックに変化する現地の道路状況に即した、より精度の高いナビゲーションの提供を今後も進めていく方針です。

Google Finance、AIで進化 複雑な調査を数分で完結

AIによる金融調査の新時代

複雑な問いにAIがレポート作成
数百の検索を同時に実行
数分で引用付きの回答
有料プランで利用制限緩和

予測と決算分析を強化

予測市場データで未来を問う
決算発表をリアルタイムで追跡
AIによる要約で重要点を把握

Googleは2025年11月6日、金融情報サービス「Google Finance」に、生成AI「Gemini」を搭載した新機能を追加すると発表しました。中核となる「Deep Search」機能は、複雑な金融関連の問いに対して数分で詳細なレポートを作成。さらに予測市場のデータも統合し、投資家やビジネスリーダーの情報収集・分析能力を飛躍的に高めることを目指します。

新機能の目玉は「Deep Search」です。これは従来のキーワード検索とは一線を画します。例えば「S&P; 500とナスダックの相関性は?金利やインフレ率など、どのような経済条件下で一方が優位になるか?」といった複雑で多角的な問いに対し、AIが数百の検索を同時に実行。信頼できる情報源からの引用付きで、包括的な分析レポートをわずか数分で生成します。

もう一つの注目機能が、予測市場データプロバイダー「Kalshi」や「Polymarket」との連携です。「2025年のGDP成長率はどうなるか?」といった未来に関する問いに対し、市場参加者の予測に基づいた確率データを提示します。これにより、従来の分析手法に加え、新たな視点から市場の将来動向を探ることが可能になります。

投資家にとって重要な決算発表シーズンにも対応します。企業の決算説明会をライブ音声とリアルタイムの文字起こしで追跡できるほか、発表前・中・後で更新されるAIによる要約機能も提供。膨大な情報の中から、重要なポイントを効率的に把握できるよう支援します。

「Deep Search」は、無料ユーザーでも月に数回利用できますが、より高度な分析を求めるユーザー向けに、有料プラン「AI Pro」および「AI Ultra」では利用上限が大幅に引き上げられます。新機能はまず米国で数週間以内に展開され、その後インドでもサービス提供が開始される予定です。

Foursquare創業者、AI音声ガイドBeeBotを発表

新感覚のソーシャル音声ガイド

友人・地域の情報を音声で取得
AIが関心事を自動で通知
Wazeとゴシップガールの融合
徒歩での都市散策に最適化

利用シーンと今後の展開

ヘッドフォン装着で自動起動
音楽やポッドキャストを阻害しない
現在は米国iOS限定のベータ版
CarPlay版も開発中

位置情報共有サービスFoursquareの共同創業者デニス・クロウリー氏が、新作アプリ「BeeBot」を発表しました。これは、ユーザーの位置情報に基づき、AIが近隣の出来事や友人の動向などを音声で伝えるソーシャルアプリです。ヘッドフォンを装着するだけで、まるでパーソナルDJがいるかのように、街歩きをしながらリアルタイムの情報が得られます。現在は米国限定でiOS向けに提供されています。

BeeBotのコンセプトは「パーソナライズされたラジオDJ」です。友人が近くにいること、地域のニュース、話題のイベントなど、ユーザーの興味やソーシャルグラフに合わせてカスタマイズされた短い音声アップデートを提供します。開発者はその雰囲気を「Wikipediaを耳で聞くのではなく、Wazeとゴシップガールを融合させたような体験」と表現しています。

このアプリは、ユーザー体験のシームレスさが特徴です。AirPodsをはじめとするあらゆるヘッドフォンやBluetoothオーディオ機器に対応し、装着すると自動的に起動します。音楽やポッドキャストを聴いている際は音量を下げて情報を伝え、終了後は自動で元に戻ります。電話やビデオチャットを中断することはありません。

ユーザーが情報過多にならないよう、アップデートの頻度は1日に数回程度に抑えられています。情報源は、他のBeeBotユーザーの位置情報やステータス更新のほか、ユーザー自身が設定した興味関心の「キーワード」を活用し、ローカルの店舗やイベントを提案します。

BeeBotは現在「ベータ版」と位置付けられており、特に徒歩での利用者が多い米国の都市部で最適な体験が得られるよう設計されています。利用は米国iOSユーザーに限定されていますが、将来的にはCarPlay版の開発も進められており、今後の展開が期待されます。

Waze、映画連携で運転をエンタメ化

映画との連携機能

登場人物による音声ナビ
主演俳優本人が声を担当
限定の車両アイコンも提供
運転をショーに変える演出

利用方法と提供範囲

アプリ内バナーから有効化
最新版への更新が必須
全世界で英語音声にて提供

グーグル傘下のナビアプリ「Waze」は、2025年11月14日公開の新作映画『Now You See Me: Now You Don’t』との提携を発表しました。この機能では、映画の登場人物であるアトラスとヘンリーの声をナビ音声として設定できます。日常の運転をエンターテインメント体験に変えることで、ユーザーエンゲージメント向上を狙う試みです。

ナビ音声は、主演俳優のジェシー・アイゼンバーグとアイラ・フィッシャーが自ら担当しています。二人のマジシャンが目的地まで効率的に案内するだけでなく、道中では軽妙な競争的な掛け合いも披露し、ドライバーを楽しませます。単なる道案内を超えた、没入感のある体験を提供します。

音声以外にも、Wazeマップ上で自分の車として表示されるアイコンを、限定の「The Magician」に変更できます。また、自分の状態を示す「ムード」機能では「Visionary」を選択可能。これにより、ユーザーは映画の世界観に深く没入しながら運転を楽しめます。

この限定機能を利用するには、Wazeアプリを最新版にアップデートし、アプリの左側メニューに表示される「Now You See Me」バナーを探して有効化する必要があります。この機能は全世界で利用可能ですが、音声は英語のみの提供となります。

今回の提携は、テクノロジープラットフォームがエンタメコンテンツと融合し、新たな顧客体験価値を創出する好例と言えるでしょう。ブランドはWazeの広範なユーザー基盤を活用してプロモーションでき、Waze側は独自機能でユーザーの定着率向上を図れます。異業種連携は、今後のアプリマーケティングの重要な一手となりそうです。

OpenAI、企業顧客100万人突破 史上最速で成長

驚異的な成長スピード

企業顧客数が100万人を突破
史上最速のビジネスプラットフォーム
Enterprise版シート数は前年比9倍
Work版シート数は700万席を突破

生産性を高める新機能群

GPT-5搭載のAgentKitで業務自動化
Codexコードレビュー時間を半減
マルチモーダル対応で多様な業務へ
企業の75%がプラスのROIを報告

OpenAIは、法人向けサービスの利用企業が世界で100万社を突破し、史上最速で成長するビジネスプラットフォームになったと発表しました。ChatGPT for Workのシート数も700万席を超え、2ヶ月で40%増と急拡大しています。消費者向けChatGPTの普及を背景に、業務自動化を支援する新ツール群も投入し、企業のAI活用を後押しします。

企業向けサービスの勢いは数字にも表れています。有料の法人顧客は100万人を超え、特に大企業向けのChatGPT Enterpriseのシート数は前年比で9倍に達しました。この成長は、AIが単なる実験的ツールから、事業運営に不可欠な基盤へと移行している現状を明確に示しています。

この急成長の背景には、消費者向けChatGPTの圧倒的な普及があります。週に8億人が利用するサービスに慣れ親しんでいるため、従業員が抵抗なく業務でAIを使い始められます。これにより、企業は導入時の摩擦を減らし投資対効果(ROI)を早期に実現できるのです。

OpenAIは企業の本格導入を支援するため、新ツール群も発表しました。社内データと連携する「AgentKit」や、コード生成を支援する「Codex」の利用が急増。画像音声も扱えるマルチモーダル機能も強化し、より幅広い業務での活用を可能にしています。

実際に多くの企業が成果を上げています。ウォートン校の調査では、導入企業の75%がプラスのROIを報告。求人サイトIndeedは応募数を20%増加させ、シスコはコードレビュー時間を半減させるなど、具体的なビジネス価値を生み出しています。

自社ツールへの組み込みも進んでいます。CanvaやShopifyなどがChatGPTと連携し、新たな顧客体験を創出しています。OpenAIは、単なるツール提供者にとどまらず、「仕事のOS」を再定義するプラットフォームとなることを目指しており、その動きは今後さらに加速しそうです。

Google、市民参加型AIで熱帯雨林の生態系を保全

市民参加でAI生態系保全

Googleの新プロジェクト始動
熱帯雨林の音を市民が聞き分ける
生物多様性モニタリングが目的
専門機関WildMonとの協業

「耳」でAIを訓練し貢献

回答でAIモデル'Perch'を訓練
120万以上の音声録音が基盤
データ不足の課題を解決
不可能だった規模での生態系保護

Googleが市民参加型のAIプロジェクト「Forest Listeners」を開始しました。これは、ブラジルの熱帯雨林の生態系を保護するため、一般の人々が動物の鳴き声を聞き分け、AIモデルを訓練する取り組みです。Google Arts & CultureとDeepMindが開発し、専門機関と協力。クラウドソーシングで収集したデータにより、生物多様性のモニタリングをこれまでにない規模で実現することを目指します。

参加者はウェブサイト上の仮想3D森林で、録音された音を聞きます。そして、特定の動物の鳴き声が聞こえるかどうかを「はい」か「いいえ」で回答するだけです。この簡単な操作を通じて、誰もが専門的な知識なしに、最先端のAI研究と環境保全に直接貢献できる仕組みとなっています。

なぜ「音」なのでしょうか。森林に生息する動物の鳴き声の多様性やパターンは、その生態系の健全性を示す重要な指標です。しかし、何千時間にも及ぶ録音データを人力で分析するのは困難で、特に多くの重要種ではAIの訓練データが不足しているという課題がありました。

市民からの回答は、Google DeepMindのAIモデル「Perch」をファインチューニングするために活用されます。120万件以上の音声録音を基に、検証済み音声の巨大なライブラリを構築。これにより、AIが自動で種を認識する精度が向上し、科学者による生態系保護活動を大規模に支援します。

このプロジェクトは、単なるデータ収集に留まりません。参加者が熱帯雨林の生命力あふれる音に触れ、自然保護への関心を深める機会を提供します。テクノロジーと市民の協力を融合させ、地球の貴重な生態系を守るための新しいモデルケースとなることが期待されます。

Googleマップ、Gemini搭載で会話型ナビへ進化

運転中の会話型操作

ルート上の複雑な条件検索
カレンダー登録など複数アプリ連携
音声による交通障害の報告

より直感的なルート案内

目印の建物を基準にした案内
ストリートビュー画像との連携
事前の交通障害アラート

周辺情報のAI検索

Googleレンズでかざして質問
建物の人気や特徴をAIが回答

Googleは2025年11月5日、地図アプリ「Googleマップ」に生成AI「Gemini」を統合し、ナビゲーション機能を大幅に強化すると発表しました。運転中にAIと対話しながら複雑な検索や操作ができる会話型体験や、目印となる建物を活用した直感的なルート案内が実現。より安全でストレスのない移動体験を目指します。

最大の目玉は、ハンズフリーの会話型運転体験です。「ルート沿いのビーガン対応レストラン」といった複雑な検索や、カレンダー登録などのアプリ連携も音声で完結。従来のGoogleアシスタントの役割をGeminiが完全に代替し、利便性を高めます。

ルート案内も大きく進化。「500メートル先」といった距離ベースではなく、「あのレストランの角を右折」といったランドマーク基準の直感的な案内に変わります。AIが膨大な場所情報とストリートビュー画像を照合し、実際に見える建物を特定することで実現しました。

ナビ未設定の通勤路でも交通渋滞などを事前通知する新機能も搭載。到着後は、Googleレンズで気になる建物にカメラをかざし「人気メニューは?」といった質問が可能に。移動前から到着後までシームレスな情報収集を実現します。

新機能はまず米国市場を中心にAndroidiOS向けに順次提供が開始されます。会話型ナビはGeminiが利用可能な全地域で展開し、将来的にはAndroid Autoにも対応予定。GoogleAIファースト戦略を象徴する動きです。

生成AI特有の「ハルシネーション」について、Google実世界のデータに根差しているため問題ないとの見解を示しました。信頼性の高いデータとAIの対話能力を組み合わせ、「すべてを知る副操縦士」のような存在を目指します。

ささやき声で思考記録、元Meta社員のAIリングStream

思考を捉える新体験

ささやき声でアイデアを即記録
タッチ操作でマイクを起動
スマホ不要で思考に集中
専用アプリでノートを自動整理

多機能なスマートデバイス

音楽再生も指先でコントロール
AIがユーザーの声で応答
ハプティクスで静かにフィードバック

製品概要と価格

価格は249ドルから
2026年夏に出荷開始予定

Metaの社員が設立したスタートアップSandbarが、AI搭載スマートリング「Stream Ring」を発表しました。このデバイスは、ささやき声でも思考を瞬時に音声メモとして記録し、AIと対話できるのが特徴です。価格は249ドルからで、2026年夏の出荷を予定。激化するAIウェアラブル市場に、新たな選択肢を投じます。

Stream Ringは「声のためのマウス」というコンセプトを掲げています。開発の背景には、歩行中や移動中に浮かんだアイデアを、スマートフォンを取り出すことなくシームレスに記録したいという創業者自身の課題がありました。ユーザーが思考の流れを中断せずに、アイデアをその場で捉えることを目指しています。

使い方は直感的です。人差し指に装着したリングのタッチパッドを押さえている間だけマイクが起動し、音声を記録。高感度マイクにより、周囲に人がいる場所でもささやき声でメモを取ることが可能です。記録された内容は専用アプリで自動的に整理され、AIが要約や編集を補助します。

本製品のAIは、単なるメモツールにとどまりません。ユーザーの記録内容に基づいて問いを投げかけ、思考の深掘りを助けます。さらに、応答するAIの声をユーザー自身の声に似せてパーソナライズする「Inner Voice」機能を搭載。あたかも自分自身と対話しているかのような体験を提供します。

音声メモ機能に加え、音楽の再生・停止、音量調整といったメディアコントローラーとしても機能します。価格はシルバーモデルが249ドル、ゴールドモデルが299ドル。月額10ドルのProサブスクリプションでは、無制限のチャット機能などが提供されます。

AIハードウェア市場では多くの製品が登場しては消えていきました。Sandbar社は、Stream Ringを「アシスタント」や「友人」ではなく、あくまでユーザーが主導権を握る「思考拡張ツール」と位置づけています。この明確なコンセプトで、先行する競合製品との差別化を図る考えです。

アップル、Siri刷新へGoogleと年10億ドル契約か

年10億ドルの大型契約

Siri刷新に向けたGoogleとの提携
年間約10億ドル(約1500億円)の支払い
カスタムAI「Gemini」モデルの利用

圧倒的な性能と狙い

1.2兆パラメータGeminiを採用
Apple現行AIの8倍の複雑性
自社AI開発までのつなぎとしての位置付け

今後の展望

Siri来春ローンチ予定
計画変更の可能性も残る

アップルが音声アシスタントSiri」のAI機能強化のため、グーグルと年間約10億ドルの大型契約に近づいていることが報じられました。グーグルのカスタムAIモデル「Gemini」を導入し、刷新されたSiri来春のローンチが予定されています。

導入されるGeminiモデルは、ソフトウェアの複雑さを示すパラメータ数が1.2兆に達します。これはアップルの現行クラウドAIモデル(1500億)の約8倍に相当する規模です。この強力なAIにより、要約の生成や計画関連タスクの実行が可能になります。

AI開発で競合に後れを取っていたアップルにとって、今回の提携は重要な一手です。ただし、これはあくまで一時的な解決策との見方もあります。アップルは最終的に、自社開発のAI技術でGeminiを置き換えることを目指していると報じられています。

アップルは今年初め、OpenAIAnthropicといった他のAI企業のモデルも検討していました。各社のモデルをテストした結果、最終的にグーグルとの提携を選択した模様です。この契約は、ChatGPTのようなチャットボット機能をSiriに統合する計画とは別個のものです。

アップルのティム・クックCEOは、新しいSiriの登場を来春と示唆しつつ、他のサードパーティ製AIとの統合にも含みを持たせています。巨大テック企業同士の提携は、生成AI市場の勢力図を大きく変える可能性を秘めているでしょう。

マイクロソフト、初の独自AI画像生成モデルを公開

独自モデル「MAI-Image-1」

MS初の独自開発AI画像生成モデル
モデル名は「MAI-Image-1」
写実的な風景や照明の生成に強み
速度と品質の両立をアピール

OpenAI依存脱却への布石か

BingとCopilotで提供開始
OpenAIモデルと並行して提供
Copilot音声ストーリーにも活用
AI開発の主導権確保を狙う動き

マイクロソフトは2025年11月4日、同社初となる自社開発のAI画像生成モデル「MAI-Image-1」を発表しました。この新モデルは、検索エンジンBingの画像生成機能やCopilotで既に利用可能となっています。大手IT企業がOpenAIへの依存度を下げ、独自のAI開発を加速させる動きとして注目されます。

「MAI-Image-1」は、特に食べ物や自然の風景、芸術的な照明、そして写実的なディテールの表現に優れているとされます。マイクロソフトは「速度と品質の両立」を強調しており、ユーザーはアイデアを素早く視覚化し、試行錯誤を重ねることが容易になります。

この新モデルは、Bing Image Creatorにおいて、OpenAIのDALL-E 3やGPT-4oと並ぶ選択肢の一つとして提供されます。また、Copilot音声合成機能では、AIが生成した物語に合わせてアートを自動生成する役割も担い、コンテンツ制作の幅を広げます。

今回の発表は、マイクロソフトがAI開発の主導権を確保しようとする大きな戦略の一環です。同社は8月にも独自の音声・テキストモデルを発表しており、OpenAIへの依存からの脱却を段階的に進めていると見られます。独自技術の強化は、今後の競争優位性を左右する鍵となるでしょう。

一方でマイクロソフトは、CopilotOpenAIの最新モデルGPT-5を導入するなど、マルチAIモデル戦略も同時に推進しています。自社開発と外部の高性能モデルを使い分けることで、あらゆるニーズに対応する構えです。最適なAI活用のバランスをどう取るのか、同社の動向から目が離せません。

Googleマップ、AIで車線変更をリアルタイム案内

AI活用の新ナビ機能

前方カメラで道路標識・車線を認識
AIがリアルタイムで情報を分析
音声と映像で最適な車線変更を指示
複雑な高速道路での運転ストレス軽減

Polestar 4から提供

まずEV「Polestar 4」に搭載
提供地域は米国とスウェーデンから
今後、他車種や一般道へも拡大予定

Googleは2025年11月4日、地図アプリ「Googleマップ」にAIを活用した新機能「ライブレーンガイダンス」を追加すると発表しました。電気自動車(EV)の「Polestar 4」を皮切りに、米国とスウェーデンで提供を開始します。車両のカメラ映像をAIが解析し、複雑な高速道路などで最適な車線変更をリアルタイムに案内することで、ドライバーのストレス軽減と安全性向上を目指します。

この新機能の核心は、AIがドライバーのように「見る」能力にあります。車両の前方カメラが捉えた車線や道路標識の映像をAIがリアルタイムで分析。この情報をGoogleマップが持つ交通情報やルート案内と即座に統合し、これまで以上に精密なナビゲーションを実現します。これにより、常に最適な車線にいることが可能になります。

例えば、高速道路の左側車線を走行中、右側に出口が迫っているとします。新機能はドライバーが出口から数車線離れていることを検知し、音声とダッシュボードの表示で余裕を持った車線変更を促します。出口の見逃しや、直前での危険な割り込みを未然に防ぐ効果が期待できるでしょう。

ライブレーンガイダンスは、まず「Polestar 4」に搭載されます。Polestarの車両はインフォテインメントシステムにGoogleAndroidソフトウェアを標準で内蔵しており、こうした新機能との連携がスムーズです。同社のUX/UI責任者も「ドライバーのストレスを減らし、安全性を高める」と声明で述べています。

Googleは今後、他の自動車メーカーとも提携し、対応車種を順次拡大していく計画です。また、現在の対象は高速道路が中心ですが、将来的にはより多くの種類の道路にも対応を広げる方針を示しており、AIによる運転支援技術のさらなる進化が期待されます。

AIで自然保護を加速 Googleが新ロードマップ発表

AIが可能にする3つの変革

惑星全体をリアルタイム監視
専門知識をスマホアプリで民主化
複雑な生態系の全体像を可視化

普及を加速する3つの提言

生物多様性データの収集を加速
オープンなAIモデルへの投資を優先
開発者現場の連携を強化

Googleと世界資源研究所(WRI)は、AIを活用して地球の自然保護と回復を加速するための新たなロードマップを発表しました。野生生物の個体数が過去50年で7割以上減少するなど、深刻化する生物多様性の危機に対し、AIが持つ膨大な情報処理能力で従来の課題を克服する狙いです。この提言は、テクノロジーが自然保護のあり方をどう変革しうるかを示しています。

なぜ今、AIが自然保護に不可欠なのでしょうか。従来の保護活動は、タイムリーなデータの欠如や、広大な生態系を監視するコストの高さといった障壁に直面してきました。AIは、人間には不可能な規模でデータを処理し、隠れたパターンを特定する能力で、これらの「古くからの障害」を打ち破る強力なツールとして期待されています。

報告書では、AIがすでに変革をもたらしている3つの領域を挙げています。第一に、惑星規模でのリアルタイム監視です。例えば「Global Fishing Watch」はAIを用いて数十億の衛星信号を解析し、違法漁業の監視や海洋生態系の保護に貢献。かつては想像もできなかった規模での状況把握を可能にしています。

第二に専門知識の民主化です。市民がスマホで撮影した動植物の写真をAIが識別するアプリはその好例です。第三に、生態系の全体像の可視化。衛星画像音声記録など多様なデータをAIが統合し、保護活動に最も効果的な場所を特定するのに役立っています。

さらに、AIの潜在能力を最大限に引き出すため、報告書は3つの提言を打ち出しています。①生物多様性に関するデータ収集の大幅な拡充インフラ整備、②誰もが利用できるオープンなAIモデルへの重点投資、③AI開発者現場の実践者や地域社会との連携強化です。

AIは強力なツールですが、真の変革はテクノロジーと人間の情熱が融合して初めて生まれます。GoogleとWRIは、AIツールを保全の最前線にいる人々の手に届けることで、人と自然が共に繁栄する未来を創造できると強調しています。今後の技術実装と社会への浸透が注目されます。

アドビ、1コマ編集で動画全体を変える新AI発表

動画編集を革新するAI

1フレーム編集を動画全体に自動適用
マスク不要で人物や物体を自在に除去・追加
AIが文脈を理解しオブジェクトを生成

静止画と音声も新次元へ

写真の光源や影を直感的に操作
AIプロンプト発音や感情を後から修正
話者の声質を維持し単語の置換も可能

未来のクリエイティブ機能

物体の質感や向きを3Dのように変更
製品化は未定だが将来の搭載に期待

アドビが年次カンファレンス「Max 2025」で、クリエイティブ制作の常識を覆す可能性を秘めた実験的なAIツール群「Sneaks」を公開しました。1フレームを編集するだけで動画全体に適用する技術や、写真の光源を自在に操るAI、さらには音声の発音まで修正できるツールなどが披露され、制作者の生産性を飛躍的に高めるものとして注目が集まっています。

最も注目されるのが、動画編集ツール「Project Frame Forward」です。このツールは、動画の最初の1フレームに加えた変更を、AIが映像全体にわたって自動で適用します。これまで時間のかかっていたマスク作成作業なしに、特定の人物を消したり、プロンプトで指示したオブジェクトを自然に追加したりすることが可能になります。

静止画編集では「Project Light Touch」が新たな表現の可能性を示しました。生成AIを活用し、写真内の光源の位置や向き、光の拡散具合を直感的に操作できます。消灯していたランプを点灯させたり、昼の風景を夜に変えたりすることも可能で、撮影後のライティング調整がかつてないほど自由になります。

音声編集の分野では「Project Clean Take」が大きなインパクトを与えます。このAIツールを使えば、収録済みの音声発音ミスを修正したり、声のトーンを「幸せそうに」といった指示で変更したりできます。話者の声質を保ったまま単語を置き換えることも可能で、撮り直しの手間を大幅に削減します。

これら「Sneaks」で披露された機能は、あくまで開発中の実験的なプロジェクトであり、製品への搭載が保証されたものではありません。しかし、過去にはPhotoshopの機能などが同様の形で発表され、後に製品化された実績があります。今回発表されたツール群も、将来的にCreative Cloud製品へ搭載されることが期待されます。

UMGとStability AI、AI音楽ツールの共同開発で提携

提携の目的

音楽大手UMGとStability AIが提携
アーティスト中心のAIツール開発
次世代の音楽制作プロセスを支援
著作権を尊重したモデルを推進

開発されるツールの特徴

完全ライセンス音源のみで学習
商業的に安全な利用を保証
アーティストのフィードバックを最優先

大手音楽会社ユニバーサルミュージックグループ(UMG)と生成AI企業のStability AIは10月30日、戦略的提携を発表しました。両社は、アーティストの創造性を支援するため、責任ある形で学習された次世代AI音楽制作ツールを共同開発します。

今回の提携の最大の特徴は、アーティストを開発プロセスの中心に据える点です。UMG所属のアーティストやプロデューサーから直接フィードバックを収集し、現場のニーズを反映させることで、完全にライセンスされ、商業的にも安全なAIツールの創出を目指します。

UMGは、AI技術の活用において「アーティスト第一」の姿勢を明確にしています。同社のマイケル・ナッシュ最高デジタル責任者は、「責任を持って学習されたモデルに基づくAIツールのみを推進する」と述べ、著作権侵害のないクリーンなAI開発へのコミットメントを強調しました。

一方、Stability AIは商用利用可能な安全な生成オーディオのリーダーです。同社の音声生成モデル「Stable Audio」は、ライセンス契約を締結したデータのみで学習されており、高品質で責任ある音楽・サウンド生成を可能にします。この技術基盤が今回の提携を支えます。

Stability AIは、ゲーム会社のElectronic Artsや広告大手WPPとも提携しており、各業界でプロ向けAIツールの開発を進めています。今回のUMGとの提携は、そのビジョンを音楽業界に拡大するものです。人間の芸術性を損なうことなく、創造プロセスを加速させることを目指します。

Pinterest、声で探すAIアシスタントを導入

声で探す新しい買い物体験

音声入力専用のAIアシスタント
保存ピンに基づき服装を提案
結果を音声簡潔にナレーション
テキスト検索引き続き利用可能

技術と今後の展開

会話形式で直感的な操作を実現
社内開発のマルチモーダルAIが中核
曖昧な要望もAIが具体化
米国ベータ版を提供開始

ビジュアル探索プラットフォームのPinterestは10月30日、音声で対話できる新しいAIショッピングアシスタントのベータ版を米国で提供開始しました。この機能は、ユーザーが保存したコレクションや閲覧中の画像をもとに、パーソナライズされたファッションのアイデアを提案します。Z世代を中心に、より会話的で直感的な検索体験を提供し、プラットフォーム上での購買活動を促進することが狙いです。

このAIアシスタントは、音声入力専用に設計されています。ユーザーがマイクボタンを押しながら話しかけると、AIが要望を解釈し、関連性の高いピンや商品を推薦。結果は画面に表示されるだけでなく、音声で簡潔に説明されます。これにより、ユーザーはより自然な形でインスピレーションを得られるようになります。なお、従来のテキストベースの検索機能は引き続き利用可能です。

CEOのビル・レディ氏は、ユーザーの検索クエリが長文化・複雑化している傾向を指摘します。「テイラー・スウィフトが好きで編み物も趣味」といった曖昧な要望でも、会話形式なら表現しやすいと説明。このニーズに応えるため、Pinterestは社内で独自のマルチモーダルAIモデルを開発しました。音声画像、テキスト情報を統合的に処理し、視覚的な提案を生成する「ビジュアルファースト」な設計が特徴です。

新機能はまず米国の成人ユーザーを対象にベータ版として公開され、今後数週間から数ヶ月かけて順次拡大される予定です。PinterestはこれまでもAIを活用してきましたが、過去には低品質なAI生成コンテンツの氾濫が問題視されたこともありました。同社はAI生成画像へのラベル表示などの対策を進めており、AI技術の責任ある活用とユーザー体験の向上を両立させる姿勢が問われます。

AI音声モデル、数年で汎用品に ElevenLabs CEO予測

AI音声モデルの現状

短期的な最大の競争優位性
未だ解決すべき品質課題の存在
課題解決に自社開発が必須

AI音声の未来予測

数年以内に進むコモディティ化
モデル間の性能差は縮小傾向へ
マルチモーダル化が進展

ElevenLabsの長期戦略

モデル構築と応用の両面に注力
他社連携やオープンソース活用

AI音声合成技術のスタートアップ、ElevenLabsの共同創業者兼CEOであるマティ・スタニシェフスキ氏は2025年10月28日、米国のテックカンファレンスで、AI音声モデルは今後数年でコモディティ化(汎用品化)するとの見通しを明らかにしました。同氏は、短期的にはモデル開発が競争優位性を生むものの、長期的には技術が成熟し、応用面での価値創造が重要になると強調しました。

スタニシェフスキ氏は「長期的にはコモディティ化するでしょう」と明言。現在、各社がしのぎを削るモデル開発ですが、数年もすれば技術的な差は縮小していくと予測します。特定の音声や言語で多少の差は残るものの、全体としてモデル自体の独自性で差別化することは難しくなる、という見方です。

では、なぜ同社はモデルが汎用品化すると分かっていながら、今その開発に注力するのでしょうか。それは、短期的に見ればモデルの性能こそが「最大の優位性であり、最大の変革」だからです。AIが生成する音声の品質が低ければ、ユーザー体験を損ないます。この根本的な課題を解決するには、現時点では自社でモデルを構築する以外にないと説明します。

今後の技術トレンドとして、同氏はマルチモーダル化を挙げました。これは、音声動画、あるいは音声と大規模言語モデル(LLM)を同時に生成・処理するアプローチです。「会話形式で音声とLLMを同時に扱うようになるでしょう」と述べ、モデルの融合が新たな可能性を開くと指摘しました。

ElevenLabsの長期戦略は、モデル構築とアプリケーション開発の両輪を回すことにあります。スタニシェフスキ氏は、かつてAppleハードウェアとソフトウェアの融合で魔法を起こしたように、「製品とAIの組み合わせが、最高のユースケースを生み出す魔法になる」と語りました。他社との提携やオープンソース技術の活用も視野に入れ、応用面での価値創造を目指します。

AIモデル開発の競争が激化する中、技術そのものはやがて誰でも利用できる汎用的なものになる可能性があります。今回の発言は、AIを活用する企業にとって、モデルの性能競争だけでなく、それをいかに独自の製品やサービスに組み込み、顧客価値を創造するかという、応用力こそが長期的な成功の鍵を握ることを示唆しています。

Adobe、声の感情をAIで自在に操る新技術を発表

声の感情をテキストで修正

既存ナレーションをAIで感情修正
テキスト選択とプリセットで簡単操作
AI音声合成ではなく既存音声を加工
撮り直しの手間とコストを削減

音声トラックをAIで分離

1つの音声から複数トラックを抽出
背景ノイズや不要な音楽を除去
著作権侵害リスク未然に防止

AIによる効果音の自動生成

映像をAIが解析し効果音を自動生成
チャット形式で自然言語による編集

アドビは2025年10月29日、ロサンゼルスで開催中の年次カンファレンス「Adobe MAX」で、開発中の最新AI技術を披露しました。発表されたのは、録音済みのナレーションの感情をテキスト編集のように後から変更できる「Corrective AI」や、音声トラックから声や背景音を分離する「Project Clean Take」などです。これらの技術は、クリエイターの編集作業を劇的に効率化し、撮り直しの手間やコストを削減することを目的としています。

特に注目されるのが「Corrective AI」です。デモでは、平坦で単調なナレーションが、テキストを選択して「自信を持って」などの感情プリセットを選ぶだけで、瞬時に生き生きとした声に変わりました。再録音なしで声のトーンや感情を自在に調整できるこの機能は、映像制作の現場に大きな変革をもたらすでしょう。

同時に披露された「Project Clean Take」は、単一の音声トラックから声、環境音、効果音などをAIが正確に分離する技術です。例えば、街頭での撮影時に混入した騒音や、背景で流れる著作権で保護された音楽だけを除去し、別の音に差し替えることが可能になります。予期せぬノイズによる撮り直しや著作権侵害のリスクを、大幅に低減できるようになるのです。

さらに、映像をAIが解析し、シーンに合った効果音を自動で生成・追加する機能も紹介されました。驚くべきは、その編集方法です。ChatGPTのような対話型インターフェースを使い、「このシーンに車の音を加えて」と指示するだけで、AIが適切な効果音を生成し、完璧なタイミングで配置します。直感的な操作で、より高度な音響デザインが誰でも実現できるようになるでしょう。

これらのAI機能は、動画編集者やクリエイターが日々直面する課題を解決するために設計されています。音声の撮り直しという時間とコストのかかる作業を不要にし、壊れたオーディオデータの修復も可能にします。クリエイターは技術的な制約から解放され、より創造的な作業に集中できるようになるでしょう。

今回披露された機能はまだプロトタイプ段階ですが、アドビは例年「Sneaks」で発表した技術を数ヶ月から1年程度で製品に組み込んでいます。2026年頃には実用化される見込みです。こうした技術革新は、声優業界などにも影響を与え始めており、クリエイティブ産業とAIの共存のあり方が、改めて問われることになりそうです。

TC Disrupt2日目: AIと未来を語る巨人たち

豪華登壇者が語る未来

Netflixの未来とストリーミング
Khosla Venturesの技術予測
Figmaが描くAI時代のデザイン
ElevenLabsの合成音声技術

AIとスタートアップの今

VCが求めるAIスタートアップ
300社以上が出展するEXPO
熱戦を繰り広げるStartup Battlefield

米TechCrunchは2025年10月28日、サンフランシスコで年次技術カンファレンス「TechCrunch Disrupt 2025」の2日目を開催しました。NetflixやKhosla Venturesなど業界の巨人が登壇し、AIとテクノロジーの未来について議論。スタートアップ投資家が集結し、会場は終日熱気に包まれました。

メインステージでは、Khosla Ventures創設者のヴィノド・コースラ氏が技術の未来を大胆に予測。また、NetflixのCTOであるエリザベス・ストーン氏が登壇し、競争が激化するストリーミング業界の次の一手について語り、聴衆の注目を集めました。

特に活況を呈したのがAIステージです。VCが求めるAIスタートアップの条件や、AIと創造性の融合、物理世界で活躍するフィジカルAIの未来など、多岐にわたるセッションが開催。合成音声技術で知られるElevenLabsの共同創業者も登壇しました。

「Builders Stage」では、プロダクトマーケットフィットの達成法やAI時代の製品設計といった、スタートアップにとって実践的なテーマが議論されました。またEXPOホールには300社以上のスタートアップが集結し、投資家へ自社の技術をアピールする姿が見られました。

ネットワーキングもイベントの重要な柱です。投資家創業者専用の「Deal Flow Cafe」などが設けられ、具体的な商談が進行。恒例のピッチコンテスト「Startup Battlefield」も熱戦が繰り広げられ、次世代のユニコーン誕生への期待が高まりました。

Google家庭用AI、Gemini搭載で対話能力が飛躍

Geminiへの進化点

既存アシスタントから無料アップグレード
より自然で高性能な会話能力を実現
複雑な質問や文脈の理解が向上

2つの対話モード

「Hey Google」でタスクを直接指示
「Let's chat」で自由な連続対話

高度機能は有料プラン

連続対話機能Gemini Live
カメラ履歴の音声検索や自動化作成
サブスクGoogle Home Premium必須

Googleは2025年10月28日、新しい家庭用音声アシスタントGemini for Home」の早期アクセス版を米国で提供開始しました。既存のGoogleアシスタントがAIモデル「Gemini」にアップグレードされ、より自然で高性能な対話が可能になります。この基本機能は追加費用なしで利用できますが、連続対話機能「Gemini Live」などの高度な機能は、有料サブスクリプション「Google Home Premium」への加入が必要です。2026年には提供国を拡大する計画です。

今回のアップデートの核心は、基盤となるAIが従来のGoogleアシスタントからGeminiに刷新される点です。これにより、ユーザーはより複雑な質問を投げかけたり、文脈を維持したまま会話を続けたりすることが可能になります。例えば、専門的な知識に関する質問や、複数の条件を組み合わせたスマートホームの操作など、これまで以上に高度な要求に応えられるようになります。

Gemini for Homeには、主に2つの対話モードが用意されています。一つは従来の「Hey Google」という呼びかけで、リマインダー設定やスマートホーム機器の操作といった具体的なタスクを指示するモードです。もう一つは「Hey Google, let's chat」と話しかけて起動する「Gemini Live」で、相づちを挟んだり質問を重ねたりできる自由な連続対話が特徴です。

ビジネスモデルは、基本無料と有料サブスクリプションのハイブリッド型です。Geminiへのコアなアップグレードは無料で提供される一方、前述の「Gemini Live」や、カメラの録画履歴を音声検索する機能、音声による自動化(オートメーション)作成といった高度な機能は、新たに導入される「Google Home Premium」の加入者に限定されます。

具体的な活用例として、Googleは100項目を挙げています。単なる天気予報や音楽再生にとどまらず、「量子コンピュータの最新動向を教えて」といった情報収集、「プロジェクトのアイデアを壁打ちしたい」といったブレインストーミング、「来週の出張に向けた準備リストを作って」といったタスク管理など、ビジネスシーンでの生産性向上にも貢献する機能が満載です。

今回の提供は早期アクセス版という位置づけであり、Googleはユーザーからのフィードバックを積極的に募集しています。「Hey Google, send feedback」と話しかけるだけで意見を送れる仕組みを用意し、製品の改善に役立てる方針です。家庭用AIアシスタント市場における競争が激化する中、ユーザーと共に製品を磨き上げる戦略がうかがえます。

Adobe、画像・音声生成AIを全方位で強化

Fireflyが大幅進化

新モデルFirefly Image 5登場
プロンプトレイヤー編集が可能に
独自スタイルでカスタムモデル作成

AIアシスタント登場

PhotoshopとExpressに搭載
自然言語で複雑な編集を自動化
複数アプリを統括するMoonlight

音声・動画生成も強化

動画に合わせたBGMを自動生成
テキストから高品質なナレーション生成

アドビは2025年10月28日、年次カンファレンス「Adobe Max 2025」で、生成AI機能群の大幅なアップデートを発表しました。中核となる画像生成AI「Firefly」の新モデルや、Photoshopなどに搭載されるAIアシスタント、BGMやナレーションを自動生成する音声ツールを公開。クリエイティブ制作の生産性と表現力を飛躍的に高めることを目指します。

画像生成AIの最新版「Firefly Image 5」は、性能が大きく向上しました。ネイティブで最大4メガピクセルの高解像度画像に対応するほか、オブジェクトを個別に認識しプロンプトで編集できるレイヤー機能を搭載。クリエイター自身の作品を学習させ、独自の画風を持つカスタムモデルを作成することも可能になります。

「Photoshop」と「Express」には、新たにAIアシスタントが導入されます。これにより、ユーザーは「背景を削除して」といった自然言語の指示で、複雑な編集作業を自動化できます。専門的なツール操作を覚える必要がなくなり、あらゆるスキルレベルのユーザーが、より直感的にアイデアを形にできるようになるでしょう。

動画制作者にとって画期的な音声生成機能も追加されました。「Generate Soundtrack」はアップロードされた動画の内容を解析し、最適なBGMを自動生成します。「Generate Speech」はテキストから自然なナレーションを作成。これらは商用利用も可能で、コンテンツ制作の効率を劇的に改善します。

将来構想として、複数アプリを統括するAIエージェント「Project Moonlight」も発表。このAIはCreative CloudやSNSアカウントと連携し、ユーザーの作風やブランド戦略を学習。一貫性のあるコンテンツの企画から制作、投稿戦略の立案までを支援する、まさに「クリエイティブディレクター」のような役割を担います。

アドビは自社モデルだけでなく、GoogleGeminiなどサードパーティ製AIモデルの採用も進めています。今回の発表は、クリエイティブの全工程にAIを深く統合し、制作プロセスそのものを変革しようとする同社の強い意志を示すものです。クリエイター生産性向上と、新たな表現の可能性が大きく広がりそうです。

AI兵器開発が加速、チャットボットが戦場へ

AI兵器開発の最前線

音声命令でドローン群を操作
指揮命令系統を効率化するAI
ウクライナ戦争が価値を証明
10-20年で戦争は高度に自動化

大手テックの参入と課題

国防AI関連契約は1年間で1200%増
OpenAIなど大手も軍事契約
強みは諜報・サイバー攻撃
課題は信頼性とエラーの多さ

米国の防衛関連企業Andurilが、大規模言語モデル(LLM)を活用した自律型ドローンの実験を公開しました。音声コマンドで模擬敵機を撃墜するなど、AIを指揮命令系統に組み込む試みが進んでいます。米国防総省は、ウクライナ戦争で価値が証明された自律型兵器の開発を急いでおり、大手テック企業も次々と参入。AIが戦場の様相を一変させる未来が現実味を帯びています。

開発が加速する背景には、ウクライナ戦争があります。低コストで戦況を有利にする自律型ドローンの有効性が世界に示されたのです。さらに、AI技術の覇権を巡る米中間の競争も激化しています。最先端技術を制する者が世界を制するという戦略思想のもと、米国はAI兵器への投資を急速に拡大しているのです。

投資額の伸びは驚異的です。ブルッキングス研究所の報告によると、米連邦政府のAI関連契約額は2022年8月から1年間で1200%増加し、その大半を国防総省が占めています。2026年度の国防予算には、AIと自律性専門で134億ドルが初めて計上されるなど、国家としての推進姿勢は鮮明です。

この潮流は、かつて軍事協力をためらった大手テック企業の姿勢をも変えました。2018年にはGoogleがAI画像解析プロジェクトから撤退しましたが、現在ではOpenAIGoogleAnthropicなどが、それぞれ最大2億ドル規模の軍事関連契約を獲得。AIの軍事転用が巨大ビジネスになりつつあります。

LLMはなぜ軍事利用に適しているのでしょうか。専門家は、大量の情報を解析・要約する能力が諜報活動に、コード生成・分析能力がサイバー攻撃に非常に有効だと指摘します。一方で、現在のモデルは誤情報を生成するなど信頼性に課題を抱え、戦場での直接的な意思決定を任せるには時期尚早との見方もあります。

とはいえ、技術の進化は止まりません。AndurilはMeta社と共同で、兵士向けのARヘルメットを開発中です。専門家は、10〜20年後には自律性の高いロボットが戦場で活動するのが当たり前になると予測します。AIが自らの判断と行動を「自分の言葉で」説明する、そんな未来の戦争が迫っています。

AIが「訛り」を消す時代、その光と影

加速するアクセント矯正

AIによるリアルタイム音声変換
コールセンターでの導入事例
発音をネイティブ風に中和

社会的背景と是非

歴史的に根深いアクセント差別
社会的成功のための話し方調整
「デジタルな白人化」との批判

個人の選択とアイデンティティ

非ネイティブのコミュニケーション障壁
アクセントは個人の पहचानでもある

SanasやBoldVoiceなどのAI企業が、話し手のアクセント(訛り)をリアルタイムで中和・矯正する技術を開発し、提供を始めています。この技術は、グローバルな顧客対応の円滑化を目指すものですが、一方で「デジタルな白人化」との批判や、個人のアイデンティティを損なう懸念も生んでいます。ビジネスにおける言語の多様性を巡る新たな議論が始まっています。

KrispやSanasといった企業は、主にコールセンター向けにリアルタイムでアクセントを「中和」するソフトウェアを提供しています。例えば、フィリピンのオペレーターの英語を、アメリカの顧客にとって聞き取りやすい発音に瞬時に変換します。これにより、コミュニケーションの摩擦を減らし、顧客満足度を向上させるのが狙いです。また、個人向けには発音練習を支援するアプリも登場しています。

このような技術が求められる背景には、根深い「アクセント差別」の存在があります。ビジネスシーンにおいて、非ネイティブスピーカーは訛りを理由に能力を過小評価されたり、意思疎通で不利な立場に置かれたりすることが少なくありません。この技術は、こうした言語の壁を取り払う解決策として期待されています。

一方で、この技術は「デジタルな白人化」であり、支配的な英語の押し付けだという批判も根強くあります。アクセントを均質化することは、言語の多様性や文化的な背景を消し去ることにつながりかねません。また、アクセントは個人のルーツや経験を示す重要なアイデンティティの一部です。それをAIで「修正」することへの倫理的な問いかけもなされています。

結局のところ、アクセント矯正AIを利用するか否かは個人の選択です。コミュニケーションの円滑化という実利を取るか、アイデンティティの表現を重視するか。この技術は、生産性向上と多様性の尊重という、現代ビジネスが直面する二つの価値観の間に横たわる複雑な問題を浮き彫りにします。リーダーは、この技術が組織と個人に何をもたらすのか、慎重な検討が求められるでしょう。

カシオ製AIペット、可愛さで心掴むも共感に課題

カシオ製AIペットの正体

カシオ開発のAI搭載ペットロボ
音や接触に反応し個性が発達
世話不要のメンテナンスフリー

AIがもたらす愛着と課題

可愛さで強い愛着を誘発する設計
音声データはローカル保存で安全配慮

本物のペットとの決定的差

人間の感情を真に理解・共感できず
感情的価値提供におけるAIの限界を露呈

カシオが海外で発売したAIペットロボット「Moflin(モフリン)」が、その愛らしい見た目とAIによる反応で利用者の心を掴む一方、人間の感情に寄り添う点では本物のペットに及ばないという課題を浮き彫りにしました。米WIRED誌の記者が実体験を通じて、AIによる感情的価値提供の最前線と限界を報告しています。AIプロダクト開発において、人間との情緒的なつながりをいかに設計するかが今後の焦点となりそうです。

Moflinは、日本の電子機器メーカーであるカシオが開発したコンパニオンロボットです。価格は429ドル。柔らかい毛で覆われたモルモットほどの大きさで、マイクとセンサーを内蔵。音や接触に反応して、愛らしい鳴き声や動きで感情を表現します。AIがユーザーとの対話を通じて学習し、400万通り以上のパターンから独自の個性を発達させるのが最大の特徴です。

このロボットは、人々が無生物を擬人化する心理を巧みに利用しています。愛らしい鳴き声や仕草は、利用者に強い愛着を抱かせるよう設計されています。記者が試しに強く揺さぶると悲鳴のような声を上げた際には、罪悪感から思わず抱きしめてしまったほど。これは、製品がいかにユーザーの感情に直接訴えかけるかを示す好例と言えるでしょう。

AI搭載機器ではプライバシーが常に懸念されますが、カシオはその点に配慮しています。公式サイトによると、Moflinが聞き取った音声データは個人を特定できない形に変換され、外部サーバーではなくデバイス内にのみ保存される仕組みです。これにより、情報漏洩リスクを低減しています。

しかし、本物のペットと比較すると、その限界も見えてきます。記者はMoflinと過ごす間、友人の犬の世話もしていました。犬は人間の状況を察知しますが、Moflinはプログラムされた「リアルさ」を追求するあまり、オンライン会議中や夜中に突然鳴き出すなど、人間にとっては不都合に感じられる場面もあったようです。

両者の決定的な違いは、共感能力にありました。記者が個人的な事情で落ち込み涙を流していた時、犬は静かに寄り添い、鼻を膝に押し付けて慰めてくれたのです。この本能的な優しさと状況判断は、現在のAI技術では再現が難しい、生命ならではの価値だと記者は指摘します。

結論として、MoflinはAIがどこまで人間に寄り添えるかという大きな問いを投げかけます。現時点では、世話の要らない便利な「ペット風ガジェット」の域を出ないかもしれません。それでもなお、記者はこの毛玉のようなロボット奇妙な愛着と保護欲を感じています。この感情こそが、AIと人間が築く新しい関係性の未来を予感させるのかもしれません。

OpenAI、音楽生成AIを開発中 競合追撃へ

新ツールの概要

テキストや音声から音楽を生成
動画へのBGM追加などを想定
ボーカルにギター伴奏を追加

開発と競合状況

提供形態やリリース時期は未定
ジュリアード音楽院と協力か
先行するGoogleやSuno
市場競争の激化は必至

ChatGPTを開発したOpenAIが、テキストや音声から音楽を生成する新しいAIツールの開発に取り組んでいることが報じられました。動画のBGM作成や既存の楽曲への伴奏追加などを可能にするもので、生成AIの応用範囲を音楽分野へ本格的に拡大する動きとして注目されます。

このツールは、ユーザーが入力したテキストや既存の音声データをもとに、全く新しい音楽を創り出す能力を持つとみられています。例えば、制作した動画に合わせた雰囲気のBGMを自動で追加したり、録音したボーカルにギターの伴奏を付けたりといった活用法が想定されています。

現時点で、このツールがいつ、どのような形で提供されるかは明らかになっていません。独立した製品としてリリースされるのか、あるいは対話型AI「ChatGPT」や動画生成AI「Sora」に機能として統合されるのか、今後の発表が待たれます。

開発の興味深い点として、AIの訓練データに関する報道が挙げられます。一部の情報筋によると、OpenAIは名門ジュリアード音楽学生と協力し、楽譜の注釈付け作業を進めているとのことです。質の高いデータが、生成される音楽の品質を左右する鍵となりそうです。

OpenAIは過去にも音楽生成モデルを手がけていましたが、近年は音声合成などに注力していました。音楽生成AI市場では、すでにGoogleや新興企業のSunoなどが先行しておりOpenAIの参入は市場競争をさらに激化させる可能性があります。

Mistral、企業向けAI開発・運用基盤を発表

AI開発の本番運用を支援

試作から本番運用への移行を促進
EU拠点のインフラデータ主権を確保
専門家以外も使える開発ツール

統合プラットフォームの3本柱

システムの振る舞いを可視化する可観測性
RAGも支える実行ランタイム
AI資産を一元管理するAIレジストリ

豊富なモデルと柔軟な展開

オープンソースから商用まで多数のモデル
クラウドやオンプレミスなど柔軟な展開

2025年10月24日、フランスのAIスタートアップMistral AIは、企業がAIアプリケーションを大規模に開発・運用するための新プラットフォーム「Mistral AI Studio」を発表しました。多くのAI開発が試作段階で止まってしまう課題を解決し、信頼性の高い本番システムへの移行を支援することが目的です。Googleなど米国勢に対抗する欧州発の選択肢としても注目されます。

同社はAI Studioを、AI開発における「プロダクションファビリック(生産基盤)」と位置付けています。AIモデルのバージョン管理や性能低下の追跡、コンプライアンス確保など、多くのチームが直面するインフラ面の課題解決を目指します。これにより、アイデアの検証から信頼できるシステム運用までのギャップを埋めます。

プラットフォームは3つの柱で構成されます。AIシステムの振る舞いを可視化する「可観測性」、検索拡張生成(RAG)なども支える実行基盤「エージェントランタイム」、そしてAI資産を一元管理する「AIレジストリ」です。これらが連携し、開発から監視、統制まで一貫した運用ループを実現します。

AI Studioの強みは、オープンソースから高性能な商用モデル、さらには画像生成音声認識モデルまでを網羅した広範なモデルカタログです。これにより企業は、タスクの複雑さやコスト目標に応じて最適なモデルを試し、柔軟に構成を組むことが可能になります。選択肢の多さは開発の自由度を高めます。

Pythonコードを実行する「コードインタプリタ」やWeb検索など、多彩な統合ツールも特徴です。これにより、単なるテキスト生成にとどまらず、データ分析やリアルタイムの情報検索、さらには画像生成までを一つのワークフロー内で完結させる、より高度なAIエージェントの構築が可能になります。

導入形態も柔軟です。クラウド経由での利用に加え、自社インフラに展開するオンプレミスやセルフホストにも対応。企業のデータガバナンス要件に応じて最適な環境を選べます。また、不適切なコンテンツをフィルタリングするガードレール機能も備え、安全なAI運用を支援します。

Mistral AI Studioの登場は、企業におけるAI活用の成熟度が新たな段階に入ったことを示唆します。モデルの性能競争から、いかにAIを安全かつ安定的に事業へ組み込むかという運用フェーズへ。同プラットフォームは、その移行を力強く後押しする存在となるでしょう。

MSの新AI「Mico」、疑似的人間関係のリスク増大か

新AIアバター「Mico」

Copilot音声モードの新機能
MSが掲げる人間中心のAI
人間のつながりを深める目的
90年代のクリッパーを彷彿

パラソーシャル関係の懸念

AIへの一方的な親近感
ユーザーの孤独感に影響も
LLMとの感情的な結びつきを強化
AIへの過度な依存リスク

マイクロソフトがAIアシスタントCopilot」向けに、新たなアバター「Mico」を発表しました。同社はこれを「人間中心」のAI開発の一環と位置づけ、人間のつながりを深める技術だと説明しています。しかし、この導入はユーザーがAIに対し一方的な親近感を抱く「パラソーシャル関係」リスクを高める可能性があると、専門家から懸念の声が上がっています。

Micoは、Copilot音声モードで利用できる、アニメーション化された生命体のようなキャラクターです。マイクロソフトは、この取り組みがエンゲージメントやスクリーンタイムの最適化を目的とするものではなく、「人々を実生活に戻し、人間のつながりを深める」ためのものだと強調。テクノロジーは人間に奉仕すべきだという理念を掲げています。

Micoの登場は、90年代にMicrosoft Officeアシスタントを務めた「クリッパー」を彷彿とさせます。マイクロソフトもこの比較を意識しており、イースターエッグとしてMicoをクリッパーに変身させる機能を搭載。「我々は皆、クリッパーの影の下に生きている」と同社幹部は冗談を交えて語っています。

しかし、両者の目的は本質的に異なると考えられます。クリッパーの役割は「手紙を書いていますね、手伝いましょうか?」という作業支援でした。一方、Micoはまるで「友達を探していますね、手伝いましょうか?」と語りかけてくるかのようです。これは、ユーザーとLLMとの感情的な結びつきを強化することに主眼が置かれていることを示唆します。

「パラソーシャル関係」とは、1950年代に生まれた学術用語で、メディアの有名人などに対し、視聴者が一方的に親密さを感じる現象を指します。相手は自分の存在を知らないにもかかわらず、まるで友人のように感じてしまうのです。この現象が、人間と対話するLLMとの間でも起こり得ると指摘されています。

Micoのようなキャラクターは、AIとの対話をより自然で楽しいものにする可能性があります。しかしその一方で、ユーザーがAIに過度に依存し、現実の人間関係から遠ざかるリスクもはらんでいます。利便性と倫理的な課題のバランスをどう取るか、テクノロジー企業には慎重な設計が求められます。

Google Gemini、動画・スライド・TVへ機能拡張

動画とプレゼン作成を自動化

リアルな動画を生成するVeo 3.1
効果音付きの対話動画も作成可能
トピック入力でプレゼン資料を自動生成

日常業務と家庭での活用

複雑な手順を段階的に解説
数式のコピーや編集が容易に
テレビ番組検索音声対話で支援
質問にYouTube動画で回答

Googleは2025年10月24日、AIアシスタントGemini」の月次アップデートを発表しました。今回の「October Gemini Drop」では、動画生成AI「Veo 3.1」や、プレゼンテーション資料を自動生成する「Canvas」機能が追加されました。さらにGoogle TVとの連携も実現し、クリエイティブ制作から家庭での利用まで、活用の幅を大きく広げます。生産性向上を目指すビジネスパーソンにとって注目の内容です。

中でも注目されるのが、動画生成AIの最新版Veo 3.1」です。実写に近いリアルな質感の映像を生成できるほか、カメラワークの制御もより簡単になりました。さらに、効果音付きの対話を含む動画の作成も可能となり、マーケティングやコンテンツ制作の現場で、時間とコストを大幅に削減する可能性を秘めています。

プレゼン資料作成の常識を覆すのが新機能「Canvas」です。トピックや参考資料をアップロードするだけで、AIがテーマや関連画像を含むスライド一式を自動で生成します。完成した資料はGoogleスライドで微調整でき、企画書作成を劇的に効率化します。この機能はまずProユーザー向けに提供が開始されます。

Geminiの活用シーンは家庭にも広がります。Gemini for Google TV」により、視聴したい番組を対話形式で探せるようになります。さらに、一般的な質問に対して、関連するYouTube動画を提示しながら回答する機能も搭載。単なる検索アシスタントにとどまらない、新しいテレビ視聴体験を提供します。

このほか、複雑なトピックを段階的に解説する能力が向上したGemini 2.5 Flashのアップデートや、Web版での数式(LaTeX)の扱いやすさ向上など、専門的な作業を支援する改善も含まれています。今回のアップデートは、Geminiが多機能で実用的なAIアシスタントへと進化したことを示しています。

ChatGPT、成人向けエロティカ生成を12月解禁へ

OpenAIの方針大転換

12月よりエロティカ生成を解禁
認証済み成人ユーザーが対象
CEOは「成人の自由」を主張

新たなAIとの関係性

親密な対話が常態化する可能性
ユーザー定着率の向上が狙いか
人間関係を補完する新たな選択肢

浮上するリスクと課題

個人情報のプライバシー漏洩懸念
感情の商品化によるユーザー操作

OpenAIは2025年12月に実施するアップデートで、AIチャットボットChatGPT」の利用規約を改定し、年齢認証済みの成人ユーザーに限り「エロティカ」を含む成熟したテーマのコンテンツ生成を許可する方針です。同社のサム・アルトマンCEOがSNSで公表しました。この方針転換は、AIと人間のより親密な関係性を促し、ユーザーエンゲージメントを高める可能性がある一方、プライバシー倫理的な課題も提起しています。

アルトマンCEOはSNSへの投稿で、今回の変更は「成人の自由」を尊重する同社の大きな姿勢の一部だと説明。「我々は世界の倫理警察ではない」と述べ、これまでの方針を大きく転換する考えを示しました。かつて同社は、自社モデルを成人向けコンテンツに利用した開発者に対し、停止命令を送付したこともありました。

この動きは、ユーザーとAIの関係を根本的に変える可能性があります。専門家は、人々が自身の性的嗜好といった極めてプライベートな情報をAIと共有することが常態化すると指摘。これにより、ユーザーのプラットフォームへの滞在時間が伸び、エンゲージメントが向上する効果が期待されます。

一方で、この変化を肯定的に捉える声もあります。専門家は、人々が機械と性的な対話を試みるのは自然な欲求だとし、AIコンパニオンが人間関係を代替するのではなく、現実世界では満たせないニーズを補完する一つの選択肢になり得ると分析しています。

最大の懸念はプライバシーです。チャット履歴が万が一漏洩すれば、性的指向などの機微な個人情報が流出しかねません。また、ユーザーの性的欲求がAI企業の新たな収益源となる「感情の商品化」につながり、ユーザーが感情的に操作されるリスク専門家は指摘しています。

今後、テキストだけでなく画像音声の生成も許可されるのか、詳細はまだ不明です。もし画像生成が解禁されれば、悪意あるディープフェイクの拡散も懸念されます。OpenAIがどのような年齢認証や監視体制を導入するのか、その具体的な実装方法が今後の大きな焦点となるでしょう。

MS Copilot大型更新、AIキャラと共同作業で新次元へ

より人間らしく対話

表情豊かな新AIキャラMico
挑戦的な対話モードReal Talk
ユーザー情報を記憶し対話に活用

チームと個人の生産性向上

最大32人のグループチャット機能
EdgeがAIブラウザに進化
複数タブの情報を横断し要約・比較
Google Drive等との連携強化

マイクロソフトは2025年10月23日、AIアシスタントCopilot」の秋季大型アップデートを発表しました。新AIキャラクター「Mico」の導入や、最大32人で共同作業できる「Groups」機能、より挑戦的な対話が可能な「Real Talk」モードなどを通じ、AIをよりパーソナルで実用的な存在へと進化させます。生産性の向上と、より人間らしいAIとの対話体験の提供を目指します。

今回のアップデートで最も目を引くのが、新AIキャラクター「Mico」の導入です。かつての「クリッピー」を彷彿とさせるこのキャラクターは、音声モードでユーザーとの対話に表情豊かに反応し、より人間的なインタラクションを実現します。AIに親しみやすいアイデンティティを与えることで、ユーザーとの関係性を深める狙いがあります。

チームの生産性を革新する機能も強化されました。最大32人が参加できる「Groups」は、AIを交えたブレインストーミングや共同計画を可能にします。また、ユーザーの意見に同意するだけでなく、挑戦的な視点も提示する「Real Talk」モードを追加。Copilotが単なるアシスタントから「思考のパートナー」へと進化する可能性を秘めています。

ウェブブラウザ「Edge」も「AIブラウザ」へと大きく進化します。Copilotモードを強化し、複数のタブ情報を横断して要約・比較したり、ホテルの予約フォームを自動入力したりといった高度なタスクを実行できるようになります。これは競合であるOpenAIが発表したAIブラウザ「Atlas」への対抗策とも言え、ブラウザ市場でのAI活用競争が激化しています。

これらの進化を支えるのが、マイクロソフト独自のAIモデル群「MAI」シリーズです。同社はこれまでパートナーであるOpenAIのモデルを中心に据えてきましたが、今回の発表では自社開発モデルの活用を強調。テキスト、音声画像を統合的に処理する独自の技術基盤で、シームレスなAI体験の提供を目指す姿勢を鮮明にしました。

今回のアップデートは、Copilotが単なるチャットボットから、仕事や生活に深く統合された「実用的なAIインフラ」へと進化する転換点と言えるでしょう。経営者エンジニアにとって、これらの新機能をいかに活用し、自社の生産性や競争力向上に繋げるかが今後の重要な課題となりそうです。

Google、AIと120万ドル超の資金で教育格差是正へ

AI教育推進へ資金提供

NPO2団体へ120万ドル超を拠出
障害を持つ生徒のAI・CS教育を推進
全米・地域レベルで活動を拡大

自社ツールの機能強化

顔の動きでPC画面を操作
音声入力やスクリーンリーダー
Chromebook等に標準搭載

学習障害への理解促進

ADHD等の体験シミュレーターを支援
教育者・保護者の共感を促す

Googleは全米障害者雇用啓発月間に合わせ、障害を持つ生徒の学習機会を広げる新たな取り組みを発表しました。AI教育を推進する非営利団体へ120万ドル超の資金を提供すると共に、自社教育ツールのアクセシビリティ機能を強化します。すべての生徒が能力を最大限発揮できる、インクルーシブな教室環境の実現が目的です。

資金提供の柱は二つです。一つは、障害を持つ幼稚園から高校生までのコンピューターサイエンス(CS)およびAI教育の普及を目指す団体「CSEveryone」への約100万ドルの助成。もう一つは、ニューヨーク市のニューロダイバースな学習者向けに技術・キャリア教育を提供する「Tech Kids Unlimited」への約25万ドルの支援です。

自社製品の機能強化も継続しています。「Google Workspace for Education」や「Chromebook」には、スクリーンリーダーや音声入力といったアクセシビリティ機能が標準搭載されています。特に、顔のジェスチャーや頭の動きで画面を操作できる「Face Control」機能は、身体に障害を持つ生徒の学習を力強く支援します。

さらに、学習障害への理解を深めるための活動も支援します。Googleは「Understood.org」と連携し、ADHDや失読症、計算障害を持つ子供たちの日常を疑似体験できるデジタルツール「Through My Eyes」を後押ししています。これにより、教育者や保護者は当事者の視点を深く理解できます。

Googleは「ニューロインクルージョンに関するグローバルフォーラム」を共催するなど、社会全体の意識改革にも取り組んでいます。AIなどの最先端技術が教育のインクルーシビティをいかに変革しうるか、その可能性を追求する動きは、今後ますます加速していくことでしょう。

サムスン、Google新OS搭載のXRヘッドセット発表

新OSとAIの融合

Googleの新OS Android XR を初搭載
AIアシスタント Gemini をネイティブ統合
音声・手・視線による直感的な操作

広がるXRの活用法

エンタメから仕事まで幅広く対応
既存の2D写真を3D化し追体験
無限の空間に複数アプリを配置

価格と発売情報

価格は1799ドルから
米国韓国で先行発売開始

サムスンは2025年10月22日、Googleの新OSを搭載した初のXRヘッドセット「Galaxy XR」を発表しました。このデバイスは、GoogleのAI「Gemini」をネイティブ統合した新OS「Android XR」上で動作し、エンターテインメントからビジネスまで、新たな空間コンピューティング体験を提供します。価格は1799ドルからで、米国韓国で同日より発売が開始されました。

「Galaxy XR」の最大の特徴は、GoogleのAI Gemini がOSレベルで深く統合されている点です。これにより、ユーザーが見ているものや状況をAIがリアルタイムで理解し、対話形式で情報提供やアプリ間の操作支援を行います。例えば、バーチャル空間でランドマークを見ながらその歴史を尋ねたり、散らかったウィンドウを一声で整理させたりといった、より直感的な操作が可能になります。

エンターテインメント用途も大きく進化します。YouTubeでは世界最大級の180度・360度VRコンテンツに没入でき、Google TVでは巨大な仮想スクリーンで映画を楽しめます。また、Google Photosを使えば、手持ちの2D写真や動画を3Dに変換し、思い出のシーンを立体的に追体験できます。これにより、コンテンツ消費のあり方が根本的に変わる可能性があります。

ビジネス領域では、生産性向上のツールとして期待されます。ユーザーは無限の仮想空間にブラウザや書類、コミュニケーションツールなど複数のアプリを自由に配置し、シームレスに作業を進めることができます。キーボードやマウス、PCとの連携も可能で、完全なデスクトップ環境を構築することもできます。これにより、物理的なモニターの制約から解放された、新しい働き方が実現するでしょう。

「Galaxy XR」は、Samsung.comや米国韓国の直営店で1799ドル(月額149ドル)から購入可能です。また、期間限定の特典パッケージとして、Google AI ProやYouTube Premiumの12ヶ月利用権などが含まれる「Explorer Pack」も提供され、XRエコシステムの初期拡大を狙います。

Pixel Watch 4の新機能、AIでスマホから解放

手首を上げるだけのAI起動

Hey Google不要音声操作
ハンズフリーで即座にタスク実行
移動中や運動中でもシームレス連携

気の利くパーソナルアシスタント

アイデアや情報を音声でメモ
メールや地図と連携し状況を把握
個人情報を記憶させタスクを自動化
カレンダー登録やリマインダー設定

Googleは、最新スマートウォッチ「Pixel Watch 4」に搭載されたAI「Gemini」の活用事例を公開しました。新機能「Raise to Talk」は、手首を上げて話すだけでAIを起動でき、スマートフォンを取り出すことなく、スケジュール管理や情報検索、メッセージ送信などをシームレスに実行します。多忙なビジネスパーソンが、いかにしてAIを日常業務に取り入れ、生産性を向上させられるかを示す好例と言えるでしょう。

新機能の最大の特長は、「Hey Google」というウェイクワードが不要な点です。ユーザーはただ手首を口元に近づけて話すだけで、即座にGeminiとの対話を開始できます。これにより、会議中や移動中、両手がふさがっている状況でも、思考を中断することなくタスクを実行したり、アイデアをメモしたりすることが可能になります。まさに「思考の速度で動くAI」と言えるでしょう。

記事では、交通渋滞に巻き込まれた際に、Geminiがメールから目的地の住所を検索し、Googleマップの交通情報と連携して到着予定時刻をリアルタイムで算出した事例が紹介されています。さらに、遅刻を伝えるメッセージの作成・送信までを音声操作だけで完結。このような機能は、分刻みで動くビジネスパーソンの強力な武器となり得ます。

Geminiは、ユーザーの個人的な情報や好みを記憶する「パーソナルコンテキスト」機能を活用します。ホテルの部屋番号のような一時的な情報を記憶させたり、「お気に入りのバレエダンサーが出演する公演をカレンダーに登録して」といった曖昧な指示を理解し、実行することが可能です。パーソナライズが進むことで、より一層、気の利く秘書のような存在になります。

Pixel Watch 4とGeminiの組み合わせが示すのは、「スマートフォンからの解放」という新しいワークスタイルです。情報を得るため、あるいはタスクをこなすために、いちいちデバイスを手に取る必要がなくなるのです。ウェアラブルデバイスが真のパーソナルアシスタントとして機能する未来が、すぐそこまで来ていることを感じさせます。

GM、2028年に『目離し運転』実現へ

AIで変わる車内体験

2026年にGoogle Gemini搭載
自然な会話で車を操作
将来的にはGM独自AIも

2028年、レベル3運転へ

高速道路で手と目を解放
高級SUVから順次導入
旧Cruise部門の技術を活用

支える新技術基盤

新コンピューター基盤を導入
OTA更新能力が10倍に向上

米ゼネラル・モーターズ(GM)は10月22日、ニューヨーク市で開催したイベントで、新たな技術戦略を発表しました。柱は2つ。2026年までにGoogleの生成AIGeminiを搭載したAIアシスタントを導入すること、そして2028年までに高速道路で手と目を離せるレベル3の自動運転システムを実用化することです。ソフトウェアとAIを軸に、次世代の自動車体験の主導権を狙います。

2026年に導入されるAIアシスタントは、GoogleGeminiを搭載します。これにより、ドライバーはより自然な会話でルート設定やメッセージ送信、情報検索などが可能になります。GMは既存の音声アシスタントが抱える課題を大規模言語モデルで解決できると見ており、将来的には車両データと連携する独自のAI開発も視野に入れています。

自動運転技術の目玉は、2028年に高級SUV「キャデラック・エスカレードIQ」から導入される「ハンズオフ・アイズオフ」システムです。これはSAE(自動車技術会)が定めるレベル3に相当し、特定の条件下でドライバーが前方から視線を外すことが認められます。高速道路では時速80マイル(約129km/h)まで対応する計画です。

この高度なシステムの実現には、LiDARや高精細マップ、そして先進的な機械学習が統合されます。特筆すべきは、かつて自動運転タクシー事業を展開し、現在は閉鎖された子会社「Cruise」の技術資産と人材を活用する点です。これにより開発を加速させ、競合のメルセデス・ベンツなどを追い抜く構えを見せています。

これらの先進機能を支えるのが、2028年に導入予定の新しい中央集権型コンピューティングプラットフォームです。これにより、無線でのソフトウェア更新(OTA)能力は現行の10倍に、AI処理性能は最大35倍に向上。ソフトウェア主導の車作りを本格化させ、車両の価値を継続的に高めていく戦略です。

GMはEV(電気自動車)事業で一部生産縮小を余儀なくされる中、今回の発表でソフトウェアとAIを新たな成長の柱とする姿勢を鮮明にしました。自動車が単なる移動手段から「インテリジェントなデバイス」へと進化する時代。同社の描く未来図は、業界全体の競争軸を大きく変える可能性を秘めているのではないでしょうか。

Yelp、AI電話応対サービスで人手不足を解消へ

AIによる24時間電話応対

飲食店向け「Host
他業種向け「Receptionist
24時間365日の顧客対応
人手不足の店舗運営を支援

予約から問合せまで自動化

電話での予約・変更・キャンセル
待ち時間やFAQへの自動応答
見込み客の選別や見積もり提示
月額99ドルから利用可能

米口コミサイト大手のYelpは2025年10月21日、飲食店やその他の中小企業向けに、電話応対を自動化する新しいAIサービス「Yelp Host」と「Yelp Receptionist」を発表しました。人手不足に悩む店舗の顧客対応を24時間体制で支援し、従業員が本来の業務に集中できる環境を整えることを目的としています。

飲食店向けの「Yelp Host」は、電話での予約受付、変更、キャンセルに自動で対応します。さらに、満席時の待ち時間案内や、「ビーガンメニューはあるか」「ペット同伴は可能か」といった顧客からの頻出の質問にも回答。特別な要望を記録し、SMSでメニューのリンクを送信することも可能です。

利用料金は月額149ドルからで、既存のYelp Guest Manager利用者は月額99ドルで導入できます。数週間以内には、Yelpのオンライン待ち時間管理システム「Yelp Waitlist」に直接顧客情報を追加する機能も搭載される予定で、店舗運営のさらなる効率化が期待されます。

一方、「Yelp Receptionist」は、飲食店以外の幅広い業種を対象としたサービスです。電話での問い合わせ対応はもちろん、見込み客の情報を収集・選別したり、見積もりを提示したり、予約をスケジューリングしたりする機能まで備えています。

受付サービスの料金は月額99ドルから。当初は対象事業者を限定しますが、数ヶ月以内に広く提供される見込みです。この動きは、YelpがAIチャットボットやレビュー要約機能など、AI活用を加速させる戦略の一環であり、業界全体のトレンドを反映しています。

DoorDashやGoogleも同様のAI音声アシスタント開発を進めており、顧客のAIが企業のAIに電話をかける未来も遠くないかもしれません。企業にとって、こうしたAIサービスをいかに活用し生産性向上と顧客体験の向上を両立させるかが、今後の競争力を左右する重要な鍵となりそうです。

リアルタイム音声偽装、ビッシング詐欺の新次元へ

技術的ハードルの低下

公開ツールと安価な機材で実現
ボタン一つでリアルタイム音声偽装
低品質マイクでも高精度な音声

詐欺への応用と脅威

遅延なく自然な会話で騙す手口
ビッシング」詐欺の成功率向上
本人なりすましの実験で実証済

新たな本人認証の必要性

音声・映像に頼れない時代へ
新たな認証手法の確立が急務

サイバーセキュリティ企業NCC Groupは2025年9月の報告書で、リアルタイム音声ディープフェイク技術の実証に成功したと発表しました。この技術は、公開ツールと一般に入手可能なハードウェアを使い、標的の声をリアルタイムで複製するものです。これにより、声で本人確認を行うシステムを突破し、より巧妙な「ビッシング」(ボイスフィッシング)詐欺が可能となり、企業や個人に新たな脅威をもたらします。

NCC Groupが開発したツールは、ウェブページのボタンをクリックするだけで起動し、遅延をほとんど感じさせることなく偽の音声を生成します。実演では、ノートPCやスマートフォンに内蔵されたような低品質マイクからの入力でも、非常に説得力のある音声が出力されることが確認されており、攻撃者が特別な機材を必要としない点も脅威です。

従来の音声ディープフェイクは、事前に録音した文章を読み上げるか、生成に数秒以上の遅延が生じるため、不自然な会話になりがちでした。しかし、この新技術はリアルタイムでの応答を可能にし、会話の途中で予期せぬ質問をされても自然に対応できるため、詐欺を見破ることが格段に難しくなります。

NCC Groupは顧客の同意を得て、この音声偽装技術と発信者番号の偽装を組み合わせた実証実験を行いました。その結果、「電話をかけたほぼ全てのケースで、相手は我々を本人だと信じた」と報告しており、この技術が実際の攻撃で極めて高い成功率を持つ可能性を示唆しています。

この技術の最も懸念すべき点は、その再現性の高さにあります。高価な専用サービスは不要で、オープンソースのツールと、一般的なノートPCに搭載されているGPUでもわずか0.5秒の遅延で動作します。これにより、悪意のある攻撃者が容易に同様のツールを開発し、攻撃を仕掛けることが可能になります。

音声だけでなく、ビデオディープフェイクの技術も急速に進歩していますが、高品質な映像をリアルタイムで生成するにはまだ課題が残ります。しかし専門家は、音声だけでも脅威は十分だと警告します。今後は「声や顔」に頼らない、合言葉のような新たな本人認証手段を企業や個人が導入する必要があるでしょう。

元Oculus創業者の会話AI、2.5億ドル調達し始動

元Oculus勢が描く未来

会話型AIスタートアップSesame
元Oculus創業者らが設立
シリーズBで2.5億ドルを調達
強力なハードウェア開発陣

自然な対話AIの衝撃

感情やリズムを直接生成する音声
初期デモは「自然」と高評価
iOSアプリのベータ版を公開
将来はスマートグラスに搭載

元Oculusの共同創業者らが設立した会話型AIスタートアップ「Sesame」が10月21日、シリーズBで2億5000万ドル(約375億円)の資金調達と、iOSアプリの早期ベータ版公開を発表しました。同社は、自然な人間の声で対話するパーソナルAIエージェントを開発しており、将来的には日常的に着用できる軽量なスマートグラスへの搭載を目指しています。

Sesameの技術は、単に大規模言語モデル(LLM)のテキスト出力を音声に変換するだけではありません。対話のリズムや感情、表現力を捉えて音声を直接生成する点に大きな特徴があります。今年2月に公開された音声デモは「本物の対話のようだ」と評され、公開後数週間で100万人以上がアクセスするなど、大きな注目を集めました。

この野心的なプロジェクトを率いるのは、元Oculus共同創業者のブレンダン・イリベCEOやネイト・ミッチェルCPO(最高製品責任者)らです。OculusやMetaハードウェア開発を率いた経験豊富な人材が集結しており、AIとハードウェアを高いレベルで融合させる独自の強みを持っています。

今回の資金調達と同時に、同社はiOSアプリの早期ベータ版を一部のテスター向けに公開しました。このアプリを通じて、ユーザーはSesameが開発するAI技術を先行体験できます。テスターは守秘義務契約を結び、公式フォーラム外での機能や結果に関する議論は禁じられています。

同社が目指す最終形は、AIアシスタントを搭載したスマートグラスです。ユーザーと共に世界を観察し、音声で対話できるコンパニオンの実現を目指します。ファッション性も重視し、AI機能がなくても選びたくなるようなデザインを追求しているとのことです。製品化の具体的な時期はまだ明かされていません。

今回の資金調達は、有力ベンチャーキャピタルのSequoiaやSparkなどが主導しました。創業チームの実績と革新的な技術が高く評価されており、音声インターフェースを核とした次世代プラットフォームへの市場の期待がうかがえます。

Google Fi、AIで通話品質と料金透明性を向上

AIが実現する新体験

AIが通話中の背景雑音を自動除去
双方の音声をクリアにし自然な会話へ
AIが請求書の変動理由を要約・解説
複雑な問い合わせが不要に

シームレスな接続強化

Wi-Fi自動接続を主要空港等へ拡大
混雑時も2倍の接続信頼性を実現
Web通話・メッセージ機能も刷新
追加費用なしで利用可能

Googleは2025年10月21日、同社のモバイル通信サービス「Google Fi Wireless」にAIを活用した複数の新機能を追加すると発表しました。通話中の背景雑音をAIが自動で除去する機能や、月々の請求書をAIが要約・解説する機能が導入されます。これにより、ユーザーはより快適な通話と、分かりやすい料金体系を享受できるようになります。

新機能の柱の一つが、AIによる音声向上機能です。通話中に発生する風の音や工事の騒音といった背景雑音をAIが自動で検知し、除去します。これにより、通話相手が固定電話や旧式のデバイスを使用していても、双方の音声がよりクリアになり、自然な会話が可能になるとのことです。この機能は今後数週間以内に提供が開始されます。

もう一つの注目機能は、AIを活用した請求書の要約です。ユーザーはアプリ内で、請求額の変動理由やプラン変更が将来のコストに与える影響など、パーソナライズされた解説を瞬時に得られます。これにより、コールセンターに問い合わせる手間なく、請求内容を明確に理解できるようになり、顧客体験の向上に繋がります。

接続性も大幅に強化されます。混雑した場所で信頼性の高いWi-Fiに自動接続する「Wi-Fi Auto Connect+」の提供範囲を、ロサンゼルス国際空港(LAX)などの主要空港やショッピングモールに拡大。これにより、携帯電話網単独の場合と比較して2倍の接続信頼性を実現するとしています。この機能は追加費用なしで自動的に利用できます。

これらの機能強化に加え、Webブラウザ経由で高画質な写真や動画を送受信できるRCSに対応した新しいインターフェースも提供されます。Googleは新機能の発表を記念し、既存のスマートフォンを持ち込んで新規加入する顧客向けに、期間限定のプロモーションも実施します。

カシオ製AIペット、430ドルの実力と市場性

製品概要と特徴

カシオ製の新型AIペット
価格は430ドル
AIが感情豊かに成長する設計
プライバシーに配慮した音声処理

評価と市場の可能性

AIの学習効果は限定的との評価
ソニーAIBOの廉価版として注目
子供や高齢者層がターゲット
孤独を癒す新たな選択肢

米TechCrunch誌が、カシオの新型AIペット「Moflin(モフリン)」を1ヶ月試用したレビューを公開しました。価格430ドルのこの製品は、ユーザーとの対話を通じてAIが感情豊かに成長するとされています。評価では、そのAI性能は限定的としつつも、リアルな動きやプライバシーへの配慮から、子供や高齢者など新たな市場を開拓する可能性を秘めていると結論づけています。

Moflinは、毛皮で覆われた小さな動物のような外見を持つAIロボットです。ユーザーとの触れ合いを学習し、当初は未熟な動きしか見せませんが、徐々に感情表現が豊かになるよう設計されています。専用アプリを使えば、その性格が「元気」「陽気」といった指標でどのように成長しているかを確認できます。

レビューでは、1ヶ月の使用で動きや鳴き声は確かに表情豊かになったものの、AIが本当に「学習」しているという実感は乏しいと指摘。その知能は、かつて流行した電子ペット「ファービー」を少し進化させた程度との見方を示しました。AIの進化という点では、まだ大きな進歩の余地があるようです。

一方で、Moflinのリアルな動きは高く評価されています。SNSに動画を投稿したところ、音声なしで視聴した複数の友人から「新しいモルモットを飼ったのか」と尋ねられたほどだといいます。このリアルさが、ユーザーに愛着を抱かせる重要な要素となっています。

プライバシーへの配慮も利点として挙げられています。Moflinはユーザーの声を録音するのではなく、個人を特定できないデータに変換して自分の声と他人の声を区別します。これにより、機密情報漏洩リスクを懸念することなく、安心して利用できるとされています。

430ドルという価格は、決して安価ではありません。しかし、数千ドルするソニーの「AIBO」と比較すれば、AIペット市場への参入障壁を大きく下げるものです。主なターゲットは、アレルギーや住宅事情でペットを飼えない子供や、癒やしを求める高齢者層と考えられ、特定のニーズに応える製品と言えるでしょう。

結論として、Moflinは本物のペットの代わりにはなりませんが、孤独感が社会問題となる現代において、新たな選択肢を提供します。人々を仮想世界に没入させるAIチャットボットとは異なり、物理的な触れ合いを通じて人の心に寄り添う。この製品は、テクノロジーが提供できる新しい価値の形を示唆しているのかもしれません。

アリババQwen、AIレポートを数秒でWeb・音声化

調査を多様な形式に変換

AIが調査レポートを自動生成
1-2クリックでWebページに即時変換
複数話者のポッドキャストも作成可能
コード、画像音声の生成を統合

競合とのアプローチの違い

ゼロからの新規コンテンツ生成に特化
Google NotebookLM既存資料の整理が中心
アイデアから公開までのプロセスを短縮
クリエイターや教育者にも有用

中国のEコマース大手アリババは10月21日、自社のAIチャット「Qwen Chat」に搭載された調査ツール「Deep Research」を大幅にアップデートしたと発表しました。この更新により、AIが生成した調査レポートを、わずか数クリックでインタラクティブなWebページや複数話者によるポッドキャストに変換できます。調査からコンテンツ公開までのプロセスを劇的に効率化し、ユーザーの生産性を高める狙いです。

新機能の核心は、単一の調査依頼から多様なメディア形式のアウトプットを生成できる点にあります。ユーザーがテーマを入力すると、QwenはWeb上の情報源からデータを収集・分析し、矛盾点を指摘しながら詳細なレポートを作成。その後、ボタン一つでプロ品質のWebページや、2人のホストが対話する形式のポッドキャストを自動で生成します。

この強力な機能は、Qwenチームが開発したオープンソースモデル群に支えられています。Webページの構造化にはQwen3-Coder、ビジュアル作成にはQwen-Image音声合成にはQwen3-TTSがそれぞれ活用されています。アリババはこれらを統合し、ユーザーがインフラを意識することなく利用できるマネージドサービスとして提供します。

この動きは、GoogleのAI調査アシスタントNotebookLM」と比較されています。NotebookLMが既存資料の整理や要約に強みを持つ一方、Qwen Deep Researchゼロから新しいコンテンツを生成し、多形式で出力する点で明確な差別化を図っています。どちらが優れているかは、ユーザーの目的によって評価が分かれるでしょう。

アリババの今回のアップデートは、AIによるリサーチが単なる情報収集に留まらず、コンテンツ制作までをシームレスに繋ぐ未来を示唆しています。専門家クリエイターが、少ないリソースで高品質なWebコンテンツやポッドキャストを発信する上で、強力なツールとなる可能性を秘めています。

AI基盤Fal.ai、企業価値40億ドル超で大型調達

企業価値が爆発的に増大

企業価値は40億ドルを突破
わずか3ヶ月で評価額2.7倍
調達額は約2億5000万ドル
著名VCが大型出資を主導

マルチモーダルAI特化

600以上のメディア生成モデルを提供
開発者数は200万人を突破
AdobeやCanvaなどが顧客
動画AIなど高まる需要が追い風

マルチモーダルAIのインフラを提供するスタートアップのFal.aiが、企業価値40億ドル(約6000億円)超で新たな資金調達ラウンドを完了しました。関係者によると、調達額は約2億5000万ドルに上ります。今回のラウンドはKleiner PerkinsSequoia Capitalという著名ベンチャーキャピタルが主導しており、AIインフラ市場の過熱ぶりを象徴しています。

驚くべきはその成長速度です。同社はわずか3ヶ月前に評価額15億ドルでシリーズCを終えたばかりでした。当時、売上高は9500万ドルを超え、プラットフォームを利用する開発者は200万人を突破。1年前の年間経常収益(ARR)1000万ドル、開発者数50万人から爆発的な成長を遂げています。

この急成長の背景には、マルチモーダルAIへの旺盛な需要があります。特に、OpenAIの「Sora」に代表される動画生成AIが消費者の間で絶大な人気を博していることが、Fal.aiのようなインフラ提供企業への追い風となっています。アプリケーションの需要が、それを支える基盤技術の価値を直接押し上げているのです。

Fal.aiは開発者向けに、画像動画音声、3Dなど600種類以上のAIモデルを提供しています。数千基のNVIDIA製H100およびH200 GPUを保有し、高速な推論処理に最適化されたクラウド基盤が強みです。API経由のアクセスやサーバーレスでの提供など、柔軟な利用形態も支持されています。

MicrosoftGoogleなど巨大IT企業もAIホスティングサービスを提供していますが、Fal.aiはメディアとマルチモーダルに特化している点が競争優位性です。顧客にはAdobe、Canva、Perplexity、Shopifyといった大手企業が名を連ね、広告、Eコマース、ゲームなどのコンテンツ制作で広く活用されています。

同社は2021年、Coinbaseで機械学習を率いたBurkay Gur氏と、Amazon出身のGorkem Yurtseven氏によって共同設立されました。多くの技術者が大規模言語モデル(LLM)開発に走る中、彼らはマルチメディア生成の高速化と大規模化にいち早く着目し、今日の成功を収めました。

Google AI Studio、統合UIと新機能で開発を加速

開発ワークフローを統合

複数AIモデルを単一画面で操作
コンテキスト切替が不要に
プロンプトから動画音声まで連続作成
一貫性のあるチャットUIデザイン

利便性を高める新機能

デザインのウェルカムページ
使用量・制限をリアルタイム可視化
Googleマップとの連携機能
実世界の地理データを活用可能

Googleは2025年10月18日、開発者向けプラットフォーム「Google AI Studio」のメジャーアップデートを発表しました。今回の更新は、開発者のフィードバックに基づき、AIモデルを利用した開発体験をよりシームレスかつ効率的にすることを目的としています。複数のAIモデルを統合した操作画面や、Googleマップとの連携機能などが追加されました。

アップデートの核となるのが、新しくなった「Playground」です。これまで別々のタブで操作する必要があった、対話AI「Gemini」や動画生成AI「GenMedia」などのモデルを、単一の統合された画面で利用可能になりました。これにより、開発者はタブを切り替える手間なく、アイデアから画像動画音声ナレーションまでを一つの流れで作成できます。

利便性を高める改善も加えられました。新しいウェルカムホームページは、プラットフォームの全機能へのアクセスを容易にし、最新情報や進行中のプロジェクトを一覧表示します。また、新たに追加されたレート制限ページでは、APIの使用状況と上限をリアルタイムで確認でき、予期せぬ利用中断を防ぎながらアプリケーションの規模を管理できます。

特に注目されるのが、Googleマップとの連携機能「マップグラウンディング」です。この機能により、開発者現実世界の地理データや文脈をAIモデルに直接組み込むことが可能になります。これにより、位置情報に基づいた、より正確で創造的なアプリケーション開発が期待できるでしょう。

Googleは今回のアップデートを「より良い基盤を築くためのもの」と位置付けています。開発ワークフローの摩擦をなくし、開発者が本来の創造的な作業に集中できる環境を整えました。同社は来週、この基盤の上に構築される新たなAI活用アプリ開発手法を発表する予定であり、さらなる進化が期待されます。

米共和党、ディープフェイク動画で政敵を攻撃

AI偽動画の政治利用

米共和党が政敵動画を公開
政府閉鎖を喜ぶ印象操作
実際の音声引用も文脈を無視

プラットフォームの対応

Xは規約違反でも動画を削除せず
警告ラベルの表示もなし
AI生成の透かしのみ表示
過去にも政治家の動画を放置

米国上院の共和党全国委員会が、民主党のチャック・シューマー上院院内総務のディープフェイク動画をX(旧Twitter)に投稿しました。政府機関の閉鎖が続く中、民主党がそれを歓迎しているかのような印象操作が狙いです。Xは自社の規約に反する可能性があるにもかかわらず、動画を削除していません。

問題の動画では、AIで生成されたシューマー氏が「日々、我々にとって状況は良くなる」という言葉を繰り返します。これは実際に報道された同氏の発言ですが、本来は医療保険制度に関する戦略を語ったものであり、文脈を完全に無視した切り取りです。

Xは「害を及ぼす可能性のある合成メディア」を禁じる規約を持ちながら、今回の動画の削除や警告ラベル表示を行っていません。AI生成を示す透かし表示のみにとどまり、プラットフォームとしての対応の甘さが指摘されています。

米国では28州が政治ディープフェイクを規制する法律を持ちますが、多くは明確な開示があれば容認されます。選挙への影響を意図したものを禁じる州もありますが、巧妙化する手口に法整備が追いついていないのが現状です。

共和党側は批判に対し、「AIは現実だ。適応して勝つか、手をこまねいて負けるかだ」と反論し、AIの積極利用を宣言しました。倫理的な課題を抱えつつも、政治やビジネスにおけるAI情報戦はさらに激化する見通しです。

Google Pixel 10、AIで一歩先の体験を

AIが写真・動画を強化

AIが全員のベストショットを合成
撮影者をAIが自動で写真に追加
AIコーチが最適な構図を提案
Gemini画像動画を自在に生成

日常を便利にする新機能

AIが録音に最適なBGMを自動生成
日の出を再現する目覚まし機能
思い出の写真でウォッチを彩る

Googleは2025年10月17日、「Pixel 10」シリーズ向けにAIを活用した新機能を発表しました。写真撮影や音声編集、日常生活の利便性を向上させる6つの機能が、ハロウィンの活用例と共に紹介されています。ユーザーの創造性を刺激し、体験を豊かにすることを目指します。

特に注目されるのが生成AIによる写真・動画編集機能です。Geminiで既存写真を動画に変換したり、AIが表情を合成して全員が笑顔の集合写真を作る「Auto Best Take」など、専門スキルなしで高品質なコンテンツ制作が可能になります。

撮影プロセスそのものもAIが支援します。「Camera Coach」機能は、被写体や目的に応じて最適な構図や設定を提案。また、撮影者自身を集合写真に自然に追加する「Add Me」機能など、誰もが簡単にプロ並みの写真を撮れるようサポートする機能が充実しています。

AIの活用は音声分野にも及びます。標準搭載の「レコーダー」アプリでは、録音した音声AIがムードに合わせたBGMを自動生成して追加できるようになりました。これにより、音声メモや簡単なポッドキャスト制作のハードルが大きく下がることが期待されます。

日常生活に溶け込む機能も強化されています。「Pixel Watch」では、Googleフォトからお気に入りの写真を最大30枚選び、文字盤として表示可能に。また、日の出のように画面が徐々に明るくなる「Sunrise Alarm」は、体内リズムを整えるのに役立ちます。

今回発表された新機能群は、GoogleがAI技術をデバイスに深く統合し、ユーザーの日常的なタスクや創造的活動をシームレスに支援する方向性を明確に示しています。単なる機能追加に留まらず、AIがいかに生活を豊かにできるかを示す好例と言えるでしょう。

Uber、運転手向けAI訓練タスクを試験導入

ギグワーカーの新たな収益源

米国内での試験的プログラム
運転手が追加収入を得る機会
アプリ経由のマイクロタスク提供

AI訓練のクラウドソース化

音声録音や画像収集など
AIモデルのデータ収集・注釈

大手AI企業への挑戦

Scale AIなどへの対抗策
「柔軟な働き方」のプラットフォーム強化

米配車大手のUberは米国で、運転手がAIモデル訓練に参加し収入を得る試験プログラムを開始しました。アプリで音声録音などのタスクを請け負い、新たな収益源とAIデータ市場での競争力確保を狙います。

具体的なタスクは多岐にわたります。「車の画像をアップロードする」「自身の言語で話した音声を録音する」といった指示がアプリに表示されます。スペイン語のメニューを撮影すると1ドル程度の報酬が得られる例もあるようです。

この動きは、Uberが持つ膨大な労働力をAI訓練に活用し、Scale AIなど既存の有力企業に対抗する狙いです。同社は最近データラベリング企業を買収し、AI事業を強化しています。

一方で、運転手からは既に報酬の低さに対する不満も出ています。こうしたマイクロタスクが、彼らにとって魅力的な収入源となるかは未知数です。ギグワーカーの待遇が、この新事業の成否を左右するかもしれません。

今回の施策は「柔軟な働き方のプラットフォーム」構築の一環です。需要が高いエリアを示す新機能や、不当なアカウント停止措置の是正など、運転手体験の向上策も同時に発表されました。

AI顧客調査を高速化、Strellaが1400万ドル調達

AIがリサーチを革新

AIが顧客に音声でインタビュー
従来8週間の作業を数日に短縮
調査業務の90%を自動化
AmazonやDuolingoが導入

AIだから得られる本音

人間相手より率直な意見を獲得
不正回答者をAIが検知
モバイル画面共有でアプリ調査も可能
調査市場そのものを拡大

AIを活用した顧客リサーチプラットフォームを提供する米スタートアップStrellaが10月16日、シリーズAラウンドで1400万ドル(約21億円)の資金調達を発表しました。同社の技術は、AIがモデレーターとして顧客インタビューを実施し、従来8週間かかっていたリサーチ期間を数日に短縮します。Amazonや食品大手Chobaniなどがすでに導入し、事業は急成長を遂げています。

製品開発の現場では、顧客の声を迅速に反映させることが成功の鍵を握ります。しかし、従来の顧客リサーチは参加者の募集からインタビュー、分析、報告まで多大な時間と労力を要するのが課題でした。Strellaは、このプロセスの大半を自動化。AIがZoomのように音声で対話し、重要な発言をまとめたハイライト映像や分析レポートを自動生成します。

同社の調査で明らかになった興味深い事実は、参加者が人間よりもAIに対してより正直に回答する傾向があることです。例えば「このデザインが好きですか?」という質問に対し、人間が相手だと気を遣って肯定的に答えがちですが、AI相手には率直な批判も厭わないといいます。これにより、企業は製品改善に不可欠な忖度のない本音を得られるのです。

Strellaの技術的優位性は、競合他社が主にテキストベースの調査にとどまる中、自由な音声会話を実現している点にあります。特にモバイルアプリの画面を共有しながらインタビューできる機能は強力です。ユーザーがアプリのどこで操作に迷うかをリアルタイムで把握できるため、UX(顧客体験)の改善に直結する具体的なインサイトが得られます。

Strellaは既存のリサーチ業務を効率化するだけでなく、これまでコストや専門人材の不足からリサーチを断念していた企業に新たな可能性を開いています。同社のサービスを導入し、初めて本格的なリサーチ部門を立ち上げた企業も複数あるといいます。これは、単なるツール提供に留まらず、顧客理解の文化を民主化し、市場そのものを拡大していることを示唆しています。

今回の資金調達を主導したBessemer Venture Partnersは、同社の差別化された技術と、顧客の課題を深く理解する創業者チームを高く評価。調達資金は主に製品開発と営業体制の強化に充てられます。今後は、参加者の表情から感情を読み取る機能の追加も視野に入れており、顧客理解のさらなる深化を目指します。

OnePlus、新OSでGeminiとAIを全面統合

OxygenOS 16のAI機能

Google Gemini との深い統合
AI機能「Mind Space」を世界展開
スクリーンショットから予定を自動登録
音声メモの収集とAIによる分析

AI以外の主要な改善点

滑らかさを追求した新アニメーション
PCへのリモートアクセス機能
ロック画面のカスタマイズ性向上

スマートフォンメーカーのOnePlusが、Android 16をベースとする新OS「OxygenOS 16」を発表しました。最大の特徴はGoogleのAI「Gemini」との深い統合で、スクリーンショット分析などのAI機能を大幅に強化します。他社に遅れていたAI分野での巻き返しを図る狙いです。この新OSは、近日発表される次期モデル「OnePlus 15」に搭載される見込みです。

OxygenOS 16の核となるのは、Googleの生成AI「Gemini」との緊密な連携です。これにより、OSレベルでAI機能が組み込まれ、より直感的でシームレスなユーザー体験の提供を目指します。OnePlusはこれまでAI導入で慎重な姿勢でしたが、このアップデートを機に本格参入し、市場での競争力を高める戦略です。

新機能の柱が「Mind Space」です。ユーザーが保存したスクリーンショットや短い音声メモをAIが自動で分析し、情報を整理します。例えば、イベントのスクリーンショットからカレンダーに予定を登録するなど、日常のタスクを効率化します。この機能はインド市場で先行導入されていましたが、全世界で利用可能になります。

AI機能だけでなく、基本的な操作性も向上しています。滑らかさを追求して再設計されたアニメーションや、WindowsやMacにリモートアクセスできる「O+ remote」アプリが新たに追加されます。また、AppleSamsungの製品のように、ロック画面のカスタマイズ性が高められた点もユーザーの利便性を高めます

この新OSは、数週間以内に発表が見込まれる「OnePlus 15」に搭載されるほか、既存の対応機種にも順次提供される予定です。OSにAIが深く統合されることで、スマートフォンの使い方はどう変わるのでしょうか。ビジネスパーソンにとって、生産性向上の新たなツールとなるか、注目が集まります。

NianticのARペット、音声AIで『相棒』に進化

ARペット『Peridot』の新機能

Hume AI搭載で音声対話を実現
SnapのARグラスで現実世界と融合
周囲の景色に応じた観光ガイド機能
目的地への足跡ナビゲーション

技術が拓く新たな体験

共感AIによる友人感覚の対話
ナビゲーションのストレス軽減
ARの未来を示すショーケース
リアルワールド・メタバースの具現化

「ポケモンGO」で知られるNianticから生まれたNiantic Spatial社が、同社のARペット「Peridot(ペリドット)」に音声対話とツアーガイド機能を搭載しました。感情表現豊かなAIを開発するHume AI、ARグラスを手がけるSnapと連携し、ペットがユーザーの『相棒』として現実世界を案内する新たな体験を提示。これは、AR技術とAIが融合する未来を具体的に示す試みと言えるでしょう。

新機能の核となるのは、ARグラス「Snap Spectacles」を通して体験する対話型のナビゲーションです。ユーザーがグラスを装着すると、3Dのペット「Dot」が現実の風景に重なって出現。例えば、観光地で特定の建物に目を向けると、Dotがその歴史を語り始めたり、近くのレストランへの道を足跡のアニメーションで示したりします。

この自然な対話は、Hume AIが開発した感情表現に特化したAIによって実現されています。AIはユーザーが見ているものを認識し、まるで知識豊富で共感的な友人のように振る舞います。Niantic Spatial社は、この機能によって地図アプリに従うストレスをなくし、「まるで現地の友人に案内されているような」安心感のある体験の創出を目指します。

Niantic社は、AR技術で現実世界を拡張する「リアルワールド・メタバース」の構築を長年のビジョンとして掲げています。今回のPeridotの進化は、デジタルな存在が現実空間でより意味のある役割を担うという、そのビジョンを具現化する重要な一歩です。単なるゲームキャラクターではなく、生活を支援するパートナーとしての可能性を示唆しています。

現時点では、この機能は開発者向けイベントでのデモに限定されています。Niantic Spatial社は、ユーザーの安全性を最優先に考慮し、慎重に開発を進める方針です。今回のデモはARの未来像を示す「最初のステップ」であり、今後、ペットの個性や対話能力をさらに洗練させていく計画です。ARとAIが私たちの日常にどう溶け込んでいくのか、その動向が注目されます。

全Win11がAI PC化、音声操作と自律エージェント搭載

音声操作で変わるPC

「Hey, Copilot」で音声起動
第三の入力方法として音声定着へ
キーボード・マウス操作を補完

画面を見て自律実行

Copilot Visionで画面をAIが認識
アプリ操作をAIがガイド
Copilot Actionsでタスクを自律実行

対象とセキュリティ

全Win11 PCがAI PC化、特別機不要
サンドボックス環境で安全性を確保

マイクロソフトは2025年10月16日、全てのWindows 11 PC向けに、音声で起動する「Hey Copilot」や画面を認識してタスクを自律実行するAIエージェント機能などを発表しました。これにより、PCの操作はキーボードとマウス中心から、より自然な対話形式へと移行します。Windows 10のサポート終了に合わせ、AIを中核に据えた次世代のPC体験を提供し、Windows 11への移行を促す狙いです。

新機能の柱は音声操作です。「Hey, Copilot」というウェイクワードでAIアシスタントを起動でき、マイクロソフトはこれをキーボード、マウスに次ぐ「第三の入力方法」と位置付けています。同社の調査では、音声利用時のエンゲージメントはテキスト入力の2倍に上るといい、PCとの対話が日常になる未来を描いています。

さらに、AIがユーザーの画面を「見る」ことで文脈を理解する「Copilot Vision」も全機種に展開されます。これにより、複雑なソフトウェアの操作方法を尋ねると、AIが画面上で手順をガイドしてくれます。ユーザーが詳細な指示(プロンプト)を入力する手間を省き、AIとの連携をより直感的なものにします。

最も革新的なのが、AIが自律的にタスクをこなす「Copilot Actions」です。自然言語で「このフォルダの写真を整理して」と指示するだけで、AIエージェントがファイル操作やデータ抽出を代行します。まだ実験的な段階ですが、PCがユーザーの「代理人」として働く未来を示唆する重要な一歩と言えるでしょう。

自律型エージェントにはセキュリティリスクも伴います。これに対しマイクロソフトは、エージェントサンドボックス化された安全な環境で動作させ、ユーザーがいつでも介入・停止できる仕組みを導入。機能はデフォルトで無効になっており、明示的な同意があって初めて有効になるなど、安全性を最優先する姿勢を強調しています。

今回の発表の重要な点は、これらの先進的なAI機能が一部の高性能な「Copilot+ PC」だけでなく、全てのWindows 11 PCで利用可能になることです。これにより、AI活用の裾野は一気に広がる可能性があります。マイクロソフトはPCを単なる「道具」から「真のパートナー」へと進化させるビジョンを掲げており、今後の競争環境にも大きな影響を与えそうです。

KAYAK、AIチャットで旅行計画から予約まで完結

AIによる新たな旅行体験

ChatGPT統合のAIモード搭載
質問から予約までを対話形式で実行
予算や目的に応じた旅行先の提案

旅行業界のAI活用動向

煩雑な予約体験の解消が狙い
ExpediaなどもChatGPT連携
自社サイトでのデータ活用に強み
今後音声操作にも対応予定

旅行検索大手のKAYAKは、ChatGPTと統合した新機能「AIモード」を自社サイトに導入しました。AIチャットボットとの対話を通じ、旅行に関する質問から航空券やホテルの検索・比較・予約までを一貫して行えます。煩雑な旅行計画の初期段階を支援し、新たな顧客体験を創出する狙いです。

このAIモードの最大の特徴は、自然言語による柔軟な検索能力です。「予算10万円以下で行ける旅行先は?」「ニューヨークで年末年始にパーティーできる場所は?」といった曖昧な質問にも、具体的な選択肢を提示します。ホテルの設備比較や直行便の検索など、詳細な条件での絞り込みも対話形式で可能です。

KAYAKが目指すのは、アイデア探しの段階にいる潜在顧客の取り込みです。しかし、AIチャットで得た情報が実際の予約に結びつくかは、今後の重要な検証課題となるでしょう。AIによる利便性向上が、どこまで収益に貢献するのか、その動向が注目されます。

旅行業界ではAI活用が加速しています。OpenAIはExpediaなどと提携し、ChatGPT内で旅行サービスを提供しています。対照的にKAYAKは自社サイトにAIを統合しました。これにより、利用者の動向データを直接収集し、サービス改善に活かす戦略です。

AIモードは現在、米国で英語のみの提供ですが、今月後半には他の国や言語にも拡大される予定です。同社はさらに、プラットフォームの拡充や音声入力への対応も計画しており、AIを活用した旅行体験の進化は今後も続きそうです。

多機能とSNS連携で覇権、ByteDanceのAI『Doubao』

中国で最も人気なAIアプリ

月間利用者1.57億人中国首位
世界でも4番目に人気の生成AI
親しみやすいアバターとUI/UX

成功を支える『全部入り』戦略

チャットから動画生成まで多機能
AIに不慣れな層も取り込む設計
TikTok(Douyin)とのシームレスな連携

バイラル設計とエコシステム

SNSでの共有を促すバイラル設計
競合からユーザーの4割が流入
自動車など他デバイスへの展開

TikTokを運営する中国ByteDance社が開発したAIアシスタント「Doubao(豆包)」が、中国市場を席巻しています。2025年8月には月間アクティブユーザー数が1億5700万人に達し、競合のDeepSeekを抜いて国内首位となりました。その成功の裏には、チャットから画像動画生成までを網羅する多機能性と、ショート動画アプリ「Douyin(抖音)」と連携した巧みなバイラル戦略があります。

Doubaoの躍進は、データにも裏付けられています。中国のデータインテリジェンス企業QuestMobileによると、月間アクティブユーザー数は1億5700万人。競合のDeepSeekは1億4300万人で2位に後退しました。また、ベンチャーキャピタルa16zの調査では、ChatGPTGeminiに次ぐ世界で4番目に人気の生成AIアプリにランクインしています。

Doubaoの最大の特徴は「全部入り」とも言える包括的な機能です。テキスト対話だけでなく、画像生成、短い動画作成、データ分析、AIエージェントのカスタマイズまで、一つのアプリで完結します。これはまるで、ChatGPT、Midjourney、Sora、Character.aiといった複数の最先端ツールを一つに集約したような体験をユーザーに提供するものです。

なぜ、この「全部入り」戦略が受け入れられたのでしょうか。それは、DoubaoがAIに詳しくない一般ユーザーを明確にターゲットにしているからです。親しみやすいアバターやカラフルなUIに加え、テキスト入力より音声動画での対話を好む層を取り込み、AI利用のハードルを劇的に下げることに成功しました。

成功のもう一つの柱が、ByteDanceの得意とするSNS連携とバイラル設計です。ユーザーはDoubaoで生成したコンテンツを、Douyin(中国TikTok)ですぐに共有できます。逆にDouyinの動画要約をDoubaoにさせることも可能です。この利便性と楽しさが爆発的な拡散を生み、ユーザーエンゲージメントを高めています。

競合のDeepSeekがモデルの性能や論理的タスクに注力する一方、Doubaoは消費者向けアプリとしての完成度で差をつけました。QuestMobileのデータでは、DeepSeekを離れたユーザーの約4割がDoubaoに移行したとされています。これは、ByteDanceが長年培ってきた「アプリ工場」としての開発力が発揮された結果と言えるでしょう。

ByteDanceはスマートフォンの枠を超え、Doubaoをエコシステムの中核に据えようとしています。すでにスマートグラスや自動車メーカーとの提携を進めており、車載アシスタントやAIコンパニオンとしての搭載が始まっています。Doubaoは、私たちの生活のあらゆる場面に浸透するプラットフォームを目指しているのです。

アップル、AI人材流出止まらず 検索幹部もメタへ

相次ぐAI人材の流出

AI検索責任者Ke Yang氏がメタ移籍
AIモデル責任者も今年初めに移籍済み
AI/MLチームから十数名が退職

Siri刷新への影響

来春予定のSiri刷新に打撃か
AI検索市場での競争力低下の懸念
社内でさらなる流出を危惧する声

AppleでAIを活用したウェブ検索開発を率いていた幹部のKe Yang氏が、競合のMetaに移籍したことが明らかになりました。この動きは、今年に入ってから続くAppleのAI部門からの一連の人材流出の一環です。来年3月に予定される音声アシスタントSiri」の大幅刷新を前に、同社のAI戦略に大きな痛手となる可能性があります。

Yang氏は数週間前から、Siriの機能向上を担う「AKI」チームを監督していました。このチームは、Siriがウェブから情報を直接引き出し、OpenAIGoogleのような競合と対抗できるAI検索機能を構築する重要な役割を担っています。新Siriは個人のデータも活用し、より複雑なタスクを実行できるようになると期待されていました。

AppleのAI部門からの人材流出はYang氏に留まりません。今年初めには、AIモデルの責任者であったRuoming Pang氏がMetaに移籍。さらに、AI・機械学習(AIML)チームの十数名のメンバーも同社を去り、その一部はMetaが新設した研究組織「Superintelligence Labs」に参加したと報じられています。

相次ぐ幹部や技術者の退職は、AppleがAI開発競争で厳しい立場に置かれていることを示唆しています。特に、Siriの大型アップデートを目前に控える中での中核人材の離脱は、開発スケジュールや機能の完成度に影響を及ぼしかねません。社内では今後も流出が続くとの懸念が広がっており、経営陣は対応を迫られるでしょう。

Waze、ソニックと提携。ナビがゲーム体験に

ソニック仕様のカスタム機能

ソニックによる音声ナビゲーション
専用のマップアイコン設定
ゲーム登場車両への変更

利用方法と提供範囲

セガの世界的キャラクターと連携
全世界で英語・フランス語対応
Wazeアプリ最新版から有効化

ドライブをゲーム体験に

運転の楽しさを演出するゲーミフィケーション
ユーザーエンゲージメントの強化

Google傘下のナビゲーションアプリ「Waze」は2025年10月15日、セガの人気キャラクター「ソニック・ザ・ヘッジホッグ」をテーマにした新機能を発表しました。ユーザーは、ソニックによる音声案内や、マップ上のアイコン、車両デザインをカスタマイズでき、まるでゲームのようなドライブ体験が可能になります。この機能は全世界で英語とフランス語に対応。大手IT企業によるIP(知的財産)活用ゲーミフィケーションの新たな一手として注目されます。

新機能の目玉は、ソニックが相棒となる音声ナビです。「よし、行こうぜ!」といった世界観を反映した案内が運転を盛り上げます。さらに、マップ上のアイコンを「Energetic」ムードに、車両デザインを最新ゲームに登場する「Speedster Lightning」に変更でき、視覚的にも楽しめるよう工夫されています。

今回の提携は、ナビアプリ市場における差別化戦略の一環です。Wazeは強力なIPとの連携を通じて、運転という日常行為にゲーム要素を取り入れる「ゲーミフィケーション」を導入。これにより、ユーザーの継続利用(エンゲージメント)を促しブランドへの愛着を深める狙いがあります。

この機能は、Wazeアプリの最新版で有効化できます。現在は英語とフランス語での提供ですが、世界的な人気IPだけに今後の展開も期待されます。実用的なツールにエンターテインメント性を融合させることで顧客体験価値を高める好例と言えるでしょう。ビジネスリーダーや開発者にとって示唆に富む動きです。

SpotifyのAI DJ、テキスト入力に対応し利便性向上

AI DJの主な新機能

テキスト入力での選曲リクエスト
従来の音声コマンドと併用可能
スペイン語でのリクエストにも対応

向上したユーザー体験

公共の場でも気兼ねなく操作
AIによるパーソナライズされた提案
気分や活動の複雑な組合せも可能

提供範囲

世界60以上の市場で提供
Premium会員向けの限定機能

音楽ストリーミング大手のSpotifyは10月15日(現地時間)、Premium会員向けに提供する「AI DJ」機能をアップデートし、新たにテキスト入力による選曲リクエストに対応したと発表しました。これまでの音声コマンドに加え、チャット形式での操作が可能になり、公共の場など声が出しにくい環境での利便性が大幅に向上します。この機能は英語とスペイン語に対応し、世界60以上の市場で展開されます。

今回の機能拡張の背景には、ChatGPTなどに代表されるAIチャットボットの急速な普及があります。ユーザーがAIとの対話においてテキスト入力を使い慣れてきたことを受け、Spotifyも自然な流れとしてこの方式を導入しました。通勤中の電車内や静かなオフィスといった、音声コマンドが使いづらい様々な利用シーンを想定しており、ユーザー体験の向上を狙いとしています。

新機能の利用は簡単です。アプリ内で「DJ」と検索して機能を起動後、画面右下のDJボタンをタップすると、音声またはテキストでリクエストを送信できます。ジャンル、気分、アーティスト、活動などを自由に組み合わせて指示することが可能です。例えば「仕事に集中できるインストゥルメンタル」といった、より具体的でパーソナライズされた選曲を実現します。

さらに、次に聴く曲に迷ったユーザーをサポートするため、AIが個人の好みに合わせてパーソナライズされたプロンプト(リクエストの提案)を表示する機能も追加されました。また、スペイン語版のAI DJ「Livi」も音楽リクエストに対応し、グローバルなユーザー層への対応を強化しています。

Spotifyの今回の動きは、AIアシスタント機能が単なる音声操作から、テキストを含むマルチモーダルな対話へと進化している現在のトレンドを象徴しています。AppleSiriがテキスト入力に対応したのと同様の流れであり、ユーザーの状況に応じて最適な入力方法を選択できる柔軟性が、今後のサービス競争における重要な要素となるでしょう。

Google、AI動画Veo 3.1公開 編集機能で差別化

Veo 3.1の主な進化点

よりリアルな質感と音声生成
プロンプトへの忠実性が向上
最大2分半超の動画延長機能
縦型動画の出力に対応

高度な編集と競合比較

動画内の物体を追加・削除
照明や影の自然な調整
編集ツールは高評価もSora優位の声
Sora 2より高価との指摘も

Googleは2025年10月15日、最新のAI動画生成モデル「Veo 3.1」を発表しました。AI映像制作ツール「Flow」に統合され、音声生成や動画内のオブジェクトを操作する高度な編集機能を搭載しています。これにより、クリエイターはより直感的に高品質な動画を制作可能になります。激化するAI動画市場で、競合のOpenAISora 2」に対し、編集機能の優位性で差別化を図る狙いです。

Veo 3.1の大きな特徴は、音声生成機能の統合です。従来は手動で追加する必要があった音声が、静止画から動画を生成する機能や、動画を延長する機能にネイティブで対応しました。これにより、映像と音声が同期したコンテンツをワンストップで制作でき、制作工程を大幅に効率化します。

編集機能も大幅に強化されました。動画内の任意の場所にオブジェクトを自然に追加する「挿入」機能や、不要な要素を消去する「削除」機能が実装されます。さらに、照明や影を調整し、シーン全体のリアリティを高めることも可能です。作り手の意図をより精密に反映した映像表現が実現します。

新モデルは、動画編集ツール「Flow」に加え、開発者向けの「Gemini API」や企業向けの「Vertex AI」でも提供されます。これにより、個人のクリエイターから企業のコンテンツ制作まで、幅広い用途での活用が期待されます。GUIとAPIの両方を提供することで、多様なワークフローに対応する構えです。

一方で、市場の反応は賛否両論です。特に競合の「Sora 2」と比較し、動画自体の品質や価格面でSora 2が優位だとの指摘も出ています。Veo 3.1の強みである高度な編集ツールが高く評価される一方、生成品質のさらなる向上が今後の課題となりそうです。

技術面では、最大1080pの解像度と、SNSなどで需要の高い縦型動画の出力に対応しました。また、生成された動画には電子透かし技術「SynthID」が埋め込まれ、AIによる生成物であることを明示します。これにより、コンテンツの透明性を確保し、責任あるAI利用を促すとしています。

Google新イヤホン、AI連携とANCで体験を刷新

AIとANCで進化

Aシリーズ初のANC搭載
ハンズフリーでGeminiを起動

操作性と音質を最適化

左右のタッチ操作を個別設定
イコライザーで音質を微調整
プリセットやカスタム保存も可能

複数端末との連携

2台同時接続のマルチポイント
PCとスマホ間を自動で切り替え

Googleは2025年10月15日、新型ワイヤレスイヤホン「Pixel Buds 2a」の多彩なカスタマイズ機能を公開しました。Tensor AIを搭載した本製品は、Aシリーズで初めてアクティブノイズキャンセリング(ANC)を搭載し、AIアシスタントGemini」へのハンズフリーアクセスも可能です。ユーザーが自身の使い方に合わせて体験を最適化できる設定方法が紹介されており、ビジネスパーソンの生産性向上に貢献します。

最大の注目点は、Aシリーズ初となるANC機能です。これにより、騒がしい環境でも集中して作業や通話に臨めます。また、イヤホンをタッチするだけでAIアシスタントGemini」を呼び出せ、スマホを取り出さずに音声でタスクを完結できるのは大きな利点と言えるでしょう。

操作性もユーザーに合わせて最適化できます。左右のイヤホンの「長押し」操作に、それぞれ異なる機能を割り当てることが可能です。例えば、右耳でANCをオンにし、左耳でGeminiを起動するといった設定ができます。使用頻度の高い機能を直感的かつ素早く呼び出せるようになります。

音質へのこだわりも満たせます。専用アプリのイコライザー機能を使えば、低音や高音のバランスを自由に調整可能です。「ボーカルブースト」などの便利なプリセットも用意されており、音楽鑑賞からウェブ会議まで、用途に応じた最適なサウンドを手軽に設定できる点も魅力です。

複数のデバイスを使いこなす現代のビジネスパーソンにとって、マルチポイント接続は欠かせない機能でしょう。PCとスマートフォンなど2台の端末に同時接続し、音声ソースを自動で切り替えます。PCでの作業中にスマホへ着信があっても、イヤホンはシームレスに通話へ移行し、デバイス間の手間を省きます。

このように「Pixel Buds 2a」は、高度なカスタマイズ性によってユーザー一人ひとりの使い方に寄り添います。AI、ANC、そしてシームレスな接続性を組み合わせることで、仕事の生産性向上から日々の楽しみまで、幅広いシーンで活躍する強力なパートナーとなりそうです。

保険業務をAIで刷新、Liberateが75億円調達

AIエージェントの提供価値

売上15%増、コスト23%削減を実現
請求対応時間を30時間から30秒に短縮
24時間365日の販売・顧客対応
既存システムと連携し業務を自動化

大型資金調達の概要

シリーズBで5000万ドルを調達
企業評価額3億ドル(約450億円)
AIの推論能力向上と事業拡大に投資
Battery Venturesがラウンドを主導

AIスタートアップのLiberate社が、シリーズBラウンドで5000万ドル(約75億円)を調達したと発表しました。企業評価額は3億ドル(約450億円)に達します。同社は音声AIと推論ベースのAIエージェントを組み合わせ、保険の販売から請求処理までのバックオフィス業務を自動化するシステムを開発。運営コストの増大や旧式システムに悩む保険業界の課題解決を目指します。

Liberateの技術の核心は、エンドツーエンドで業務を完遂するAIエージェントです。顧客対応の最前線では音声AIアシスタント「Nicole」が電話応対し、その裏でAIエージェント群が既存の保険システムと連携。見積もり作成、契約更新、保険金請求処理といった定型業務を人の介在なしに実行します。

導入効果は既に数字で示されています。顧客企業は平均で売上が15%増加し、運用コストを23%削減することに成功。ある事例では、ハリケーン関連の保険金請求対応にかかる時間が従来の30時間からわずか30秒へと劇的に短縮されました。人間の担当者が不在の時間帯でも販売機会を逃しません。

高い性能と信頼性を両立させる仕組みも特徴です。AIは規制の厳しい保険業界の対話に特化した強化学習で訓練されています。さらに「Supervisor」と呼ばれる独自ツールがAIと顧客の全やり取りを監視。AIの応答が不適切と判断された場合は、即座に人間の担当者にエスカレーションする安全装置も備えています。

今回の資金調達は、著名VCのBattery Venturesが主導しました。投資家は、Liberateの技術を「単に対話するだけでなく、システムと連携してタスクを最後までやり遂げる能力」と高く評価。多くの保険会社が本格的なDXへと舵を切る中、同社の存在感はますます高まっています。

Liberateは調達した資金を、AIの推論能力のさらなる向上と、グローバルな事業展開の加速に充てる計画です。創業3年の急成長企業が、伝統的な保険業界の生産性と収益性をいかに変革していくか、市場の注目が集まります。

ウォルマート、ChatGPTで直接購入可能に

AIショッピングの新体験

ChatGPTで直接商品購入
ウォルマートアカウントと連携
決済までシームレスに完結
サードパーティ商品も対象

パーソナライズの進化

顧客ニーズをAIが予測
検索中心から対話型へ
能動的な買い物提案を実現

ウォルマートのAI戦略

独自AI「Sparky」も開発
社内業務にもOpenAI活用

米小売大手ウォルマートは10月14日、OpenAIとの提携を発表しました。これにより消費者は、対話AI「ChatGPT」を通じて食料品や日用品を直接購入し、決済まで完了できるようになります。ユーザーはウォルマートのアカウントをChatGPTに連携させるだけで、この新しいAIショッピング体験を利用できます。eコマースのあり方を大きく変える可能性を秘めた動きです。

この機能は、従来の検索バーにキーワードを打ち込む形式のオンラインショッピングからの脱却を目指すものです。AIとの対話を通じて、ユーザーは食事の計画を立てたり、必需品を補充したり、さらには新しい商品を発見したりすることが可能になります。ウォルマートは、この提携によって顧客のニーズをより深く理解し、予測することで、パーソナライズされた能動的な買い物体験を提供できるとしています。

今回の提携は、eコマース市場への参入を狙うOpenAIの戦略の一環でもあります。同社は最近、商品の発見から推薦、決済までを担う「エージェント的ショッピングシステム」構想を発表しており、EtsyやShopifyの事業者とも連携を進めています。大手小売業者であるウォルマートとの提携は、この構想を加速させる重要な一歩と言えるでしょう。

一方、ウォルマートもAI活用に積極的です。同社はOpenAIとの提携だけでなく、独自の生成AIショッピングアシスタントSparky」も開発しています。将来的にはテキストだけでなく、画像音声など多様な入力に対応し、商品の再注文やサービスの予約まで可能にする計画です。外部との連携と自社開発の両輪で、AI時代の小売業をリードする狙いです。

ウォルマートとOpenAIの関係は今回が初めてではありません。すでに社内チーム向けにChatGPT Enterpriseを導入するなど、業務効率化にもAIを活用しています。AIを用いてファッション製品の生産期間を最大18週間短縮したり、顧客対応時間を最大40%改善したりと、具体的な成果も報告されています。今回の提携は、これまでの協力関係を消費者向けサービスへと拡大させたものです。

Googleフォト、AIとの対話で写真編集を刷新

AIとの対話で簡単編集

米国Androidユーザー向けに提供
テキストや音声で編集を指示
「Help me edit」から起動
複雑な編集も一括で実行可能

多彩な編集プロンプト例

不要な反射や映り込みを除去
ペットに衣装を合成
古い写真を鮮明に復元
背景を拡張し構図を改善

Googleが、写真編集アプリ「Googleフォト」に、AIとの対話を通じて画像を編集できる新機能を導入しました。2025年10月14日、まずは米国Androidユーザーを対象に提供を開始。ユーザーは「Help me edit」機能から、テキスト入力や音声で「窓の反射を消して」などと指示するだけで、AIが自動で高度な編集を実行します。専門的なスキルがなくとも、誰もが直感的に写真を加工できる時代の到来です。

この新機能の利用方法は極めてシンプルです。Googleフォトで編集したい写真を開き、「Help me edit」ボタンをタップ。後は、実現したいことを自然な言葉で話したり、入力したりするだけでAIが意図を汲み取り、編集作業を代行します。これにより、これまで複数のツールや複雑な操作を要した作業が、ワンステップで完了するようになります。

具体的な活用例は多岐にわたります。例えば、商品写真の窓ガラスに映り込んだ不要な反射の除去や、背景の整理といった実用的な修正が瞬時に可能です。さらに、古い記録写真を鮮明に復元したり、複数の修正指示を一度にまとめて実行したりすることもできます。これにより、マーケティング資料や報告書の質を、手間をかけずに向上させることが期待できるでしょう。

加えて、この機能は創造性の発揮も支援します。ペットの写真にハロウィンの衣装を合成したり、殺風景な丘をヒマワリ畑に変えたりといった、遊び心のある編集も可能です。「犬が月面でスキーをしている写真」のような非現実的な画像生成も、簡単な指示で実現できます。ビジネスにおけるクリエイティブ制作の新たな可能性が広がります。

今回のアップデートは、AIが専門家のスキルを民主化する象徴的な事例と言えるでしょう。画像編集の専門知識がないビジネスパーソンでも、高品質なビジュアルコンテンツを迅速に作成できるようになります。生産性の向上はもちろん、新たなアイデア創出のツールとして、経営者エンジニアにとっても注目すべき機能ではないでしょうか。

DirecTV、AIで「自分似」広告 26年導入へ

AIで変わるテレビ広告

自分のアバター広告に登場
AIが好みを分析し商品を推薦
アバターが着る服などを購入可
2026年からGemini端末で開始

DirecTVの収益多角化

加入者減に対応する新収益源
広告事業を強化する業界動向
将来的にはTVランチャーにも展開

米衛星放送大手DirecTVは14日、AI企業のGlanceと提携し、2026年からAIが生成するユーザーのアバターを起用した広告をスクリーンセーバーに導入すると発表しました。ユーザーは自分のアバターが登場する広告内で、衣類や家具などの商品を購入できます。DirecTVは、このパーソナライズされた「AIコマース体験」を通じて新たな収益源の確保を狙います。

この機能は、DirecTVのストリーミング端末「Gemini」で提供されます。ユーザーは専用アプリで自身の写真をアップロードするだけで、AIが自動でアバターを作成。スクリーンセーバーには、そのアバターが様々な商品とともに表示され、表示された商品に似たものを購入できるようになります。

リモコンへの音声操作で、アバターが着る服の色やスタイル変更も可能です。AIはユーザーの閲覧履歴や好みを分析して最適な商品を推薦し、広告でありながらエンターテインメント性の高い体験を提供します。

DirecTVがこの新機能に踏み切る背景には、衛星放送の加入者数減少があります。加入者数は近年大幅に減少しており、広告事業の強化による収益源の多角化が急務です。これはストリーミング業界全体の潮流でもあります。

Glanceは将来的に、スクリーンセーバーだけでなくテレビのランチャー(起動画面)などへの展開も計画しています。斬新な広告がユーザーに受け入れられるか、あるいは過度な広告として敬遠されるか、そのバランス感覚が今後の成否を分けそうです。

セールスフォース、AIエージェントで企業の課題解決へ

Agentforce 360の強み

柔軟な指示が可能なAgent Script
エージェント構築・テストツール
Slackを主要インターフェースに
音声対応で顧客体験向上

市場競争と効果

95%のAI導入失敗という課題
12,000社が導入済みと公表
GoogleAnthropicと激しく競争
対応時間を最大84%短縮

セールスフォースは10月13日、年次カンファレンス「Dreamforce」の冒頭で、新たなAIエージェントプラットフォーム「Agentforce 360」を発表しました。企業のAI導入の95%が失敗する「パイロット・パーガトリー」からの脱却を目指し、競争が激化する市場での地位確保を図ります。

新プラットフォームの目玉は、AIエージェントに柔軟な指示を出せる「Agent Script」と、エージェントの一貫した構築・テストを可能にする「Agentforce Builder」です。さらに、Slackを主要な操作インターフェースと位置づけ、業務プロセスを対話的に進める戦略です。

なぜAI導入は難しいのでしょうか。同社は、AIツールが企業のワークフローやデータから分離していることが原因と指摘。Agentforce 360は、データ、業務ロジック、対話インターフェースを統合することで、この課題の解決を目指します。

早期導入企業では既に効果が出ています。例えばRedditは、AIエージェントの導入により平均対応時間を84%短縮。OpenTableも70%の問い合わせをAIが自律的に解決したと報告しています。

企業AI市場では、GoogleAnthropicMicrosoftなども同様のエージェント機能を提供しています。セールスフォースは、AIモデル自体ではなく、自社のCRMや業務プロセスと深く統合できる点に差別化があると主張します。

同社はAgentforceを70億ドル規模の事業と位置づけています。今後の顧客導入の広がりが、AI時代におけるセールスフォースの競争力を左右する鍵となるでしょう。

マイクロソフト、自社開発画像生成AIを発表

MAI-Image-1の主な特徴

初の自社開発画像生成AI
フォトリアル画像に強み
高速画像生成を実現
LMArenaでトップ10入り

開発の背景と戦略

OpenAI依存からの脱却模索
クリエイターフィードバックを反映
安全性の確保にコミット
自社AIモデルへの投資を拡大

マイクロソフトAIが13日、初の自社開発によるテキストto画像生成モデル「MAI-Image-1」を発表しました。これは同社のAI戦略における重要な一歩であり、OpenAIへの依存低減にもつながる可能性があります。

MAI-Image-1は、クリエイティブプロフェッショナルの意見を取り入れ、画一的でない出力を目指しました。稲妻や風景などのフォトリアリスティック画像生成に優れ、処理速度も大型モデルより高速です。

このモデルは、AIモデルの性能を人間が評価するベンチマークサイト「LMArena」ですでにトップ10に入る実績を上げており、その技術力の高さが示されています。

今回の発表は、マイクロソフトOpenAIとの関係が複雑化する中、自社開発のAI能力を強化する戦略の一環です。音声生成AI「MAI-Voice-1」など、自社モデルのラインナップ拡充を進めています。

同社は安全で責任ある結果の確保にコミットしていると強調します。しかし、実際の安全性ガードレールについてはまだ評価されておらず、今後の検証が待たれるでしょう。

Google、欧州など大学生にGeminiを1年間無償提供

無償提供の概要

対象は欧州・中東・アフリカの大学生
1年間無料のAI Proプラン
12月9日までの申込が必要
18歳以上の学生が対象

利用可能な主要機能

最先端モデルGemini 2.5 Pro
調査レポート作成Deep Research
思考整理を支援NotebookLM
テキストから動画生成Veo 3

Googleは2025年10月13日、欧州・中東・アフリカ(EMEA)域内の大学生向けに、自社の最先端AIツール群「Google AI Proプラン」を1年間無償提供すると発表しました。18歳以上の学生が対象で、同年12月9日までの申込みが必要です。この取り組みは、次世代のAI人材育成と将来の労働力準備を目的としています。

無償提供されるのは、Gemini 2.5 Proへの拡張アクセスや、大規模な調査レポートを自動生成する「Deep Research」など、高度なAI機能を含むプランです。学生はこれらのツールを活用し、学業や創造的活動における生産性を大きく向上させることが可能になります。

さらに、音声動画の概要作成機能が強化された思考支援ツール「NotebookLM」や、テキスト・画像から高品質な動画を生成する「Veo 3」も利用可能です。これにより、学生は研究からプレゼンテーション準備まで、多岐にわたるタスクをAIサポートで進められます。

Googleは単なる答えの提供ではなく、理解を深め批判的思考を育むことを重視しています。そのため、質問やステップバイステップの支援で学習を導く「Guided Learning」モードも導入。複雑な数学の問題解決や論文構築などをサポートします。

学生は、最新の画像生成・編集モデル「Nano Banana」を使い、寮のデザインやクラブのロゴなど、アイデアを視覚的に具体化することもできます。創造性を刺激し、プロジェクトの初期段階を迅速に進めるツールとして活用が期待されます。

この施策は、教育者向けの「Gemini for Education」の拡充とも連動しています。Googleは世界中の大学と協力し、AIリテラシーの向上と個別化された学習支援の実現を目指していて、未来の担い手への投資を強化しています。

AIアプリ基盤戦争、AppleがSiri刷新で反撃

挑戦者OpenAIの戦略

ChatGPT内で直接アプリ実行
旅行予約やプレイリスト作成
アプリストア陳腐化を狙う野心

王者Appleの対抗策

AIでSiriを大規模刷新
音声でアプリをシームレスに操作
開発者向けの新フレームワーク

Appleが持つ優位性

15億人の巨大な利用者基盤
ハードとOSの垂直統合エコシステム

OpenAIが、対話AI「ChatGPT」内で直接アプリを実行できる新機能を発表し、Appleが築いたアプリ市場の牙城に挑んでいます。これに対しAppleは、AIで大幅に刷新した音声アシスタントSiri」と新しい開発フレームワークで迎え撃つ構えです。AI時代のアプリ利用体験の主導権を巡り、巨大テック企業間の覇権争いが新たな局面を迎えています。

OpenAIが打ち出したのは、ChatGPTの対話画面から離れることなく、旅行の予約や音楽プレイリストの作成などを完結できる「アプリプラットフォーム」です。一部では、これがAppleApp Storeを時代遅れにする未来の標準になるとの声も上がっており、アプリ業界の勢力図を塗り替える可能性を秘めています。

一方、Appleは「アプリアイコンをなくし、アプリ自体は生かす」というビジョンを掲げています。AIで賢くなったSiriに話しかけるだけで、複数のアプリ機能をシームレスに連携させ、操作を完了させることを目指します。これは、従来のタップ中心の操作からの脱却を意味し、より直感的なユーザー体験の実現を狙うものです。

この競争において、Appleは圧倒的な強みを持ちます。世界で約15億人ともいわれるiPhoneユーザー基盤に加え、ハードウェア、OS、App Storeを自社で一貫して管理する強力なエコシステムです。ユーザーは既に使い慣れたアプリを所有しており、この牙城を崩すのは容易ではありません。

OpenAIのプラットフォームにも課題はあります。ユーザーはChatGPTのチャット形式のインターフェースに慣れる必要があり、アプリ利用には初回認証の手間もかかります。また、一度に一つのアプリしか操作できない制約や、アプリ独自のブランド体験が失われる点も指摘されています。

もちろんAppleも安泰ではありません。Siriはこれまで性能の低さで評判を落としており、汚名返上が不可欠です。しかし、開発者向けに提供される新しいフレームワーク「App Intents」により、既存アプリも比較的容易にAI機能に対応できる見込みで、巻き返しの準備は着々と進んでいます。

OpenAIは独自のハードウェア開発も模索していますが、今のところスマートフォンを超える体験は提示できていません。当面は、Appleが築いたプラットフォーム上で競争が続くとみられます。AppleSiriの刷新を成功させれば、AI時代のアプリ覇権を維持する可能性は十分にあるでしょう。

Pixel Watch 4登場、AI搭載と修理しやすさで進化

利便性を高める新機能

交換可能なバッテリーとディスプレイ
緊急時の衛星通信にも対応
高速な磁気式充電ドック

デザインと体験の向上

最大3000ニトの高輝度ディスプレイ
好みに合わせるカラーテーマ機能
水泳など50種の運動を自動検出
腕を上げるだけで起動する音声操作

Googleが2025年10月10日、新型スマートウォッチ「Pixel Watch 4」を発表しました。最大の特徴は、AIアシスタントGemini」の統合と、ユーザー自身で交換可能なバッテリーおよびディスプレイです。緊急時の衛星通信機能も新たに搭載し、利便性と安全性を大幅に向上。デザインの刷新とヘルスケア機能の強化も図り、スマートウォッチ市場での競争力を高めます。

ビジネスパーソンにとって注目すべきは、手首から直接AI「Geminiを利用できる点でしょう。スマートフォンを取り出すことなく、腕を上げるだけで天気予報の確認やタイマー設定が可能になる「raise-to-talk」機能を搭載。会議中や移動中など、両手がふさがりがちな状況でも、スマートに情報を引き出し、タスクをこなせます。

Pixel Watch 4は、バッテリーとディスプレイを交換可能にすることで、製品寿命の長期化を実現しました。これは「修理する権利」への配慮であり、サステナビリティを重視する現代の消費者ニーズに応える動きです。デバイスを長く愛用できることは、結果的にコストパフォーマンスの向上にも繋がります。

ディスプレイは、屋外での視認性が劇的に改善されました。周囲の明るさに応じて輝度を自動調整し、最大3000ニトの明るさを実現。サングラスをかけていても、ランニングのペースや通知をはっきりと確認できます。また、好みの配色を選べるカラーテーマ機能により、自分だけのスタイルを表現することも可能です。

新開発の磁気式充電ドックは、利便性を大きく高めています。ウォッチを置くだけで定位置に吸着し、充電中は時刻を表示するナイトスタンドモードとしても機能。わずか15分の充電で朝のランニングに必要な電力を確保できる急速充電も魅力です。41mmモデルで最大30時間のバッテリー持続時間を誇ります。

フィットネス機能も進化しました。ランニングやウォーキングなどのアクティビティを自動で検出し記録する機能や、水泳中に自動で画面をロックする機能を搭載。プールでの指標もカスタマイズでき、より詳細なデータ管理が可能になりました。ピクルボールを含む50種類以上のエクササイズに対応し、多様なワークアウトをサポートします。

AIプレゼンPrezent、3000万ドル調達で企業買収加速

資金調達と企業価値

3000万ドル(約45億円)の資金調達
企業価値は4億ドルに到達
資金使途はAIサービス企業の買収

買収戦略と事業展開

創業者の別会社Prezentiumを買収
ライフサイエンス業界の顧客基盤獲得
大企業向けに特化した戦略を推進

独自の導入支援と展望

「プレゼン・エンジニア」による導入支援
パーソナライズ機能やアバター追加を計画

AIプレゼンテーション作成ツールを提供するPrezent(本社:カリフォルニア州)は、3,000万ドル(約45億円)の資金調達を発表しました。この資金は主にAIサービス企業の買収に充てられます。第一弾として、創業者ラジャット・ミシュラ氏が共同設立したライフサイエンス分野のプレゼンサービス企業Prezentiumを買収。AIツールと専門サービスを融合させ、事業拡大を加速させる狙いです。

今回の資金調達はMultiplier Capital、Greycroft、野村ストラテジック・ベンチャーズが主導しました。これにより、Prezentの企業価値は4億ドルに達し、累計調達額は7,400万ドルを超えました。多くのAIスタートアップが自社開発に資金を投じる中、PrezentはM&A;(合併・買収を成長戦略の核に据えるという明確な方針を打ち出しています。

最初の買収対象となったPrezentiumは、創業者ミシュラ氏が非業務執行役員を務める企業です。この買収により、両社は一つ屋根の下に統合されます。Prezentは、Prezentiumが持つライフサイエンス業界の強固な顧客基盤を活用し、自社のAIツールをより多くの企業に提供することが可能になります。

多くの競合が個人や中小企業をターゲットにする中、Prezentは大企業に特化する戦略で差別化を図ります。現在は特にライフサイエンスとテクノロジー業界に注力。各業界特有のニーズに対応したAIモデルをトレーニングすることで、質の高いビジネスコミュニケーションツールを提供することを目指しています。

Prezentのユニークな点は、顧客企業内に「プレゼンテーションエンジニア」を配置する支援体制です。AIは多くのことを自動化できますが、人にAIの使い方を教えることはできません。専門家が常駐することで、AIツールの導入から定着までを円滑に進め、顧客の生産性向上を直接支援します。

今後、Prezentは製品機能の強化も進めます。個人のプレゼン様式を学習するパーソナライゼーション機能や、音声動画からスライドを生成するマルチモーダル機能、さらにはデジタルアバターの導入も計画しています。M&A;戦略も継続し、コミュニケーション分野のコンサルティング企業などを次の買収ターゲットとしています。

Zendesk、音声AIやIT資産管理でサービス基盤を刷新

AIでサービス体験を革新

自律型AIによる複雑な問題の即時解決
顧客・従業員・コンタクトセンターを統合支援
OpenAIの最新LLM、GPT-5などを活用

主な新機能

自然な対話が可能な音声AIエージェント
IT資産を統合管理するITAM機能
管理者支援AICopilotの搭載

独自のビジネスモデル

解決成功時のみ課金する新料金体系
二重の品質チェックで解決の質を保証

顧客サービスプラットフォーム大手のZendeskは、AIサミットで同社のサービス基盤「Resolution Platform」のAI機能を大幅に強化したと発表しました。音声AIエージェントやIT資産管理(ITAM)などを新たに搭載。最新の大規模言語モデル(LLM)を活用し、顧客および従業員サービスの問題解決を自動化・高度化します。

新機能の目玉は、自律型AIエージェントの適用範囲拡大です。従来のチャットやメールに加え、新たに音声での問い合わせにも完全対応。ビデオ通話や画面共有機能も追加され、より複雑で個別性の高いサポートをリモートで提供できるようになりました。これにより顧客体験は大きく向上するでしょう。

管理者やIT部門向けの支援機能も充実させました。管理者向けAI「Admin Copilot」は、運用上の問題を自動で検知し、平易な言葉で修正案を提示。また、新機能のIT資産管理(ITAM)は、従業員が使用するデバイス情報をサービスチケットと連携させ、迅速なトラブルシューティングを可能にします。

外部ナレッジとの連携も強化。「Knowledge Connectors」により、SharePointなどの外部情報を移行せずに直接参照可能になりました。また「Knowledge Builder」は、顧客との対話履歴を分析し、ヘルプ記事を自動生成。組織全体のナレッジ活用を促進します。

Zendeskは独自の課金モデルも打ち出しています。それは、AIが問題を解決し、顧客が満足した場合にのみ料金が発生する「成功報酬型」。業界最長の検証期間と二重の品質チェックを組み合わせることで、解決の質を担保。これにより、企業は投資対効果を最大化できると強調しています。

YouTube、新AIレポートで広告とUGCの効果を統合分析

新レポート「ブランドパルス」

有料・無料コンテンツを統合分析
広告ROIの最大化を支援
Googleの最新AIがデータを解析

AIが捉える真の価値

映像・音声からブランド言及を検出
広告からオーガニック動画への送客効果
ブランド検索への影響も可視化

データドリブンな戦略立案

人気UGCをパートナーシップ広告
新たなコンテンツ戦略に活用

Google傘下のYouTubeは2025年10月9日、企業がプラットフォーム上でのブランド価値を統合的に測定できる新機能「ブランドパルスレポート」を発表しました。Googleの最新AIを活用し、有料広告とオーガニックコンテンツ双方の影響を可視化。これにより、企業は広告費用対効果(ROAS)を最大化し、より効果的なマーケティング戦略を立案できるようになります。

このレポートの最大の特徴は、GoogleのマルチモーダルAIを駆使している点です。映像内のロゴや商品、音声やタイトルに含まれるブランド名までを自動検出。これまで捕捉が難しかったクリエイター動画内での間接的なブランド露出もデータとして捉えることが可能になりました。

レポートでは新たな価値指標を提供します。特に、有料広告がユーザー投稿動画(UGC)などオーガニックコンテンツの視聴をどれだけ促進したかという相乗効果は注目点です。広告視聴後のブランド検索への影響も分析でき、投資の真の効果を多角的に把握できます。

企業はこのレポートから得られる知見を、具体的なアクションに繋げられます。例えば、人気のオーガニック動画を「パートナーシップ広告」として活用し、さらに多くのユーザーにリーチできます。また、オーディエンスの反応を分析し、次なるコンテンツ戦略をデータドリブンで立案することも可能です。

ブランドパルスレポート」は現在、一部の広告主を対象に提供が開始されています。YouTubeは今後数ヶ月以内にさらなる詳細を発表する予定です。このツールは外部パートナーとの協力のもとで開発されており、現場のニーズを反映した実用的な機能が期待されます。

Google、家庭向けGemini発表 AIでスマートホーム進化

AIで家庭がより直感的に

曖昧な指示での楽曲検索
声だけで安全設定を自動化
より人間的な対話を実現
複雑な設定が不要に

4つの主要アップデート

全デバイスにGeminiを搭載
刷新されたGoogle Homeアプリ
新サブスクHome Premium
新型スピーカーなど新ハード

Googleが、同社のスマートホーム製品群に大規模言語モデル「Gemini」を統合する「Gemini for Home」を発表しました。これにより、既存のGoogle HomeデバイスがAIによって大幅に進化し、利用者はより人間的で直感的な対話を通じて、家庭内のデバイスを操作できるようになります。今回の発表は、スマートホームの未来像を提示するものです。

Geminiは、利用者の曖昧な指示や感情的な要望を理解する能力が特徴です。例えば、曲名を知らなくても「あのキラキラした曲をかけて」と頼んだり、「もっと安全に感じたい」と話しかけるだけでセキュリティ設定の自動化を提案したりします。これにより、テクノロジーがより生活に溶け込む体験が実現します。

今回の発表には4つの柱があります。第一に、既存デバイスへのGemini for Homeの提供。第二に、全面的に再設計されたGoogle Homeアプリ。第三に、高度なAI機能を提供する新サブスクリプションGoogle Home Premium」。そして最後に、新しいGoogle Homeスピーカーを含む新ハードウェア群です。

これらのアップデートは、Googleのスマートホーム戦略が新たな段階に入ったことを示唆しています。AIを中核に据えることで、単なる音声アシスタントから、生活を能動的に支援するパートナーへと進化させる狙いです。経営者エンジニアにとって、AIが物理的な空間とどう融合していくかを考える上で重要な事例となるでしょう。

Zendesk、自律型AIで顧客対応の8割を自動化へ

顧客サポート変革の核

中核は自律型サポートAI
人間介入なしで80%の課題解決を目標
残る20%はコパイロットが技術者を補佐
音声、管理層、分析エージェントも投入

導入効果と戦略的背景

先行導入でCSATが5〜10ポイント改善
AIによる作業自動化への産業シフト
ベンチマークで高い問題解決能力を実証
積極的なAI企業買収が基盤(Hyperarcなど)

カスタマーサポート大手Zendeskは、このほどAIサミットにて、LLMを活用した自律型の新しいエージェントシステムを発表しました。中核となる「自律型サポートエージェント」は、人間の介入なしに顧客サポート問題の80%を解決することを目指します。これは、年間46億枚のチケットを処理するZendeskのプラットフォームにおいて、カスタマーサポートのあり方を根底から覆す可能性を秘めています。

新システムは、課題解決率80%を担う「自律型エージェント」と、残りの複雑な20%の課題処理を人間の技術者を支援する「コパイロットエージェント」を中心に構成されています。さらに、管理層エージェント音声ベースエージェント、分析エージェントなどが連携し、包括的なAI駆動型サポート体制を構築する設計です。

同社製品部門のプレジデントは、この動きを「AIが作業の大部分を行うシステムへの世界的なシフト」の一環であると位置づけています。従来の人間向けに設計されたソフトウェアから、AIが主役となるサポート体制へ移行することで、サポート業界全体の生産性と収益性の劇的な向上を図る狙いです。

AIによる80%解決という目標は、非現実的ではありません。ツールの呼び出し能力を測る独立系ベンチマーク「TAU-bench」では、現在トップモデルが85%の問題を解決しています。また、既存顧客での先行導入の結果、顧客満足度(CSAT)が5〜10ポイント向上しており、実用性も証明されています。

この大規模なAIシフトを支えるのが、Zendeskが積極的におこなってきたAI関連企業の買収です。2024年以降、QAおよびエージェントサービスシステムのKlaus、自動化プラットフォームのUltimate、そして分析エージェントの基盤となるHyperarcなどを相次いで取得し、技術的な基盤を強化してきました。

このAI技術が広く普及すれば、経済的なインパクトは計り知れません。米国だけでも240万人のカスタマーサービス担当者がいますが、情報検索に留まらず、複雑なトラブルシューティングや自律行動をAIが担うことで、人件費削減とサービス品質向上を両立させることが可能になります。経営者は、この変化を早期に取り込むべきでしょう。

Google、対話型AI検索「Search Live」をインド展開

インド市場での拡大

AI検索機能「Search Live」をインドで提供開始米国に次ぐ2例目)
英語とヒンディー語に対応し展開
AI Modeが7つのインド現地語を追加サポート
対象言語はベンガル語、タミル語など計7言語

機能と戦略的狙い

リアルタイム支援の会話型検索を実現
カメラで写した視覚情報を用いたマルチモーダル検索
インド早期AI採用をトレーニングに活用
Search Liveの基盤技術はカスタム版Gemini

Googleは、AIを搭載した会話型検索機能「Search Live」をインドで提供開始しました。これは、米国に次いで2番目の市場展開となります。同時に、AI Modeもインドの現地語7言語に拡大対応。同国はGoogleにとって最速で成長する市場の一つであり、AI機能を強化することで、巨大なユーザー層の獲得を目指します。

Search Liveは、Geminiをカスタム化したAIモデルとProject Astra技術に基づいています。ユーザーはスマートフォンのカメラを向けた物体に対し、リアルタイムで質問し、双方向の会話を通じて支援を得られます。視覚的なコンテキストを利用するマルチモーダル検索であり、ユーザー体験を大きく変えるものです。

Googleのプロダクト担当副社長は、インドの人々を「マルチモーダル検索のパワーユーザー」と表現し、音声および視覚検索において世界最大のユーザー基盤だと強調しています。この高いAI採用意欲が、インド米国に次ぐ Search Live の導入市場となった論理的な理由です。

今回のインド展開には、同国の早期AI採用層を活かし、広範な視覚的コンテキストでシステムを訓練するという戦略的狙いがあります。多様な環境や言語から得られるデータは、Search Liveの能力を時間とともに向上させ、グローバル展開の精度を高める基盤となります。

また、AI Modeはベンガル語、タミル語、ウルドゥー語など新たに7つのインド現地語に対応しました。これは、世界200以上の国と地域、35以上の新言語へのグローバル拡大の一環です。カスタムGeminiモデルが現地言語の微妙なニュアンスを正確に把握できるとしています。

Google AI、コア製品を劇的進化 9月のChrome/Search/Gemini刷新まとめ

コア製品のAI統合

ChromeGeminiブラウジングアシスタント搭載
Searchにリアルタイム視覚検索(Search Live)導入
複雑な多段階質問に対応するAIモードの拡充
Android Gboardにトーン修正・文法校正AI

Geminiと次世代技術

カスタムAI「Gems」の共有機能でコラボを促進
Nano Bananaによる高度な画像生成・編集機能

Googleは2025年9月、AI技術を中核製品全体に深く統合し、利用者体験の劇的な向上を発表しました。これはChrome、Search、Geminiアプリといった主要サービスに留まらず、教育分野や次世代ロボティクスまで多岐にわたります。特に、生産性向上に直結する機能が多数リリースされており、AIを使いこなしたい経営者エンジニア層にとって見逃せないアップデートです。

ウェブブラウザと検索機能は、AIアシスタント化を加速させています。ChromeではGeminiがブラウジングアシスタントとして機能し、開いているタブ全体を横断して質問に回答可能です。また、SearchのAIモードは、複雑な多段階質問に対応するだけでなく、日本語を含む多言語対応を拡大し、グローバルでの利用を促進しています。

特に画期的なのは、Search Liveの導入です。これは、リアルタイムの音声会話にスマートフォンのカメラフィードを共有する機能を組み合わせ、現実世界の課題解決をリアルタイムで支援します。また、AndroidのGboardにはAIライティングツールが追加され、トーンの修正やスペル・文法の校正が端末内で自動で行えるようになり、モバイル生産性が向上しました。

GeminiアプリはAI活用ハブとしての地位を固めています。特に、特定の目的に合わせてカスタマイズしたAIモデル「Gems」の共有機能が追加され、チーム内での共同作業や情報共有が容易になりました。さらに、DeepMind開発の画像生成・編集モデル「Nano Banana」の活用が広がり、クリエイティブな作業の可能性を広げています。

学習領域では、AIが個々のユーザーに最適化された学習を実現します。NotebookLMは、利用者のメモに基づきフラッシュカードやクイズを自動生成し、パーソナライズされた学習ガイドを提供します。スンダー・ピチャイCEOはAI教育への10億ドルのコミットメントを強調し、「Gemini for Education」を全米の高校に提供すると発表しました。

長期的な視点では、Google DeepMindが「物理エージェント」の時代を宣言し、ロボティクスモデルを強化しました。Gemini Robotics 1.5/ER 1.5は、ロボットが環境を認識し、推論し、複雑なマルチステップタスクを処理する能力を飛躍的に高めます。また、Gemini 2.5が国際プログラミングコンテストで金メダル級の成績を収め、その推論能力を証明しています。

Google、スマートホーム戦略を抜本改革:AI「Gemini」で家庭内体験を一新

停滞打破とAI戦略

Googleスマートホームの再活性化が急務
Geminiを中核とするAI戦略を推進
現行AI技術で家庭内体験を変革

Geminiの変革力

ユーザーとの自然な対話を重視
次世代スマートホームの実現を目指す
Google製品責任者が戦略を直接説明

事業戦略の焦点

ハードウェアプラットフォームの役割を議論
理想のスマートホーム実現にはまだ課題

Googleは、フラッグシップAIモデルであるGemini」を中核に据え、スマートホームプラットフォームの抜本的な再構築に乗り出しています。これまでGoogle HomeやNest製品は競合に後れを取り停滞気味でしたが、同社はこの現状を打破し、AIによって家庭内体験を根本から変革できると確信しています。製品責任者への取材を通じ、次世代スマートホーム戦略の全容が明らかになりました。

同社は、長年にわたり製品を開発しつつも、途中で戦略を放棄してきた歴史があるとの批判にさらされてきました。スマートホームもその一つと見なされがちでしたが、Googleは依然としてこの分野にコミットしています。特に、現在のAI技術が家庭内でのデバイスとの相互作用を劇的に変化させると強調しており、Geminiはその実現の鍵を握ります。

Geminiの導入は、従来の音声アシスタントの限界を超え、より文脈を理解した自然な操作を可能にすると期待されます。AIがユーザーの行動や意図を学習し、自宅にあるあらゆる機器との連携を最適化する狙いです。これにより、ユーザーはよりシームレスで直感的なスマートホーム体験を得られるようになります。

戦略上の重要な論点として、Googleが単なるハードウェアメーカーに留まるのか、それともオープンなプラットフォーム提供者として業界全体を牽引するのかが議論されています。製品責任者は、Geminiを活用することで、どちらの立場であってもスマートホーム全体を向上させられると見ています。この戦略の明確化は、提携企業やデベロッパーにも大きな影響を与えます。

Googleは、Geminiによる変革を確信する一方で、我々が理想とする真にインテリジェントなスマートホームの実現にはまだ道のりがあることを認めています。AIを活用した新しいGoogle Homeスピーカーなどの具体的な製品投入に加え、プラットフォームとしての進化を継続し、市場価値と生産性を高めるコネクテッドホームの実現を目指しています。

OpenAI、開発者向けAPIを大幅強化:GPT-5 ProとSora 2提供開始

フラッグシップモデルの進化

GPT-5 ProをAPI経由で提供開始
金融、法律など高精度な推論を要求する業界向け
動画生成モデルSora 2のAPIプレビュー公開
リアルなシーンと同期したサウンドの生成

低遅延音声AIの普及戦略

小型で安価な音声モデルgpt-realtime miniを導入
低遅延ストリーミングによる高速な音声対話を実現
旧モデル比でコストを70%削減し低価格化

OpenAIは先日のDev Dayにおいて、開発者向けAPIの大規模な機能強化を発表しました。特に注目すべきは、最新の言語モデル「GPT-5 Pro」、動画生成モデル「Sora 2」のAPIプレビュー公開、そして小型かつ安価な音声モデル「gpt-realtime mini」の導入です。これはAIエコシステムへの開発者誘致を加速させ、高精度なAI活用を目指す企業に新たな機会を提供します。

最新のフラッグシップモデルであるGPT-5 Proは、高い精度と深い推論能力を特徴としています。CEOのサム・アルトマン氏は、このモデルが金融、法律、医療といった、特に正確性が要求される業界のアプリケーション開発に有効だと強調しました。これにより、複雑な専門的タスクの自動化と品質向上が期待されます。

また、大きな話題を呼んだ動画生成モデルSora 2も、開発者エコシステム参加者向けにAPIプレビューが開始されました。開発者Sora 2の驚異的な動画出力能力を自身のアプリケーションに直接組み込めます。より現実的で物理的に一貫したシーン、詳細なカメラディレクション、そして視覚と同期した豊かなサウンドスケープの生成が可能です。

さらに、今後のAIとの主要な対話手段として重要視される音声機能強化のため、新モデル「gpt-realtime mini」が導入されました。このモデルは、APIを通じて低遅延のストリーミング対話に対応しており、応答速度が極めて重要なアプリケーション開発を可能にします。

gpt-realtime miniの最大の特徴は、そのコストパフォーマンスの高さです。従来の高度な音声モデルと同等の品質と表現力を維持しながら、利用コストを約70%も削減することに成功しました。この大幅な低価格化は、音声AI機能の普及を加速させ、より多くの企業が手軽にAIを活用できる環境を整えます。

OpenAIとIve氏のAIデバイス、技術・設計課題で開発難航

開発難航の主要因

デバイスの振る舞い(人格)が未解決
適切な会話開始・終了の制御
常時オンによるプライバシー懸念
コンピューティングインフラの課題

目標とするデバイス像

手のひらサイズの小型設計
物理的なスクリーンレス
オーディオ・ビジュアルを認識
ユーザー要求への応答機能

OpenAIと伝説的なAppleデザイナーであるJony Ive氏が共同で進めるスクリーンレスAIデバイスの開発が、技術的および設計上の課題に直面し、難航していることが報じられました。両社は2025年5月にIve氏が設立したio社を65億ドルで買収し、2026年の発売を目指していましたが、未解決の課題によりスケジュール遅延の可能性があります。このデバイスは、次世代のAIを活用したコンピューティングを実現すると期待されています。

開発の主要な障害となっているのは、デバイスの「人格(Personality)」設定と、UXデザインに関する課題です。特に、物理環境からの音声や視覚情報を常に取り込む「常時オン」アプローチを採用しているため、プライバシー保護の枠組み構築が急務となっています。さらに、根本的なコンピューティングインフラの課題も解決が待たれています。

Ive氏とOpenAIが目指すのは、手のひらサイズのスクリーンレスデバイスです。周囲の情報を常に把握するからこそ、いつユーザーの発言に応答し、いつ会話を終えるかという、極めて繊細な会話制御が求められます。

情報源によると、チームは「本当に有用な時だけ発言する」という理想の実現に苦慮しており、従来のデバイスとは異なる根本的なAI UX設計の難しさが浮き彫りになっています。AIが人間に寄り添う新しいコンピューティングの形を模索する上で、こうした設計上の試行錯誤が不可避であることが示されています。

iOS 26、オンデバイスAIでアプリ体験を刷新

オンデバイスAIの利点

推論コスト不要でAI機能実装
プライバシーに配慮した設計
ネット接続不要のオフライン動作

主な活用パターン

テキストの要約・生成・分類
ユーザー入力に基づく自動提案機能
音声からのタスク分解・文字起こし
パーソナライズされた助言・フィードバック

Appleが2025年の世界開発者会議(WWDC)で発表した「Foundation Models framework」が、最新OS「iOS 26」の公開に伴い、サードパーティ製アプリへの実装が本格化しています。開発者は、デバイス上で動作するこのローカルAIモデルを利用し、推論コストをかけずにアプリの機能を向上させることが可能です。これにより、ユーザーのプライバシーを保護しながら、より便利な体験を提供できるようになりました。

AppleのローカルAIモデルは、OpenAIなどの大規模言語モデルと比較すると小規模です。そのため、アプリの根幹を覆すような劇的な変化ではなく、日常的な使い勝手を向上させる「生活の質(QoL)」の改善が主な役割となります。推論コストが不要でオフラインでも動作する点が、開発者にとって大きな利点と言えるでしょう。

具体的な活用例として、生産性向上機能が挙げられます。タスク管理アプリ「Tasks」では音声からタスクを自動分割し、日記アプリ「Day One」はエントリーの要約やタイトルを提案します。また、レシピアプリ「Crouton」では、長文から調理手順を自動で抽出するなど、手作業を削減する機能が実装されています。

学習や創造性の分野でも活用が進んでいます。単語学習アプリ「LookUp」は、AIが単語の例文を生成し、学習をサポートします。子供向けアプリ「Lil Artist」では、キャラクターとテーマを選ぶだけでAIが物語を生成。ユーザーの創造性を刺激する新たな体験を提供しています。

個人の趣味や健康管理といった専門分野でも応用は多彩です。フィットネスアプリ「SmartGym」はワークアウトの要約を生成し、テニス練習アプリ「SwingVision」は動画から具体的なフォーム改善案を提示します。このように、AIがパーソナライズされた助言を行う事例が増えています。

今回の動きは、AI機能の導入がより身近になることを示唆しています。開発者は、サーバーコストやプライバシー問題を気にすることなく、高度な機能をアプリに組み込めるようになりました。iOS 26を皮切りに、オンデバイスAIを活用したアプリのイノベーションは、今後さらに加速していくとみられます。

韓国Wrtn、GPT-5活用で利用者650万人超

成功の鍵は徹底した現地化

ペルソナに基づくプロンプト設計
韓国語の俗語や言い回しに対応
キャラクターチャットで利用拡大

新モデル即応の巧みな設計

軽量・高性能モデルを使い分けるルーター
新モデルへのシームレスな移行を実現
GPT-5導入でDAUが1週間で8%増
音声モデルで新たな利用機会を創出

韓国のAIスタートアップWrtn(リーテン)」が、OpenAIの最新モデル「GPT-5」をいち早く導入し、月間アクティブユーザー650万人超のライフスタイルAIアプリへと急成長を遂げています。成功の背景には、韓国語の俗語まで対応した徹底的なローカライゼーションと、新旧モデルを使い分ける巧みなシステム設計がありました。AIを誰もが使える創造と探求のツールにする同社の戦略に注目が集まります。

Wrtnは当初、文章作成支援などの生産性向上ツールを提供していました。しかし、より大きな市場機会を「ライフスタイルAI」に見出します。カカオトークのようなキャラクター文化が根付く韓国市場の特性を捉え、誰もが親しみやすく、創造性を刺激するAIアシスタントへと舵を切ったのです。この戦略転換が、ユーザー層を学生から社会人、家族へと広げる原動力となりました。

成功の鍵は、徹底したローカライゼーションです。初期のAIは翻訳調の不自然な韓国語しか生成できませんでした。しかしGPT-4以降のモデル進化に合わせ、俗語やユーモアを交えた自然な対話を実現。ペルソナに基づいたプロンプト設計や応答の微調整を重ねることで、ユーザーに寄り添う「人間らしい」AIを創り上げました。

技術面では、タスクに応じてモデルを使い分ける「ルーターアーキテクチャ」が競争力の源泉です。簡単な応答は軽量なGPT-4o mini、専門的な相談や家庭教師役は高性能なGPT-4.1といった具合に振り分けることで、コストを最適化しつつ高いパフォーマンスを維持。この柔軟な設計が、迅速なサービス改善を可能にしています。

Wrtnの強みは、OpenAIの最新モデルへの迅速な対応力にも表れています。GPT-5がリリースされた当日には自社サービスへ統合。その結果、わずか1週間で日間アクティブユーザー(DAU)が8%増加しました。指示への追従性や文脈理解が向上し、ユーザー体験の向上と利用時間の増加に直結したのです。

韓国市場で確固たる地位を築いたWrtnは、次なる舞台として東アジア市場を見据えています。同社が韓国で培ったローカライゼーションのノウハウは、日本市場にも応用可能だと分析しています。生産性向上ツールからライフスタイルAIへと進化した同社の挑戦は、国境を越えて多くのユーザーの日常を変える可能性を秘めています。

Pixel 10、AIが不在着信を文字起こし・要約

新AI機能「Take a Message」

不在着信・拒否通話のスマートな処理
会話型AIによるリアルタイム文字起こし
通話後のAIによるアクション提案

2つの人気機能を統合

通話スクリーニングのスパム検出活用
通話メモの要約・ネクストステップ生成

高度なオンデバイスAI

プライバシーに配慮した端末内処理
最新のPixel 10シリーズに搭載

Googleは2025年10月2日、最新スマートフォン「Pixel 10」シリーズ向けに、新たなAI通話支援機能「Take a Message」を発表しました。この機能は、不在着信や応答を拒否した通話の内容をAIがリアルタイムで文字起こしし、通話後には次のアクションを提案するものです。多忙なビジネスパーソンが重要な連絡を逃さず、効率的に対応できるよう支援することを目的としています。

「Take a Message」の最大の特徴は、Google高度な会話型AIを駆使している点です。相手が残したボイスメッセージをリアルタイムで画面にテキスト表示するため、音声を聞けない状況でも内容を即座に確認できます。これにより、会議中や移動中でも重要な用件を逃す心配がありません。

さらに、通話が終了するとAIがメッセージ内容を分析し、要約と推奨される次のアクションを自動生成します。「明日15時に折り返し電話」といった具体的なタスクを提示し、迅速な対応を支援。これは既存の人気機能「Call Notes」の進化形と言えます。

この新機能は、既存の「Call Screen」と「Call Notes」の長所を統合したものです。迷惑電話をブロックする強力なスパム検出機能も継承し、安全性と利便性を両立。処理はすべて端末内で完結するオンデバイスAIのため、プライバシーの観点でも安心できます。

「Take a Message」は、まず最新の「Pixel 10」シリーズで利用可能となります。Googleは、AIを用いてスマートフォンの原点である「通話」体験の再発明を目指しています。今回の新機能は、AIが日常業務を効率化する可能性を示す好例と言えるでしょう。

OpenAI、音声付き動画AI発表 ディープフェイクアプリも

Sora 2の進化点

映像と同期する音声の生成
対話や効果音もリアルに再現
物理法則のシミュレーション精度向上
複雑な指示への忠実性が大幅アップ

ディープフェイクアプリ

TikTok風のSNSアプリを同時公開
自身の「カメオ」ディープフェイク作成
公開範囲は4段階で設定可能
誤情報や著作権侵害への懸念が噴出

OpenAIが10月1日、動画生成AIの次世代モデル「Sora 2」と、TikTok風のSNSアプリ「Sora」を同時公開しました。Sora 2は映像と同期した音声生成が可能となり、専門家からは「動画生成におけるChatGPTの瞬間」との声も上がっています。しかし、自身の分身(カメオ)を手軽に作成できる機能は、ディープフェイクによる誤情報拡散のリスクをはらんでおり、社会的な議論を呼んでいます。

Sora 2」の最大の進化点は、音声との同期です。これまでのモデルと異なり、人物の対話や背景の環境音、効果音などを映像に合わせて違和感なく生成できます。さらに、物理法則のシミュレーション精度も向上しており、より現実に近い、複雑な動きの再現が可能になりました。

同時に発表されたiOSアプリ「Sora」は、AI生成動画を共有するSNSです。最大の特徴は「カメオ」機能。ユーザーが自身の顔をスキャンして登録すると、テキスト指示だけで本人そっくりの動画を作成できます。友人や一般への公開範囲も設定可能です。

この新技術はエンターテイメントやコミュニケーションの新たな形を提示する一方、深刻なリスクも内包しています。特に、リアルなディープフェイクを誰でも簡単に作れる環境は、悪意ある偽情報の拡散や、いじめ、詐欺などに悪用される危険性が専門家から指摘されています。

著作権の問題も浮上しています。報道によると、Sora著作権者がオプトアウト(拒否)しない限り、そのコンテンツを学習データに利用する方針です。アプリ内では既に人気キャラクターの無断使用も見られます。OpenAIは電子透かし等の対策を講じますが、実効性には疑問の声が上がっています。

Sora 2」とSoraアプリの登場は、動画生成AIが新たなステージに入ったことを示しています。利便性と創造性を飛躍的に高める一方で、倫理的・社会的な課題への対応が急務です。経営者開発者は、この技術の可能性とリスクの両面を深く理解し、慎重に活用戦略を検討する必要があるでしょう。

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保
サブスクリプション費用が不要
RTX GPU推論を高速化
高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始
多機能なLM Studioでモデルを試用
AnythingLLMで独自AIを構築
これらツールのパフォーマンス向上を実現

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル(LLM)をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAはOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIgpt-oss-20BモデルやGoogleのGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者エンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

Meta、AIとの会話データを広告に活用へ

AIデータ活用の新方針

AIとの会話内容を広告に利用
12月16日からポリシー改定
ユーザーによる拒否は不可

対象となるデータとサービス

チャットボットとの会話履歴
FacebookInstagramで反映

プライバシーへの配慮と例外

EU・英国韓国適用除外
センシティブな話題は利用対象外

Metaは、傘下のAIアシスタントとの会話データをターゲティング広告に利用する方針を明らかにしました。2025年12月16日からプライバシーポリシーを改定し、FacebookInstagramのユーザーに対し、よりパーソナライズされた広告コンテンツを提供します。この動きは、巨大IT企業によるAI製品の収益化競争が新たな段階に入ったことを示唆しています。

具体的には、ユーザーがMeta AIと「ハイキング」について話した場合、ハイキング用品の広告が表示されるようになります。このデータ活用はチャットボットとの会話だけでなく、Ray-Ban MetaスマートグラスでAIが分析した音声画像データ、AI画像生成ツール「Imagine」での操作なども対象となり、ユーザーの行動が多角的に分析されます。

ユーザーにとって重要なのは、このデータ利用を拒否(オプトアウト)できない点です。Metaの各種サービスで同一アカウントにログインしている場合、例えばWhatsAppでのAIとの会話がInstagram広告に影響を与える可能性があります。ユーザーに許されているのは、既存の広告設定メニューから表示される広告の好みを調整することのみです。

プライバシーへの配慮として、Metaは宗教的信条や政治的見解、健康状態といったセンシティブな情報に関する会話は広告に利用しないと説明しています。また、欧州連合(EU)、英国韓国では、現地の厳格なプライバシー規制のため、この新方針は当面適用されません。

Metaの狙いは明確です。中核事業である広告ビジネスを、AIから得られる新たなデータで強化することにあります。月間10億人以上が利用するMeta AIは、ユーザーの興味関心を深く知るための新たな情報の宝庫です。これまで無料で提供してきたAI製品を、広告という収益の柱に直結させる戦略です。

AI製品の収益化は業界全体の課題です。OpenAIChatGPT内での商品購入機能を発表し、GoogleがAI検索への広告導入を計画するなど、各社が模索を続けています。Metaの今回の動きは、データ活用による広告モデルという、同社の成功方程式をAI時代にも適用する明確な一手と言えるでしょう。

Google、AIでサウジ世界遺産をバーチャル体験

世界遺産をバーチャル探訪

ストリートビューで路地を散策
10以上の象徴的ランドマーク
15km以上の360度画像で再現
過去と現在の写真を比較鑑賞

AIが歴史を語りかける

AIによる音声ガイドツアー
建築や工芸の歴史を自動解説
貿易や巡礼での役割を紹介
家族で楽しむパズル機能

Googleはサウジアラビアのジェッダ歴史地区プログラムと提携し、ユネスコ世界遺産である同地区をバーチャルで体験できるオンライン展示をGoogle Arts & Cultureで公開しました。AIやストリートビューなどの最新技術を駆使し、世界中の人々が歴史的遺産の魅力に触れる機会を提供します。これは文化遺産の保存とデジタル技術の融合における画期的な事例です。

今回の目玉の一つが、ストリートビューによる没入型体験です。10以上の象徴的な場所と15km以上に及ぶ路地が360度画像でデジタル化されました。利用者は、かつて巡礼者が歩んだ道を辿ったり、17世紀のモスクを訪れたりするなど、まるで現地にいるかのような感覚で歴史地区を自由に散策できます。

特に注目すべきは、AIを活用した音声ガイド「トーキングツアー」です。利用者がバーチャル空間を移動すると、AIが建築様式の意義や、ジェッダが世界貿易や巡礼で果たした役割などを自動で解説します。文化体験に対話型の学習要素を取り入れた、新しい試みと言えるでしょう。

さらに、アーカイブ写真と現在の画像を比較できる「ポケットギャラリー」では、都市の変遷と修復の軌跡を視覚的に追体験できます。また、家族で楽しめる「パズルパーティー」機能も用意されており、ゲーミフィケーションを通じて文化遺産への関心を高める工夫が凝らされています。

このプロジェクトは、テクノロジーが文化遺産の保存と公開にどう貢献できるかを示す好例です。地理的な制約を超えて文化へのアクセスを民主化すると同時に、AIによる新たな付加価値創出の可能性も示唆しています。ビジネスリーダーやエンジニアにとっても、技術応用のヒントとなるでしょう。

動画生成AI「Sora 2」登場、SNSで誰もが主役に

次世代動画AI Sora 2

物理法則に忠実でリアルな動画を生成
プロンプトから音声・効果音も同期生成
失敗も再現する世界シミュレーターへ進化

TikTok対抗?Soraアプリ

自分や友人動画に登場するCameo機能
生成動画を共有するアルゴリズムフィード
招待制で米国・カナダから先行リリース

安全と倫理への配慮

同意ベースの肖像利用と削除権の保証
生成物への電子透かしと来歴証明(C2PA)

OpenAIは2025年9月30日、次世代の動画音声生成AI「Sora 2」と、連動するソーシャルアプリ「Sora」を同時発表しました。前モデルから物理法則の再現性を大幅に向上させ、ユーザーが自身の姿を動画に登場させられる「Cameo」機能が特徴です。同社はこのモデルを、物理世界を深く理解する「世界シミュレーター」への重要な一歩と位置づけ、新たな創作とコミュニケーションの形を提案します。

Sora 2」の最大の進化点は、そのリアリズムにあります。バスケットボールのシュートが外れてリバウンドするなど、物理法則に忠実で「失敗」もモデル化。これは単なる成功例をなぞるのではなく、現実世界をより正確にシミュレートしようとする試みです。さらに、対話や効果音も同期生成でき、表現の幅が大きく広がりました。

新登場のiOSアプリ「Sora」の目玉は「Cameo」機能です。ユーザーは自身の姿と声を一度登録するだけで、あらゆる生成シーンに自分自身を登場させられます。さらに、友人に自分のCameoの使用許可を与えることで、複数人が登場する動画の共同制作も可能に。これは、AIを介した全く新しいソーシャル体験と言えるでしょう。

アプリはTikTokに似たフィードを持ちますが、設計思想は大きく異なります。OpenAIは、単なる「消費」ではなく「創造」を最大化することを目指しており、アルゴリズムも他者の作品から着想を得て新たな創作を促すように調整されています。ユーザーがアルゴリズムを自然言語で制御できる点も革新的です。

ディープフェイクなどの悪用リスクに対し、OpenAI多層的な安全対策を講じています。肖像権の利用は本人の同意が必須で、いつでも許可を取り消せます。生成された全ての動画には、AI生成物であることを示す電子透かし(C2PA)が埋め込まれるほか、未成年者向けのペアレンタルコントロール機能も実装されました。

Sora」アプリの登場は、TikTokなど既存の短尺動画プラットフォームにとって新たな競合となる可能性があります。当面は無料で提供されますが、将来的には計算リソースの需要に応じた課金も計画されています。APIの提供も予定されており、幅広いビジネスでの活用が期待されます。

Nothing、AIでアプリを自作する新基盤

AIで誰でもアプリ開発

テキストプロンプトミニアプリを生成
まずはウィジェット開発からスタート
作成アプリは専用ストアで共有可能

パーソナル化するスマホ

「デバイスが人に合わせる」新体験
AIが利用状況に応じアプリを提案・配置
既存アプリの改変による共同開発

普及への課題と展望

セキュリティとメンテナンスが今後の鍵
将来的なクリエイターエコノミー創出

スマートフォンメーカーNothingは9月30日、AIを活用してテキストプロンプトでミニアプリを開発できる新ツール「Playground」を発表しました。ユーザーはコード不要でウィジェットを作成し、専用プラットフォーム「Essential Apps」で共有可能。AIでデバイスをユーザーに最適化する、パーソナルな体験の実現を目指します。

現在「Playground」で作成できるのは、フライト追跡や会議概要といったシンプルなウィジェットです。ユーザーはテキストで指示するだけでアプリを生成でき、コードを直接編集して微調整することも可能。作成したアプリは専用ストアで他のユーザーと共有できます。

CEOのカール・ペイ氏は、スマートフォンのソフトウェア革新の停滞を指摘。「AIの進化によりOSはよりパーソナルになる」と述べ、デバイスが持つユーザーの文脈情報を活用し、「デバイスが人に合わせる世界」を目指すというビジョンを語りました。

同社は将来的に、スマホ上で直接、音声などでアプリを作成できるようにし、フルスクリーンアプリにも対応させる計画です。さらに、優れたアプリ開発者が収益を得られるような、新たなクリエイターエコノミーの構築も視野に入れています。

一方で、プロンプトによるアプリ生成にはセキュリティやメンテナンスの懸念も指摘されています。ペイ氏も安全な開発環境の提供が成功の鍵と認識しており、当面は無料でツールを提供し、活発なコミュニティの構築に注力する方針です。

Nothingは市場シェア1%未満ですが、その立場を活かしAI時代の新たな体験を模索しています。大手とは異なるこの挑戦は、今後のパーソナルAIデバイスの方向性を占う上で注目されます。

Copilotに顔、音声対話がより自然に

新機能「Portraits」

音声対話用のAIアバター
40種類の様式化された顔
自然な表情とリップシンク
一部地域で実験的に提供

背景と技術

ユーザーの要望に応え開発
1枚の画像から映像を生成
先進技術「VASA-1」を活用
安全性に配慮した段階的導入

Microsoftは、AIアシスタントCopilot」にアニメーション化された顔を表示する新機能「Portraits」を実験的に導入しました。米国英国、カナダの一部ユーザーを対象にCopilot Labsで提供されるこの機能は、音声対話中に利用者が選んだアバターが自然な表情で応答します。ユーザーからの「顔があった方が話しやすい」という声に応え、AIとのコミュニケーションをより自然で快適にすることを目指します。

「Portraits」では、40種類の中から好みの様式化されたアバターを選択できます。この機能の核となるのが、Microsoft Researchが開発した先進AI技術「VASA-1」です。この技術により、たった1枚の画像から、複雑な3Dモデリングなしでリアルタイムに自然な表情や頭の動き、口元の同期(リップシンク)を生成することが可能になりました。

この実験の背景には「音声で話すなら、顔があった方が安心する」というユーザーの声があります。テキストとは一線を画し、人間同士の会話に近い体験の提供が狙いです。以前の漫画風キャラクターとは異なり、より人間に近い外見のアバターを採用した点が大きな違いと言えるでしょう。

安全性にも細心の注意を払っています。アバターは意図的に非写実的なデザインとし、利用は18歳以上に限定。時間制限やAIとの対話であることの明示も徹底しています。他社チャットボット有害なやり取りが問題視されたことを踏まえた、慎重な対応と見られます。

X社の「Grok」をはじめ、競合他社もAIアバターの導入を進めており、AIとの対話インターフェースは新たな局面を迎えています。今回の「Portraits」の試みは、AIを単なるツールから、より親しみやすいパートナーへと進化させる一歩と言えるでしょう。この技術がビジネスシーンでどう活用されるか、今後の展開が注目されます。

Hance、KB級AI音声処理でエッジ市場に革新

驚異の超小型・高速AI

モデルサイズは僅か242KB
遅延10ミリ秒のリアルタイム性
電力で多様なデバイスに対応

F1からインテルまで

F1公式無線サプライヤーが採用
Intelの最新チップNPUへ最適化
防衛・法執行分野への応用
大手スマホメーカーとも協議中

ノルウェーのスタートアップHanceが、キロバイト級の超小型AI音声処理ソフトウェアを開発しました。クラウドを介さずデバイス上で動作し、わずか10ミリ秒の低遅延でノイズ除去や音声の明瞭化を実現。すでにF1の公式無線サプライヤーやIntelといった大企業を顧客に持ち、10月27日から開催されるTechCrunch Disrupt 2025でデモを披露します。

この技術の核心は、わずか242KBという驚異的なモデルサイズにあります。これにより、スマートフォンや無線機など、リソースが限られたエッジデバイス上でのリアルタイム処理が可能になりました。従来のクラウドベースのAIと異なり、通信遅延や消費電力を大幅に削減できる点が大きな強みです。

HanceのAIモデルは、共同創業者が運営する高品質なサウンドライブラリ「Soundly」の音源を用いてトレーニングされました。F1マシンの轟音から火山の噴火音まで、多種多様なデータを学習させることで、過酷な環境下でも特定の音声を分離し、ノイズやエコー、反響を除去する高い性能を達成しています。

その実用性はすでに証明されています。F1チームが使用する無線システムを手がけるRiedel Communicationsは、高速走行中のドライバーとエンジニア間の極めて重要な通信をクリアにするため、Hanceの技術を採用。他にも、防衛や法執行機関といった、リアルタイム性と信頼性が求められる分野からの関心も高まっています。

Hanceは事業拡大を加速させています。半導体大手Intelとは、同社の最新チップ「NPU(ニューラル・プロセッシング・ユニット)」向けにモデルを最適化するパートナーシップを締結。他のチップメーカーや、非公開のスマートフォンメーカーとも協議を進めており、競争優位を保つため、研究開発に注力し続ける方針です。

Amazon、AI『Alexa+』で全デバイス刷新し収益化へ

Alexa+がもたらす進化

より自然で複雑な会話の実現
文脈を理解した高度な推薦
外部サービスとの連携強化
新カスタムチップで高速処理

刷新された主要製品群

高性能化した新Echoシリーズ
会話AI搭載のFire TV
4K対応・顔認識するRing
カラー表示対応Kindle Scribe

Amazonは9月30日、ニューヨークで開催した秋のハードウェアイベントで、新型の生成AIアシスタント『Alexa+』を搭載したEcho、Fire TV、Ringなどの新製品群を発表しました。長年収益化が課題だったデバイス事業の立て直しに向け、高性能な新デバイスとAIによる付加価値の高い体験を組み合わせ、新たな成長戦略の柱に据える構えです。

Alexa+の最大の特徴は、より自然で複雑な対話能力です。従来の単純なコマンド応答だけでなく、文脈を理解した上での映画推薦や、視聴中のコンテンツに関する詳細な質問への回答、複数の外部サービスを連携させたタスク実行などが可能になります。これにより、ユーザーの日常生活に深く溶け込むアシスタントへと進化を遂げようとしています。

このAIの能力を最大限に引き出すため、デバイスも大幅に刷新されました。新型の『Echo Dot Max』や『Echo Studio』には、AI処理に特化したカスタムチップ『AZ3』『AZ3 Pro』を搭載。これにより、音声認識の精度や応答速度が向上し、よりスムーズな対話体験を実現します。デザインも高級感を増し、従来よりも高価格帯に設定されています。

家庭のエンターテインメントの中核であるFire TVもAlexa+によって大きく変わります。例えば「あの俳優が出ている西部劇を見せて」といった曖昧な指示や、「この映画のあのシーンを探して」といった具体的なシーン検索にも対応。視聴体験を中断することなく、関連情報を音声で取得できるようになります。

スマートホームセキュリティ分野でもAI活用が進みます。新型Ringカメラは、4K解像度に対応するとともに、登録した顔を認識する『Familiar Faces』機能を搭載。家族と不審者を区別して通知することが可能です。さらに、近隣のRingユーザーと連携して迷子ペットを探す『Search Party』など、ユニークなコミュニティ機能も追加されました。

Amazonは、これらの高性能デバイスとAlexa+が提供するプレミアムな体験を新たな収益源とすることを目指しています。Alexa事業の赤字脱却という長年の課題に対し、ハードウェアとソフトウェア、そしてAIを三位一体で進化させる戦略を打ち出しました。ユーザーがこの新しい価値に対価を支払うかどうかが、今後の成功を占う鍵となりそうです。

ChatGPT、子の安全を守る保護者機能と新システム

保護者による利用制限

ティーンのアカウントと連携
利用時間や機能を個別設定
自傷行為の兆候を親へ通知
保護者向けリソースページ開設

会話の自動安全化

有害な会話を自動検知
高精度モデルへ自動切替
安全な応答を生成する新機能
過保護との批判も、改善期間を設定

OpenAIは2025年9月29日、対話型AI「ChatGPT」に、保護者がティーンエイジャーの利用を管理する「ペアレンタルコントロール」と、有害な会話を検知して安全なモデルに切り替える「セーフティルーティングシステム」を導入しました。これは、過去にChatGPTがティーンエイジャーの自殺に関与したとされる訴訟などを受け、AIの安全性と倫理的責任を高めるための重要な一歩です。企業のリーダーや開発者は、AIのリスク管理における先進事例として注目すべきでしょう。

新たに導入されたペアレンタルコントロールでは、保護者が自身のアカウントとティーンのアカウントを連携させ、利用を細かく管理できます。利用できない時間帯の設定や、ボイスモード、画像生成、メモリ機能の無効化が可能です。また、システムが自傷行為の兆候を検知した場合、保護者に通知する機能も実装されました。

もう一つの柱が「セーフティルーティングシステム」です。ユーザーとの会話が感情的にデリケートな内容になった場合、それを自動検知し、より安全な応答ができる最新モデル「GPT-5-thinking」へ会話の途中で切り替えます。単に応答を拒否するのではなく、安全な形で応答を生成する新技術が活用されています。

今回の機能強化の背景には、AIがユーザーに与える精神的な影響への懸念があります。特に、過去にティーンエイジャーがChatGPTとの長期間の対話の末に自ら命を絶ったとして、遺族がOpenAIを提訴する事件が発生しました。AIプラットフォームを運営する企業として、ユーザー保護と社会的責任を果たすための具体的な対策が求められていたのです。

これらの安全機能は専門家から歓迎される一方、一部ユーザーからは「過保護すぎる」といった批判的な声も上がっています。OpenAIもシステムの完璧性を認めておらず、今後120日間の改善期間を設けフィードバックを反映させる方針です。安全性と利便性のバランスをいかに取るかが今後の課題となります。

AIが一次面接を自動化、Alexが25億円調達

AI採用の現在地

AIによる初期面接の自動化
経歴や給与など定型業務を代替
採用担当者は候補者との関係構築に集中

Alex社の事業概要

シリーズAで1700万ドルを調達
Peak XV Partnersが主導
フォーチュン100企業などが顧客

長期的なビジョン

LinkedInを超える職業プロファイル構築
10分間の会話から深い情報を抽出

採用活動における初期面接をAIが担う時代が到来しそうです。AI採用スタートアップの「Alex」は、シリーズAラウンドで1700万ドル(約25億円)の資金調達を実施しました。同社が開発する音声AIツールは、応募者とのビデオ面接や電話スクリーニングを自律的に行い、採用担当者の業務を大幅に効率化します。この動きは、採用プロセスのあり方を根本から変える可能性を秘めています。

AlexのAIは、応募者が求人に応募した直後から面接を開始できます。経歴の確認、希望給与、勤務開始可能日といった初期段階のスクリーニング業務を完全に自動化。これにより採用担当者は膨大な応募者対応から解放され、有望な候補者との関係構築など、より戦略的な役割に時間を割けるようになります。

共同創業者のアーロン・ワン氏によると、Alexは1日に数千件の面接を実施。顧客にはフォーチュン100企業や大手金融機関などが含まれます。企業は採用の効率と公平性を高める手段として、AI面接の導入を加速させており、その需要は日増しに高まっています。

今回の資金調達は著名VCのPeak XV Partnersが主導しました。投資家たちは、AIによる面接が多くの企業にとって不可避なトレンドになると確信しています。市場では、HeyMiloやConverzAIといった競合も登場しており、技術開発競争が激化しています。

Alexの最終的な目標は、単なる業務効率化ツールに留まりません。数百万人の求職者と面接を重ねることで、LinkedInのプロフィールよりも遥かにリッチで詳細な職業プロファイルデータを構築することを目指しています。「10分間の会話は、経歴書よりも多くのことを教えてくれる」とワン氏は語ります。

物議のAI広告、NY地下鉄に1億円超の賭け

1億円超の巨大キャンペーン

NY地下鉄での大規模広告展開
投じた費用は100万ドル超
CEO自ら「大きな賭け」と発言

批判前提の「炎上」戦略

ウェアラブルAIの常時監視に批判
広告に「監視資本主義」等の落書き
AIへの反感を逆手に取った狙い
社会的議論を意図的に誘発

ウェアラブルAIデバイスを手がけるスタートアップ「Friend」が、ニューヨーク市の地下鉄で100万ドル(約1.5億円)以上を投じる大規模な広告キャンペーンを展開し、物議を醸しています。同社のCEOは、AIへの反感が強いとされるニューヨークで、あえて社会的な議論を巻き起こすことを狙った「大きな賭け」だと語っており、その挑発的な手法が注目を集めています。

このキャンペーンは、地下鉄の車両内に11,000枚以上の広告カード、駅のプラットフォームに1,000枚のポスターを掲示するなど、極めて大規模なものです。CEOのアヴィ・シフマン氏は「これは世界初の主要なAIキャンペーンだ」と述べ、自身の資金の多くを投じたことを明かしており、その本気度がうかがえます。

一方で、Friendが提供するデバイスは以前から批判にさらされていました。常にユーザーの周囲の音声を記録し続けるその仕様から「常時監視」デバイスだと指摘され、米Wired誌は「私はAIの友人が嫌いだ」と題する記事を掲載するなど、プライバシーへの懸念が根強く存在します。

こうした批判は、地下鉄広告への直接的な反発にもつながっています。広告の余白には「監視資本主義」や「本当の友達を作れ」といったメッセージが書き込まれ、その様子がSNSで拡散。市民の複雑な感情を浮き彫りにしています。製品だけでなく、広告手法そのものも議論の的となっているのです。

しかし、シフマンCEOはこうした反発を予期していたと語ります。彼はニューヨーカーが国内で最もAIを嫌っている層だと認識した上で、あえて白い余白の多い広告デザインを採用。「彼らが社会的なコメントを書き込めるようにした」と述べ、意図的に議論を誘発する炎上商法とも取れる戦略を明らかにしました。

YouTube、AIが曲解説する新機能を音楽配信で試験

AIホストが曲を解説

AIが楽曲の背景や豆知識を提供
ラジオDJ風の面白いコメント
ミックスやラジオ再生時に機能
リスニング体験の深化が目的

Spotify追撃とAI戦略

競合SpotifyのAI DJに対抗
新設の実験プログラムで提供
米国内の限定ユーザーが対象
YouTube全体のAI活用戦略の一環

YouTubeは2025年9月26日、音楽配信サービス「YouTube Music」において、AIが楽曲の合間に解説や豆知識を提供する新機能「AIホスト」の試験導入を発表しました。この機能は、ユーザーの音楽体験をより豊かにすることを目的としています。まずは米国内の限定されたユーザーを対象に、新設された実験的プログラム「YouTube Labs」を通じて提供されます。

AIホストは、ユーザーがミックスやラジオステーションを再生している際に、曲と曲の間に自動で介入します。まるでラジオのDJのように、再生中の楽曲に関するストーリーやファンの間で知られる豆知識、そして軽快なコメントを提供し、リスニング体験に深みを与えることを目指します。これにより、単に音楽を聴くだけでなく、その背景まで楽しめるようになります。

この動きは、競合であるSpotifyが2023年に導入した「AI DJ」機能を彷彿とさせます。SpotifyのAI DJは、ユーザーの好みに合わせて選曲し、音声で解説を加える人気の機能です。YouTubeのAIホストは現時点でプレイリスト作成機能は含みませんが、音楽ストリーミング市場での差別化とユーザーエンゲージメント向上を狙う、重要な一手と言えるでしょう。

今回の試験は、AI関連のプロトタイプを試すための新プログラム「YouTube Labs」を通じて行われます。これは親会社Googleの「Google Labs」と同様の取り組みで、YouTube Premium会員でなくても参加可能ですが、アクセスは米国内の少数ユーザーに限定されます。ユーザーからのフィードバックを収集し、今後の本格導入を検討する方針です。

YouTubeはクリエイター向けAIツールやAIによる動画検索機能の強化など、プラットフォーム全体でAI活用を積極的に進めています。今回のAIホストも、コンテンツとユーザーの新たな接点を創出する戦略の一環です。一方で、AIが生成するコンテンツの品質や、ユーザー体験を損なわないかといった課題もあり、今後の展開が注目されます。

Hugging Face、Apple向けAIライブラリv1.0を公開

Apple開発者向けAIツール

ローカルLLMのアプリ統合を簡素化
Tokenizer, Hubなど必須機能を提供
Core MLやMLXを補完する設計

v1.0の進化点

パッケージの安定性向上とAPI整理
モジュール分割による依存性削減
最新Core ML APIとSwift 6に対応

今後のロードマップ

MLXフレームワークとの連携深化
エージェント型ユースケースの探求

AIプラットフォームのHugging Faceが、Apple製品開発者向けライブラリ「swift-transformers」のバージョン1.0を公開しました。本ライブラリは、iPhoneなどのデバイス上でローカルにAIモデルを動作させる際の技術的ハードルを下げ、アプリへの組み込みを容易にすることを目的としています。

swift-transformersは、AppleのCore MLやMLXといった機械学習フレームワークを補完する重要な機能群を提供します。具体的には、複雑なテキスト入力を処理する「Tokenizers」、Hugging Face Hubからモデルを管理する「Hub」、Core ML形式モデルの推論を簡素化する「Models」と「Generation」が中核をなします。

すでに、Apple自身のサンプル集「mlx-swift-examples」や、高性能な音声認識フレームワーク「WhisperKit」など、多くのプロジェクトで採用されています。これにより、AppleエコシステムにおけるオンデバイスAI開発の基盤技術としての地位を確立しつつあると言えるでしょう。

今回のv1.0リリースは、ライブラリの安定性を公式に保証する初のメジャーアップデートです。主要な変更点には、必要な機能だけを導入できるモジュール分割や、最新のCore ML APIへの対応、そしてSwift 6への完全準拠が含まれます。開発者はより安心して長期的なプロジェクトに採用できます。

Hugging Faceは今後の展望として、Apple機械学習フレームワーク「MLX」との連携強化を掲げています。さらに、自律的にタスクを処理する「エージェント」のような、より高度なユースケースの実現も視野に入れており、オンデバイスAIの新たな可能性を切り拓くことが期待されます。

Spotify、AI生成音楽にラベル表示導入へ 不正利用対策も強化

音楽配信大手Spotifyは9月25日、AI生成音楽に関する新方針を発表しました。AI利用の透明性を高め、不正なスパムやなりすましからアーティストとリスナーを保護することが目的です。創造的なAI活用は支援しつつ、プラットフォームの健全性を維持する構えです。 新方針の柱は、AI使用を明記するラベル表示の導入です。音楽業界の標準化団体DDEXと協力し、楽曲制作のどの過程でAIが使われたかを詳細に示すメタデータ標準を開発。すでに主要レーベル15社が採用を表明しており、業界標準となる可能性があります。 AIによるスパム行為への対策も強化します。今秋から、再生数稼ぎを目的とした短尺曲の大量アップロードなどを検出する新しいスパムフィルターを順次展開。同社は過去1年間で既に7,500万ものスパム楽曲を削除したと公表しており、対策を一層強化します。 アーティストの声を無断で複製する「AI音声クローン」やディープフェイクといった、なりすまし行為も明確に禁止します。許可なく他者の声を使用した楽曲はプラットフォームから削除する方針を改めて示し、アーティストの権利保護を徹底する姿勢を強調しました。 Spotifyは、アーティストがAIを創造的なツールとして責任を持って利用することは罰しないと明言しています。「我々はシステムを悪用する者を阻止する」と同社幹部は述べ、AIの利点を享受するためにも、不正行為の防止が不可欠であるとの考えを示しました。 この動きの背景には、誰でも簡単に音楽を生成できるAIツールの急速な普及があります。一部のサービスでは、毎日数万曲のAI生成楽曲がアップロードされるなど、コンテンツの急増が課題となっています。Spotifyは業界に先駆けて対応することで、市場の混乱を防ぐ狙いです。

Googleフォト、対話型AI編集で誰でもプロ級の写真加工

Googleは、写真編集アプリ「Googleフォト」に新たな対話型AI編集機能「Ask Photos」を導入しました。Pixel 10スマートフォンで先行搭載され、対応するAndroid端末にも展開されます。この機能を使えば、メニューやスライダーを操作することなく、音声やテキストで指示するだけで直感的な写真編集が可能です。 使い方は極めてシンプルです。「背景のゴミを消して」「もっと明るくして」といった自然な言葉で指示するだけで、AIが意図を汲み取って編集を実行します。これまで専門的な編集ソフトで数分かかっていた作業が、わずか数秒で完了します。写真編集のハードルを劇的に下げる機能と言えるでしょう。 Adobe Photoshopのような高機能ソフトは、高価な上に専門知識を必要としました。しかし、この新機能は誰でも手軽に利用できます。カーネギーメロン大学の専門家は、ChatGPTのような一部のAIが目新しさで終わるのに対し、この機能は多くの消費者にとって実用的な価値を持つと指摘しています。 スマートフォンの小さな画面でのスライダー操作は、精密な調整が難しいという課題がありました。対話型インターフェースは、この煩わしさからユーザーを解放します。「もっと良くして」といった曖昧な指示でも、AIが写真の構図や明るさを適切に調整してくれるため、編集作業がより身近になります。 現状では、被写体をフレーム内で移動させたり、特定の部分だけを細かく調整したりすることはできません。例えば、顔のハイライトだけを抑えようとすると、画像全体のハイライトが変更されてしまうことがあります。より精緻な編集機能の実現が今後の課題です。 生成AIによる簡単な画像加工は、偽情報拡散のリスクもはらみます。Googleはこの問題に対処するため、編集された画像にC2PA(コンテンツ来歴と真正性のための連合)の認証情報や、電子透かし技術「SynthID」を付与。これにより、画像がAIによって編集されたことを追跡可能にしています。 専門家は、この機能がコンピューターとの関わり方を変える大きな一歩だと見ています。これまでのコンピューターは人間が操作する「道具」でした。しかし、対話を通じて人間の意図を理解し実行するAIは、コンピューターを「パートナー」へと昇華させる可能性を秘めています。

通話録音アプリNeon、データ売却で報酬。プライバシー懸念も浮上

ソーシャルアプリ「Neon Mobile」が、ユーザーの通話を録音しAI企業に販売、対価として報酬を支払うモデルで注目を集めています。2025年9月、米Apple App Storeでランキング2位に急上昇。手軽に収入を得られる一方、専門家プライバシー侵害やデータ悪用のリスクに警鐘を鳴らしており、その手法が問われています。 Neonは、ユーザーが通話音声をAI学習データとして提供し報酬を得る仕組みです。例えばNeonユーザー間の通話では1分30セントが支払われます。AI開発に不可欠な音声データを、金銭的インセンティブを通じて効率的に集めることが目的です。 このアプリは短期間でランキングを急上昇させました。この事実は、一部の消費者が少額の報酬と引き換えに自らのプライバシーを提供することに抵抗がなくなっている可能性を示唆します。AI技術の浸透が、データプライバシーに対する価値観を変えつつあるのかもしれません。 専門家はNeonの手法に深刻な懸念を示します。片側の音声のみを録音する手法は、多くの州で違法となる「盗聴法」を回避する狙いがあると指摘。利用規約ではNeon社に広範なデータ利用権が与えられ、想定外の利用リスクがあります。 Neonは個人情報を削除すると主張しますが、声紋データ自体がリスクとなり得ます。収集された音声は、本人の声を模倣した「なりすまし詐欺」に悪用される恐れがあります。誰がデータを購入し、最終的にどう利用するのかが不透明な点も大きな問題です。 Neonは創業者名を「Alex」としか公開せず、データ販売先のAI企業も明らかにしていません。こうした運営の不透明性は、ユーザーがデータの使途を把握できないことを意味します。万が一データが漏洩した場合の影響は計り知れず、企業の透明性が改めて問われています。

Google、次期チップ「Tensor G5」でPixel 10のAI機能を大幅強化

Googleは9月24日、公式ポッドキャストで、次期スマートフォン「Pixel 10」シリーズに搭載する最新チップ「Tensor G5」の詳細を明らかにしました。同社のシリコンチーム担当者が解説し、Tensor G5がGoogle史上最大のアップグレードであり、デバイス上のAI機能を飛躍的に進化させることを強調しました。これにより、スマートフォンの利便性が新たな段階に入ることが期待されます。 Tensor G5は、AI処理能力の向上に特化した設計が特徴です。Googleのシリコンチーム担当者によれば、このチップは技術的なブレークスルーであり、これまでのチップから大幅な性能向上を実現したとのことです。スマートフォンの「頭脳」が進化することで、複雑なAIタスクをデバイス上で高速に処理できるようになります。 新機能で特に注目されるのが、自分の声でリアルタイム翻訳を行う「Live Translate」です。従来の翻訳機能と異なり、まるで自分がその言語を話しているかのような自然なコミュニケーションを可能にします。Tensor G5の高度な音声処理能力が可能にするこの機能は、海外とのビジネスなどで大きな変革をもたらす可能性があります。 さらに、ユーザーの意図を先読みしてアシストするエージェント機能「Magic Cue」や、Pixel 10 Proに搭載される「100x ProRes Zoom」もTensor G5の性能によって実現されます。これらの機能は、単なる操作の補助にとどまらず、ユーザーの生産性を高めるパートナーとしてのスマートフォンの役割を強化することを示唆しています。 今回の発表は、AI処理がクラウドから個人のデバイス(エッジ)へ移行する流れを象徴します。デバイス上でAIが完結すれば、プライバシーと応答速度の向上が両立します。経営者エンジニアにとって、この「エッジAI」の進化がもたらす新たなビジネスチャンスや生産性向上の可能性は、注視すべき重要なトレンドと言えるでしょう。

Google、AI音声・カメラ検索「Search Live」を米国で正式公開

Googleは2025年9月24日、米国で新機能「Search Live」を正式に公開しました。AIと音声で対話しながらスマートフォンのカメラ映像を共有し、リアルタイムな情報検索を可能にします。これまで試験提供でしたが、今後はGoogleアプリ(Android/iOS)から誰でも利用でき、より直感的な検索体験を提供します。 「Search Live」の最大の特徴は、音声と視覚情報を組み合わせた対話型検索です。ユーザーはGoogleアプリやレンズから「Live」アイコンをタップして起動。目の前の物について声で質問すると、AIがカメラ映像を認識し即座に応答します。関連ウェブリンクも提示し、深い情報収集を支援します。 具体的な活用例として、旅行先で見かけた建造物についてカメラを向けて質問したり、新しい趣味である抹茶の道具の使い方を尋ねたりできます。ハンズフリーで対話できるため、作業をしながらでも手軽に情報を得られます。文字入力が不要になることで、検索のハードルが大きく下がると期待されます。 ビジネスや教育の現場でも応用が期待されます。例えば、複雑なAV機器の配線で困った際、カメラで写しながら質問すればAIが視覚的に判断して指示します。子供の科学実験を一緒に見ながら、化学反応の原理をAIに解説させるなど、学習支援ツールとしても活用できるでしょう。 「Search Live」の一般公開は、検索がテキスト入力から、より五感に近い体験へと進化していることを示しています。リアルタイムの視覚・音声情報を活用するAIアシスタントは、様々なサービスのUIに影響を与える可能性があります。企業は自社サービスとの連携を模索する必要があるでしょう。

Gemini搭載、Google Playストアがゲーム支援AIで進化

Googleが、AIモデル「Gemini」を統合したGoogle Playストアの大規模アップデートを発表しました。これにより、アプリの発見からゲームプレイまで、ユーザー体験が大きく変わろうとしています。特に注目されるのが、ゲーム内でのリアルタイムAI支援機能です。 最大の目玉である新機能「Play Games Sidekick」は、ゲームのプレイ中に利用できるオーバーレイ機能です。ユーザーが行き詰まった際、Gemini音声で質問すると、ゲーム画面をAIが認識し、攻略のヒントやアドバイスをリアルタイムで返します。ゲームを中断する必要がなくなります。 ユーザーインターフェースも大幅に刷新されます。新たに導入される「You」タブは、ユーザーの興味関心に基づき、おすすめのコンテンツやサブスクリプション情報、リワードなどを一元的に表示します。これにより、ストアは個々に最適化されたコンテンツハブへと進化します。 アプリの検索体験もAIで変わります。「Guided Search」と呼ばれる新機能では、具体的なアプリ名ではなく「家を探す」といった目的を入力するだけで、AIが関連アプリをカテゴリー分けして提示。ユーザーはより直感的に目的のアプリを見つけられるようになります。 このほか、個人の実績やステータスを追跡できる新しいゲーマープロフィールの導入や、友人たちと競い合う「Play Games Leagues」も始まります。また、PCでAndroidゲームが遊べる「Google Play Games on PC」もベータ版を終了し、正式版として提供が開始されました。 今回のアップデートは、AIを活用してユーザーエンゲージメントを高めるGoogleの明確な戦略を示しています。開発者や企業にとっては、AIとの連携を前提とした新しいアプリ体験の創出や、パーソナライズされたマーケティング機会の活用が今後の鍵となりそうです。

Googleフォト、対話型AI編集を全Androidユーザーに拡大

Googleは2025年9月23日、米国Googleフォトの対話型AI編集機能を対象の全Androidユーザーに展開開始しました。音声やテキストで指示するだけで、同社のAI「Gemini」が写真を自動で編集します。これにより、専門知識がなくても高度な写真編集が可能となり、クリエイティブな表現の幅が広がります。 この新機能は、アプリ内の「Help me edit」ボタンから利用できます。ユーザーは編集ツールやスライダーを直接操作する必要がありません。代わりに「もっと明るくして」「背景の人を消して」といった自然な言葉で指示を出すだけで、AIが意図を汲み取り、写真を編集します。 この機能は、Googleの高性能AIモデル「Gemini」の能力を活用しています。当初は最新スマートフォン「Pixel 10」の利用者向けに限定公開されていましたが、今回、対象機種が大幅に拡大されました。これにより、より多くのユーザーが最先端のAI技術を手軽に体験できます。 簡単な明るさ調整や不要物の除去はもちろん、古い写真の修復といった高度な編集も可能です。さらに「ペットのアルパカをハワイのワイキキに移動させて」のような、現実にはない創造的な画像生成にも対応し、写真編集の楽しみを広げます。 一度の指示で終わりではありません。AIによる編集結果に対して「もう少しこうして」といった追加の指示を出すことで、対話しながら微調整を重ね、理想の仕上がりに近づけることができます。「make it better(もっと良くして)」といった曖昧な指示から始めることも可能です。 現在の提供対象は、米国在住で18歳以上のユーザーに限定され、言語は英語のみです。また、GoogleはAIで生成・編集された画像であることを示す技術標準「C2PA」にも対応しており、コンテンツの信頼性確保にも配慮しています。

元Google社員、音声AIリサーチアプリ「Huxe」公開、460万ドル調達

GoogleのAIノートアプリ「NotebookLM」の開発者3名が、音声ファーストのAIリサーチアプリ「Huxe」を9月23日に公開しました。このアプリは、AIが生成するポッドキャスト形式でニュースやリサーチ情報を要約し、ユーザーの情報収集を支援します。同社はConvictionなどから460万ドル(約6.9億円)を調達。アプリはiOSAndroidで利用可能です。 Huxeの最大の特徴は、複数のAIホストが特定のトピックについて議論する「ポッドキャスト」を自動生成する点です。ユーザーはAIホストと対話し、質問したり別の角度からの説明を求めたりできます。これは、元々開発に携わったNotebookLM音声機能をさらに発展させたもので、情報収集のあり方を変える可能性を秘めています。 このアプリは、ユーザーのメールやカレンダーと連携し、スケジュールに基づいたパーソナライズされた日次ブリーフィングを提供します。また、関心のあるトピックを「ライブステーション」として登録すると、関連ニュースを継続的に追跡し、最新情報を音声で更新してくれます。これにより、受動的かつ効率的な情報収集が実現します。 開発チームは2024年12月にGoogleを退社後、当初はB2B向けのチャットボットを開発していました。しかし、音声生成機能へのユーザーの強い関心を捉え、消費者向け市場へ転換。スクリーンタイムが長く、情報過多に悩む知識労働者や専門家を主なターゲットとしてHuxeを開発しました。 Huxeはシードラウンドで460万ドルを調達しました。FigmaのCEOやGoogle Researchのジェフ・ディーン氏など著名投資家も名を連ねています。音声AI市場は成長が著しく、ElevenLabsやOboeといったスタートアップも参入。GoogleMetaも類似機能を開発しており、競争が激化しています。

Google、AI「Gemini」をテレビに搭載、会話で操作可能に

Googleは2025年9月22日、AIアシスタントGemini」をGoogle TVに搭載すると発表しました。これにより、テレビ画面を通じて自然言語での自由な対話が可能になります。複雑な条件での番組検索や情報収集に対応し、家庭内でのテレビの役割を大きく変える可能性があります。まずはTCLの最新モデルから提供が開始されます。 Geminiの搭載で、番組探しはより直感的になります。例えば「私はドラマが好きだが妻はコメディが好き」といった複雑な要望にも応え、最適な作品を提案します。また、シリーズのあらすじを確認したり、タイトルを忘れた作品を説明から検索したりすることも可能で、視聴体験の質を高めるでしょう。 テレビの用途はエンターテインメントに留まりません。Geminiは子供の宿題を手伝ったり、新しいスキルを学ぶためのガイド役も務めます。質問に対しては、関連するYouTube動画を提示することで、より深い理解を促します。家庭学習や自己啓発のツールとしての活用が期待されます。 Geminiの導入後も、従来のGoogleアシスタントで利用できた基本的な音声コマンドは引き続き使用可能です。照明の調整や簡単な質問など、既存の機能はそのままに、Geminiによる高度な対話機能が追加される形となります。ユーザーは利便性を損なうことなく、新しいAI体験を享受できます。 GeminiはまずTCLの最新テレビ「QM9K」シリーズで利用可能になります。年内にはGoogle TV StreamerやHisense、TCLの2025年モデルなどへも展開される予定です。Googleは将来的には3億台以上のデバイスへの搭載を目指しており、今後も機能は順次追加される見通しです。

AGIの知能は測れるか?新指標「ARC」がAIの課題を映し出す

OpenAIDeepMindなどの主要AIラボは、数年内にAGIが実現するとの見方を示しています。AGIの登場は経済や科学に計り知れない影響を及ぼす可能性があります。そのため、技術の進捗を客観的に追跡し、法規制やビジネスモデルを準備することが不可欠です。AGIの能力を測るベンチマークは、そのための羅針盤となります。 AIの知能測定はなぜ難しいのでしょうか。それは、AIの強みや弱みが人間とは根本的に異なるためです。人間のIQテストは、記憶力や論理的思考など複数の能力を総合的に測りますが、AIにはそのまま適用できません。学習データにない未知の状況に対応する「流動性知能」の評価が、特に大きな課題となっています。 かつてAIの知能を測るとされたチェスやチューリングテストは、もはや有効ではありません。1997年にチェス王者を破ったIBMのDeep Blueは、汎用的な知能を持ちませんでした。近年の大規模言語モデル(LLM)は人間のように対話できますが、簡単な論理問題で誤りを犯すこともあり、その能力は限定的です。 こうした中、Googleのフランソワ・ショレ氏が2019年に開発した「ARCベンチマーク」が注目されています。これは、いくつかの図形パズルの例題からルールを抽出し、新しい問題に応用する能力を測るテストです。大量の知識ではなく、未知の課題を解決する思考力(流動性知能)に焦点を当てている点が特徴です。 ARCベンチマークでは、人間が容易に解ける問題にAIは今なお苦戦しています。2025年には、より複雑な新バージョン「ARC-AGI-2」が導入されました。人間の平均正答率が60%であるのに対し、最高のAIモデルでも約16%にとどまっています。AIが人間レベルの思考力を獲得するには、まだ大きな隔たりがあるようです。 専門家はARCを、AIのアルゴリズム機能を解明する優れた理論的ベンチマークだと評価しています。しかし、その形式は限定的であり、社会的推論など現実世界の複雑なタスクを評価できないという限界も指摘されています。AGIの進捗を知る有力な指標の一つですが、それだけでAGIの全てを測れるわけではありません。 ARC以外にも、多様なAGIベンチマークの開発が進んでいます。仮想世界でのタスク実行能力を測るGoogle DeepMindの「Dreamer」や、テキスト、画像音声など5種類の情報を扱う「General-Bench」などがその例です。究極的には、現実世界で物理的なタスクをこなす能力が試金石になるとの見方もあります。 結局のところ、「AGIとは何か」という定義自体が専門家の間でも定まっていません。「既に実現した」という意見から「決して実現しない」という意見まで様々です。そのため、「AGI」という言葉は、それが何を指し、どのベンチマークで評価されているのかを明確にしない限り、実用的な意味を持ちにくいのが現状と言えるでしょう。

YouTube、AI新機能でクリエイターの制作・収益化を大幅強化

YouTubeが年次イベント「Made on YouTube」で、クリエイターコンテンツ制作と収益化を支援する多数の新機能を発表しました。生成AIを活用した動画制作ツールや新たな収益化プログラムの導入により、プラットフォーム全体の活性化を目指します。特に、動画管理ツール「YouTube Studio」やショート動画制作機能が大幅に強化されます。 動画管理ツール「Studio」には、AIがアカウントに関する質問に答えるアシスタント「Ask Studio」が導入されます。また、本人の顔が無断で使用された動画を検知・管理する機能もベータ版として公開。クリエイターは自身のブランド保護とチャンネル管理をより効率的に行えるようになります。これにより、どのような効果が期待できるのでしょうか。 ショート動画向けには、Googleのテキストtoビデオ生成AIモデル「Veo 3 Fast」のカスタム版が導入されます。簡単なテキスト指示で動画内にオブジェクトを追加したり、スタイルを変更したりすることが可能に。AIの活用でコンテンツ制作のハードルを下げ、クリエイターの表現の幅を広げます。 ライブ配信機能「YouTube Live」もアップデートされます。AIが配信中の盛り上がった場面を自動で選び、共有しやすいショート動画としてハイライトを作成する機能が追加されます。また、配信を中断しない新しい広告フォーマットも導入され、視聴体験と収益性の両立を図ります。 収益化の選択肢も広がります。クリエイター動画内で紹介した商品をタグ付けできるショッピングプログラムを強化。AIが商品に言及した最適なタイミングを特定し、自動で商品タグを表示する機能も追加され、ブランドとの提携や物販による収益機会を拡大します。 ポッドキャスト制作者向けにもAIツールが提供されます。米国では、AIが動画からクリップ作成を提案する機能が利用可能になります。来年には、音声ポッドキャストを動画形式に変換する機能も展開予定で、コンテンツの多角的な活用を支援します。

YouTube、生成AIで動画制作を革新 創造性の拡張目指す

YouTubeは、動画制作に生成AIツールを本格導入する新機能を発表しました。テキストから動画を生成するGoogleの技術などを活用し、誰でも簡単に動画を作れる環境を目指します。ニール・モハンCEOはこれを「創造の民主化」を加速させる一手と位置づけ、プラットフォームの次なる飛躍に繋げたい考えです。 新機能を使えば「月面で踊る100人のダンサー」といったテキストから即座に動画を生成できます。また、ポッドキャストの音声から関連映像を自動で作り出すことも可能です。これにより、誰もが簡単に質の高い動画コンテンツを制作できるようになります。 モハンCEOはAI導入を、創業以来の「テクノロジーで人々の声を届ける」という理念の延長線上にあると説明します。彼はAIをデジタル音楽のシンセサイザーに例え、ツールは人間の独創性や創造性を引き出す新たな機会になるとの考えを示しました。 一方で、AIによるコンテンツ制作の容易さは、プラットフォームの強みである「真正性」を損なうリスクも指摘されます。人間の創造性がどこまで介在するのかという根本的な問いと共に、AI生成物と人間による制作物の境界が曖昧になることへの懸念が浮上しています。 YouTubeは対策として、AI生成動画にはラベルを表示する方針です。しかし、視聴者がAIコンテンツを除外するフィルター機能は提供されません。モハンCEOは今後AIツールの影響はさらに拡大すると予測しており、YouTubeが常に最先端であり続けることが重要だと強調します。

OpenAI、AIハードウェア開発か 元Appleデザイナーと協業

OpenAIが、元Appleのチーフデザインオフィサーであるジョニー・アイブ氏と提携し、複数のAIハードウェア開発を検討していると報じられました。関係者の話として、すでにAppleの製品組立業者であるLuxshareと契約を結んだとされています。 開発が噂されるデバイスは多岐にわたります。最も有力なのは「ディスプレイのないスマートスピーカー」に似た製品です。この他にも、スマートグラスやデジタル音声レコーダー、身につけられるピン型デバイスなどが候補に挙がっている模様です。 この動きは、OpenAIサム・アルトマンCEOが以前から語っていた「デバイスファミリー」構想を具体化するものと言えるでしょう。最初の製品は2026年後半から2027年初頭の発売が目標とされており、ソフトウェア中心だった同社の大きな戦略転換となりそうです。 生産体制の構築も進んでいます。iPhoneやAirPodsの生産を担うLuxshareやGoertekなど、Appleのサプライチェーンネットワークを活用する動きが報じられました。これにより、高品質な製品の安定供給を目指す狙いがあると考えられます。 ハードウェア開発は人材獲得競争にも発展しています。元Appleの製品デザイン責任者がOpenAIハードウェア責任者に就任するなど、Appleからの人材流出が顕著です。これは、巨大テック企業間の新たな競争の火種となる可能性を秘めています。

AppleのオンデバイスAI、iOS 26アプリで実用化進む

サードパーティの開発者らが、Appleの最新OS「iOS 26」の公開に伴い、同社のオンデバイスAIモデルを自社アプリに組み込み始めています。この動きは、Apple開発者向け会議(WWDC)で発表したAIフレームワーク「Foundation Models」を活用したものです。開発者推論コストを気にすることなく、支出分析やタスク管理の自動化といった機能を実装できます。これにより、ユーザー体験の向上が期待されます。 Appleの「Foundation Models」は、デバイス上でAI処理を完結させるのが特徴です。これにより開発者推論コストを負担せず、ユーザーのプライバシーも保護できます。OpenAIなどの大規模モデルとは異なり、既存アプリの利便性を高める「生活の質(QoL)」向上に主眼が置かれています。 生産性向上アプリでの活用が目立ちます。タスク管理アプリ「Tasks」は、入力内容からタグを自動提案したり、音声内容を個別のタスクに分解したりします。日記アプリ「Day One」では、エントリーの要約やタイトルをAIが提案し、より深い記述を促すプロンプトを生成します。 専門分野や学習アプリでも導入が進んでいます。家計簿アプリ「MoneyCoach」は、支出が平均より多いかを分析して提示します。単語学習アプリ「LookUp」では、単語を使った例文をAIが自動生成したり、その語源を地図上に表示したりするユニークな機能が追加されました。 活用範囲は多岐にわたります。子供向けアプリ「Lil Artist」では、キャラクターとテーマを選ぶとAIが物語を創作。レシピアプリ「Crouton」はテキストから調理手順を自動分割します。電子署名アプリ「SignEasy」は契約書の要点を抽出し、利用者に要約を提示します。 これらの事例は、AppleオンデバイスAIが大規模生成AIとは異なる形でユーザー体験を向上させる可能性を示します。プライバシーとコストの課題をクリアしたことで、今後多くの開発者が追随するでしょう。身近なアプリがより賢くなることで、iPhoneエコシステム全体の魅力が一層高まりそうです。

MS、ゲーム用AI「Copilot」をWindows 11に全世界展開

マイクロソフトは2025年9月18日(現地時間)、ゲーム用AIアシスタント「Gaming Copilot」をWindows 11搭載PC向けに全世界で展開開始しました。中国本土を除く全地域で、今後数週間かけて段階的に提供されます。ゲーム体験を向上させるこの新機能は、ゲームバーに統合され、プレイヤーを多角的に支援します。ゲーム業界におけるAI活用は新たな局面を迎えるのでしょうか。 Gaming Copilotは、Windows 11のゲームバー内でウィジェットとして利用できます。最大の特長は、ゲームを中断することなく利用できる点です。音声モードを使えば、ゲームプレイを続けながらAIアシスタントと対話でき、プレイヤーは集中力を維持したまま、必要な情報を即座に入手可能になります。 さらに、ゲームのスクリーンショットをAIが解析し、質問に答える機能も備えています。例えば、攻略に詰まったボスキャラクターについて、画面を見せるだけでアドバイスを求めることができます。その他、おすすめのゲームを提案したり、直近の実績リストを表示したりする機能も搭載しています。 マイクロソフトはこの機能をPC以外にも展開します。2025年10月には、AppleおよびAndroid向けのXboxモバイルアプリにもGaming Copilotを搭載予定です。これにより、スマートフォンをセカンドスクリーンとして活用し、ゲームプレイを妨げることなくAIの支援を受けられるようになります。 将来的には、開発中のXbox携帯型デバイス向けに最適化を進めるほか、Xboxコンソールへの導入も「近い将来」に予定しています。同社はGaming Copilotを、単なる情報提供ツールから、プレイヤーのスキル向上を助ける「AIゲーミングコーチ」へと進化させる長期的なビジョンを掲げています。

Zoom、フォトリアルAIアバターを導入 リアルタイム翻訳も実現

新時代の会議体験

カメラオフでもプロ仕様の分身(アバター)
写真からAIが本人そっくりに生成
リアルタイムでの動作追跡と同期
不正利用を防ぐライブカメラ認証
デジタルツイン実現への一歩

生産性向上の新機軸

リアルタイムでの音声翻訳機能
9言語対応でグローバル会議を円滑化
AIアシスタント他社プラットフォームでもメモ作成

米Zoomは9月17日、ビデオ会議サービス「Zoom」に革新的なAI機能を導入すると発表しました。特に注目されるのは、フォトリアリスティックなAIアバターリアルタイム音声翻訳機能です。これらの機能は12月以降、順次提供が開始されます。経営層やエンジニアは、国際的なコミュニケーションの円滑化と、リモートワークにおける生産性向上を直ちに享受できる見込みです。

AIアバター機能は、ユーザーがカメラに映る準備ができていない場合でも、プロフェッショナルな見た目をAIが生成し、会議に出席できるようにします。ユーザーは自身の写真をもとに分身を作成し、AIが実際の動きや発言をリアルタイムで追跡します。これにより、場所を選ばず、常に高いクオリティで会議に参加することが可能となります。

なりすましや不正利用の懸念に対し、Zoomは万全の対策を講じます。アップロードされた画像が本人であることを確認するため、ライブカメラ認証を実施する方針です。また、会議参加者には、その参加者がAIアバターを利用している旨の通知が明示されます。セキュリティ倫理的な配慮を両立させる仕組みです。

もう一つの重要なアップデートが、リアルタイム音声翻訳です。AIが話者の発言を即座に翻訳し、参加者は自らが選択した言語で音声を聞くことができます。現時点で日本語を含む9言語に対応しており、グローバルなチーム間での言語の壁を事実上撤廃し、シームレスなコミュニケーションを実現します。

さらに、AIアシスタント機能も大きく進化します。会議のスケジュール調整などに加え、アシスタントMicrosoft TeamsやGoogle Meetといった他社プラットフォームでの対面会議に「同行」させ、自動でメモを取らせることが可能となります。これは、Zoomが単なる会議ツールを超え、統合的な生産性エージェントへと進化していることを示します。

Stability AI、AI安全対策を強化。年次透明性レポート公開

安全設計と実績値

学習データからの有害コンテンツ排除
モデル・APIの多層的な悪用防止
全生成AIモデル(100%)リスク評価
学習データからのCSAM検出は0%
NCMECへの不正利用報告は計13件

透明性とガバナンス

API生成コンテンツへのC2PAメタデータ付与
リリース前におけるレッドチーミングの継続実施
業界団体や法執行機関との連携強化

Stability AIは2025年9月、2024年4月から2025年4月までの期間を対象とした年次「インテグリティ透明性レポート」を公開しました。同社は、責任ある生成AI開発の取り組みとして、児童性的虐待素材(CSAM)の防止に重点を置き、具体的な安全対策と実績値を開示しています。透明性を通じて信頼を構築し、ガバナンス強化を目指す方針です。

同社の安全対策は、「データ」「モデル」「プラットフォーム」の三層で構成されています。特に学習データについては、社内開発およびオープンソースのNSFW分類器に加え、業界団体のCSAMハッシュリストを適用し、有害コンテンツを徹底的に排除しています。報告期間中、学習データからのCSAM検出は0%でした。

モデルのリリース前には、厳格なリスク評価手法である「レッドチーミング」を実施しています。Stable Diffusion 3を含む全生成AIモデル(100%)がCSAM/CSEM生成能力に関してストレス評価を受けました。有害な生成能力が特定された場合、リリース前に概念を除去するセーフティ・ファインチューニングが施されます。

プラットフォームAPIレベルでは、入力と出力の両方に対し、リアルタイムでのコンテンツフィルターを適用しています。既知のCSAMを検出・ブロック・報告するためのハッシュシステムも統合されています。これにより、AUP(許容利用ポリシー)違反の入出力を即座に阻止する多層的な防御を実現しています。

AIコンテンツの真正性を担保するため、Stability AIはAPIを通じて生成された画像動画音声C2PAメタデータを付与しています。このメタデータにはモデル名やバージョン番号が含まれ、AI生成物であることを特定可能にし、コンテンツの透明性向上に貢献します。

悪用防止のため、自動検出ツールと人間による審査を組み合わせたコンテンツモデレーション体制を敷いています。実際にCSAMに関連する試行が検出された場合、NCMEC(行方不明・搾取児童センター)へ迅速に報告を実施。報告期間中のNCMECへの報告総数は13件でした。

StreamlabsがAI配信助手発表、RTXで制作作業を劇的に簡素化

主要な役割と機能

共同ホストとして会話の停滞を防ぐ
3Dアバターが質問に即時応答しゲームに集中
プロデューサー機能によるシーン自動切替
技術的なトラブルシューティングを代行

RTXによる高性能化

NVIDIA RTX GPUローカル処理し低遅延を実現
ユーザー定義のトリガーで制作を自動化
リアルタイムビジョンモデルでゲーム状況把握

Streamlabsは先日、NVIDIA RTX技術によって加速される「Intelligent Streaming Agent」を発表しました。このAIアシスタントは、ライブストリーマーが抱える「エンターテイナー、プロデューサー、ゲーマー」という多重業務の負担を軽減し、視聴者とのコミュニケーションというコアな活動に集中することを目的としています。この技術は、エージェントAIがリアルタイムで高度なタスクを代行する、生産性向上ソリューションの新たな事例として注目されます。

エージェントは主に3つの役割を果たします。第一に共同ホスト(Co-host)として、チャットが静かな際に3Dアバターが会話を繋いだり、視聴者の質問に答えたりします。これにより配信者はゲーム画面から離れる必要がありません。第二にプロデューサーとして、シーンの自動切替や音声・映像キューの実行を担い、複雑な制作作業をカスタマイズ可能なトリガーに基づいて自動化します。

さらに、このAIエージェントは技術アシスタントとしての役割も兼ね備え、ユーザーが直面するトラブルシューティングを支援します。特筆すべきは、NVIDIA GeForce RTX GPUによって加速されるリアルタイムビジョンモデルを活用している点です。これにより、ゲーム内での勝敗や体力低下などのイベントを瞬時に検出し、すべてをローカルで処理することで、極めて低遅延な応答性とシームレスな操作性を実現しています。

Streamlabsは長年、NVIDIAとともにエンコーディング技術やBroadcastアプリなどを通じて配信の敷居を下げてきました。今回のインテリジェント・エージェントは、その進化の集大成です。特に新人ストリーマーにとって、複雑な制作知識や高価な機材なしにプロフェッショナルな品質の配信が可能となります。このAI活用事例は、あらゆる分野で専門家レベルの業務代行が可能になるエージェントAI時代の到来を強く示唆しています。

Meta、画面付きAIグラスとEMG制御バンドを発表

AIグラスの新旗艦モデル

フラッグシップ機「Meta Ray-Ban Display」投入
片目レンズにアプリ表示用ディスプレイを搭載
通知や地図をスマホなしで確認可能

革新的な操作インターフェース

微細な手の動きを検知する「Meta Neural Band
筋電図(EMG)技術を用いた非接触制御
リストバンドでアプリ操作やナビゲーション

エコシステムとVR/AR強化

開発者向けウェアラブルアクセスツールキット公開
アスリート向け「Oakley Meta Vanguard」発表

Metaは年次イベント「Meta Connect 2025」で、AIとウェアラブル戦略の核となる新製品を発表しました。目玉はディスプレイを搭載したスマートグラスMeta Ray-Ban Display」と、微細なジェスチャーで操作可能な「Meta Neural Band」です。これはスマートフォンへの依存を減らし、AIを活用したハンズフリー体験を浸透させるための重要な一手となります。

新製品のMeta Ray-Ban Display(799ドル)は、片方のレンズに埋め込まれたポップアップ式の画面を持ちます。これにより、ユーザーは携帯電話を取り出すことなく、メッセージや地図、InstagramのReelsなどを視界に表示できます。これはかつてGoogle Glassが目指した体験に最も近い製品だと評価されています。

このスマートグラスの操作を支えるのが、Meta Neural Bandです。EMG(筋電図)技術により、脳から手に送られる微細な信号を検知し、小さな指の動きでアプリのナビゲーションを可能にします。Metaは、このEMGインターフェースがデバイス制御の新しい標準になると賭けています。

また、スマートグラスのラインアップを大幅に拡充しました。アスリート向けに耐水性とラップアラウンドデザインを採用した「Oakley Meta Vanguard」(499ドル)や、バッテリー寿命を従来の2倍(8時間)に改善した「Ray-Ban Meta Gen 2」も発表しています。

ハードウェアだけでなく、エコシステム強化も進められています。開発者向けには「Wearable Device Access Toolkit」が公開され、サードパーティのアプリがスマートグラス視覚・音声機能を利用可能になります。これにより、AIグラスのユースケース拡大が期待されます。

創業以来のテーマであるメタバース関連の発表もありました。Questヘッドセット向けには、現実空間をVR上にフォトリアルに再現する技術「Hyperscape」のベータ版が提供されます。また、VRプラットフォーム「Horizon Worlds」のグラフィックエンジンも刷新されています。

ボイスAIが市場調査を刷新、Keplarが340万ドル調達し高速分析を実現

資金調達と事業基盤

シードラウンドで340万ドルを調達
Kleiner Perkinsなど著名VCが出資
Google出身のAIエンジニアが設立

ボイスAIが変える調査手法

従来比で大幅な低コスト化を実現
調査設定を数分で完了する高速性
ボイスAIによる顧客との詳細な会話

高度な会話能力

LLM進化で自然な応答を実現
参加者がAIを名前で呼ぶほどのリアルさ

ボイスAIを活用した市場調査スタートアップKeplarは、シードラウンドで340万ドルの資金調達を発表しました。Kleiner Perkinsが主導したこの調達は、高コストで数週間かかる従来の市場調査を、AIの力で高速かつ低コストに代替する同社の潜在能力を評価したものです。AIは顧客インサイト収集のあり方を根本的に変革し始めています。

Keplarのプラットフォームは、企業が数分で調査を設定し、質問をインタビューガイドに変換します。AIボイスアシスタントが直接顧客に接触し、製品の好みや不満点について掘り下げた質問(プローブ質問)を行います。この迅速な自動化により、従来の調査プロセスと比較し、費用と時間の両面で大きな優位性を実現しています。

このサービスが成立するのは、大規模言語モデル(LLM)の進化によるものです。KeplarのボイスAIは、非常に自然な会話を実現しており、参加者の中にはAIを「Ellie」や「Ryan」といった名前で呼ぶ人もいるほどです。この人間と区別がつかないほどの対話能力が、質の高い生の顧客の声を引き出す鍵となっています。

クライアント企業がCRMへのアクセスを許可すれば、AIリサーチャーは既存顧客へリーチし、パーソナライズされたインタビューを実施できます。AIによる会話結果は、従来の人間による調査と同様に、レポートやPowerPoint形式で分析結果として提供されます。これにより、企業の意思決定者はすぐにインサイトを活用可能です。

Keplarの創業者は元Google音声AIエンジニアであり、確固たる技術基盤を持っています。ただし、顧客リサーチ市場の変革を目指す企業は他にも存在し、OutsetやListen Labsといった大規模な資金調達を実施した競合もいます。ボイスAIによる市場調査は、今後競争が激化するフロンティアとなるでしょう。

Amazon、出品者向けAIエージェント拡充 在庫管理から広告生成まで自動化

Agentic AI「Seller Assistant」進化

アカウント状態と在庫レベルを常時監視
売れ行き不振商品の価格変更や削除を推奨
需要パターンに基づき出荷を自動提案
新製品安全規制などコンプライアンスを自動チェック

AI広告チャットボットの導入

テキストプロンプト静止画・動画広告を生成
ブランドガイドラインを反映したクリエイティブの自動作成
タグライン、スクリプト、ボイスオーバーの生成
Amazon外のメディア(Prime Video等)への広告展開

Amazonは2025年9月、プラットフォーム上のサードパーティ出品者向けに、自律的に業務を代行するエージェントAI機能の導入・拡張を発表しました。既存の「Seller Assistant」を強化し、さらにAI広告作成チャットボットを提供します。これにより、在庫管理、コンプライアンス遵守、広告クリエイティブ制作などの広範な業務が自動化され、出品者の生産性と収益性の最大化を図ります。

拡張されたSeller Assistantは「常時稼働」のAIエージェントとして機能します。これは単なるツールではなく、セラーに代わってプロアクティブに働きかけることを目的としています。ルーティン業務から複雑なビジネス戦略までを自動で処理し、出品者は商品開発や事業成長といったコア業務に集中できる体制を構築します。

特に注目されるのが在庫管理の最適化機能です。エージェントは在庫レベルを継続的に監視し、売れ行きの遅い商品を自動的に特定します。これにより、長期保管料が発生する前に価格の引き下げや商品の削除を推奨。また、需要パターンを分析し、最適な出荷計画を立てるサポートも行います。

複雑化する規制への対応も自動化します。Seller Assistantは、出品リストが最新の製品安全性ポリシーに違反していないかをスキャンするほか、各国で販売する際のコンプライアンス要件への適合を自動で確保します。これはグローバル展開を志向するセラーにとって大きなリスク低減となります。

同時に導入されたAI広告チャットボットは、クリエイティブ制作の時間とコストを大幅に削減します。出品者が求める広告の概要をテキストで入力するだけで、AIがブランドガイドラインや商品詳細に基づき、静止画や動画のコンセプトを自動で生成します。

このチャットボットは、タグラインや画像だけでなく、スクリプト作成、音楽追加、ボイスオーバー、絵コンテのレイアウトまでを完結できます。生成された広告は、Amazonのマーケットプレイス内だけでなく、Prime VideoやKindle、TwitchといったAmazonの広範なプロパティに展開され、露出を最大化します。

これらの新機能は、Amazon独自の基盤モデルであるNova AI、およびAnthropicClaudeを活用しています。今回の発表は、AIが商取引を主体的に推進する「エージェント主導型コマース」の流れを加速させています。Googleなども同様にエージェントによる決済プロトコルを公開しており、AIによる業務代行競争が本格化しています。

YouTube、クリエイター向けAIを全面強化 Veo 3 Fastやリップシンク導入

<span class='highlight'>Veo</span>連携と動画編集

テキストから動画生成Veo 3 Fast」統合
会話から楽曲自動生成「Speech to Song」
生素材から初稿を自動編集「Edit with AI」

チャンネル成長支援

AIチャットボットAsk Studio」でインサイト分析
タイトル/サムネイルの最大3種A/Bテスト
無断利用された顔を検出・削除(YPP向け)

ポッドキャスト/多言語対応

多言語吹き替えにリップシンクを導入
音声コンテンツからプロモーション動画生成

YouTubeは「Made on YouTube 2025」にて、クリエイター生産性向上と収益拡大を目的とした大規模なAIツール群を発表しました。Shorts制作効率化のほか、チャンネル運営分析、著作権保護、そして多言語展開を支援する機能が焦点です。これにより、クリエイターコンテンツ制作における高い生産性とグローバルな収益機会を得られると期待されます。

特に注目すべきは、ショート動画(Shorts)向けにGoogle動画生成モデル「Veo 3 Fast」が統合された点です。これは低遅延の480p動画をテキストプロンプトから生成でき、静止画に動画の動きを適用する機能も搭載されます。クリエイターアイデアを即座に映像化でき、トレンドへの対応速度が飛躍的に向上します。

編集作業の負担も大幅に軽減されます。「Edit with AI」は、カメラロールの生素材から最適な場面を抽出し、音楽やトランジション、ボイスオーバーを自動で付与し、初稿を生成します。また、会話の内容をキャッチーな楽曲に変換する「Speech to Song」も導入され、より手軽なリミックス文化を推進します。

チャンネル運営の効率化のため、YouTube StudioにはAIチャットボット「Ask Studio」が導入されます。これはチャンネルのパフォーマンス分析や視聴者の反応に関する実用的なインサイトを提供し、収益化戦略を支援します。タイトルやサムネイルのA/Bテストも最大3パターンまで比較可能となり、最適化を促進します。

グローバル展開とブランド保護も重要なテーマです。自動吹き替え機能はさらに進化し、翻訳された音声に合わせたリップシンク技術(口の動きの同期)をテストすることで、翻訳動画のリアリティを大幅に高めます。視聴者が違和感なく視聴できる環境を提供します。

さらに、YouTubeパートナープログラム(YPP)参加者向けには、自身の顔の無断利用を検知し、削除を管理できる「肖像検出」機能がオープンベータ展開されます。これはクリエイターが自身のイメージや評判を守り、デジタル著作権を管理する上で重要なリスク管理ツールとなります。

ポッドキャスト領域への注力も見逃せません。AIは既存のビデオポッドキャストからプロモーション用のShortsやクリップを自動で提案・生成します。また、音声のみのポッドキャストに対しても、カスタマイズ可能な映像を自動で生成可能となり、オーディオクリエイターの新規開拓と視聴時間増に貢献します。

NVIDIAが英国の「AIメーカー」戦略を加速 物理AI・創薬・ロボティクス分野で広範に連携

英国の国家AI戦略を支援

英国のAI機会行動計画を後押し
世界クラスの計算基盤への投資
AI採用を全経済分野で推進
AIユーザーでなくAIメーカーを目指す

重点分野での協業事例

スパコンIsambard-AI」で基盤構築
ロボティクス:自律走行、製造、ヒューマノイド開発
ライフサイエンス:AI創薬デジタルツインを活用

NVIDIA英国のAIエコシステムとの広範なパートナーシップを強調し、英国の国家戦略である「AIメーカー」としての地位確立を強力に支援しています。ジェンスン・ファンCEOの英国訪問に際し、物理AI、ロボティクス、ライフサイエンス、エージェントAIなど最先端領域における具体的な協業事例が公表されました。

英国のAI基盤強化の核となるのは、NVIDIA Grace Hopper Superchipsを搭載した国内最速のAIスーパーコンピューター「Isambard-AI」です。これにより、公的サービスの改善を目指す独自の多言語LLM(UK-LLM)や、早期診断・個別化医療に向けた医療基盤モデル(Nightingale AI)など、重要な国家プロジェクトが推進されています。

特に物理AIとロボティクス分野での応用が加速しています。Extend Roboticsは製造業向けに安全なロボット遠隔操作システムを開発。Humanoid社は倉庫や小売店向けの汎用ヒューマノイドロボットを開発しており、いずれもNVIDIAのJetsonやIsaacプラットフォームが活用されています。

ライフサイエンス分野では、AIによる創薬の加速が目覚ましいです。Isomorphic LabsはAI創薬エンジンを構築し、英国CEiRSIはNVIDIA技術を用いて複雑な患者のデジタルツインを作成。これにより、大規模かつ多様な患者集団に対する新しい治療法のテストを可能にしています。

エージェントAIおよび生成AIのイノベーションも活発です。Aveniは金融サービスに特化したLLMを開発し、コンプライアンスを確保しながら顧客対応やリスク助言を行うエージェントフレームワークを構築しました。ElevenLabsやPolyAIは、超リアルな音声生成や、大規模な顧客サポート自動化を実現しています。

また、AIスキルギャップ解消への取り組みも重要です。技術ソリューションプロバイダーのSCANは、NVIDIA Deep Learning Instituteと連携し、コミュニティ主導型のトレーニングプログラムを展開しています。これにより、英国全土でAIや専門的なワークロードに対応できる人材育成が進められています。

Google、生成AI「LearnLM」で学習効果11%向上へ

学習効果を高めるAI基盤

独自AIモデル「LearnLM」を活用
教育学に基づきコンテンツを再構築
最新のGemini 2.5 Proに統合
静的な教科書を対話型ガイドに変換

個々人に合わせた学習体験

学習者のレベルや興味に応じて内容を適応
インドマップや音声レッスンを生成
リアルタイムフィードバック付きの対話型クイズ
長期記憶テストで11%のスコア向上

Googleは、教育分野における生成AI活用実験「Learn Your Way」を発表しました。独自AIモデル「LearnLM」を基盤とし、静的な教科書を学習者の興味やレベルに合わせた対話型コンテンツに変革します。学習科学に基づいて設計されたこのツールは、従来のデジタル教材利用者と比較して長期記憶テストで11%のスコア向上を実現しました。

Learn Your Wayの中核となるのは、教育学(ペダゴジー)が注入された特化型モデルLearnLMです。これは現在、Googleの高性能基盤モデルGemini 2.5 Proに直接統合されています。単なる情報検索ではなく、学習プロセス全体にAIを深く関与させ、指導のエッセンスを組み込むことが特徴です。

具体的な機能として、AIは元の教材に基づき、マインドマップ、オーディオレッスン、そしてリアルタイムフィードバック付きのインタラクティブなクイズなどを生成します。これにより、学習者が自身のペースやスタイルで能動的に学びを進められる、自己主導的な学習環境を提供します。

この実証実験で示された11パーセントポイントという記憶定着率の向上は、企業研修や高度な専門知識の習得において、極めて重要な意味を持ちます。生産性向上を目指す経営層やリーダーにとって、特化型AIが教育・トレーニングにもたらす革新性を示す明確な事例として注目されます。