音声に関する最新ニュース（116件） | 【AI Times】生成AIやLLMの最新情報・ニュース

騒音下の音声認識を革新、米新興が6百万ドル調達

2025年11月06日アシスタント創業者投資家半導体ハードウェアクラウド音声スタートアップブランド投資提携資金調達

革新的な音声分離モデル

騒音環境でも人の声を正確に捕捉

デバイスの音響特性に合わせて最適化

汎用モデルを凌駕する高い性能

ユーザーの声に適応しパーソナル化

事業拡大と有力企業との連携

シードで600万ドルの資金調達を完了

クアルコムの公式プログラムに選定

大手自動車・家電メーカーと提携

来年には自社製品の発表も計画

詳細を見る

カリフォルニア州のスタートアップSubtle Computingは11月6日、騒がしい環境下でも正確に音声を認識する独自の「音声分離モデル」を開発し、シードラウンドで600万ドル（約9億円）を調達したと発表しました。この技術は、AI議事録サービスや音声アシスタントなど、急成長する音声AI市場の精度向上に大きく貢献する可能性があります。

同社の強みは、デバイスごとに最適化されたモデルを提供できる点にあります。多くの既存ソリューションが汎用的なモデルをクラウドで処理するのに対し、同社はデバイス固有の音響特性を学習させます。これにより、汎用モデルより桁違いに高い性能を実現し、ユーザーの声にも適応するパーソナライズされた体験を提供できるとしています。

AI議事録作成ツールや音声入力アプリの市場は急拡大していますが、カフェや共有オフィスのような騒音環境での音声認識精度の低さが共通の課題でした。Subtle Computingの技術は、こうした実用シーンでの課題を直接解決し、音声AIの利用範囲を大きく広げる可能性を秘めています。

今回の資金調達はEntrada Venturesが主導し、Twitterの共同創業者ビズ・ストーン氏など著名なエンジェル投資家も参加しました。投資家は「音声AIはノイズの多い市場だが、同社の音声分離への特化は信頼性の高いユーザー体験を生み出すゲームチェンジャーだ」と高く評価しています。

同社は既に半導体大手クアルコムのプログラムに選定されており、同社のチップを搭載する多くのデバイスで技術が利用可能になる見込みです。また、社名は非公開ながら大手自動車メーカーや家電ブランドとも提携しており、来年には自社ブランドのハードウェアとソフトウェア製品を発表する計画も明らかにしています。

出典：TechCrunch

Googleマップ、AIでインドの交通安全を革新

2025年11月06日 Google Gemini アシスタント音声米国インド提携

AI『Gemini』の現地化

ハンズフリーのAIアシスタント導入

インド特有の利用文脈を学習

インドの9言語に初期対応

当局連携で高める安全性

事故多発地帯での警告機能

国道庁とリアルタイムで道路情報連携

ナビ中の速度制限表示

利便性を高める新機能

立体交差の音声案内サポート

沿道の公共施設（トイレ等）表示

詳細を見る

Googleは2025年11月6日、インド市場向けにGoogleマップを大幅にアップデートすると発表しました。対話AI「Gemini」を統合し、ハンズフリー操作や文脈に応じた情報提供を実現。さらに、地方自治体と連携した道路安全アラートなどを追加し、ユーザー体験の向上を図ります。

今回のアップデートの核となるのがGeminiの統合です。米国に続きインドで導入されますが、単なる言語対応に留まりません。Googleは「インド人が製品をどう使うか、どう質問するか」といった文化的・言語的背景を深く考慮し、真のローカライズを目指したと強調。対応言語は9つのインド言語に及びます。

安全性の向上も大きな柱です。地方自治体と協力し、ドライバーが事故多発地帯に近づくと視覚と音声で警告する機能を一部都市で導入します。これにより、インドにおける交通安全という社会課題の解決に貢献することを目指します。過去にはナビの信頼性が問われる事故も発生していました。

さらに、インド国道庁（NHAI）との提携により、道路の閉鎖や迂回路、工事といった情報をほぼリアルタイムで地図に反映させます。この連携は、国道沿いの公衆トイレやレストランといった沿道施設の表示拡充にも繋がり、ドライバーの利便性を大きく高めるものです。

このほか、ナビ中の速度制限表示や、昨年導入された立体交差ナビの音声サポートなど、日常の運転を支援する機能も追加されます。Googleは、AIとデータ連携を駆使し、ダイナミックに変化する現地の道路状況に即した、より精度の高いナビゲーションの提供を今後も進めていく方針です。

出典：TechCrunch

Google Finance、AIで進化複雑な調査を数分で完結

2025年11月06日 Google Gemini 検索投資家音声米国インド投資

AIによる金融調査の新時代

複雑な問いにAIがレポート作成

数百の検索を同時に実行

数分で引用付きの回答

有料プランで利用制限緩和

予測と決算分析を強化

予測市場データで未来を問う

決算発表をリアルタイムで追跡

AIによる要約で重要点を把握

詳細を見る

Googleは2025年11月6日、金融情報サービス「Google Finance」に、生成AI「Gemini」を搭載した新機能を追加すると発表しました。中核となる「Deep Search」機能は、複雑な金融関連の問いに対して数分で詳細なレポートを作成。さらに予測市場のデータも統合し、投資家やビジネスリーダーの情報収集・分析能力を飛躍的に高めることを目指します。

新機能の目玉は「Deep Search」です。これは従来のキーワード検索とは一線を画します。例えば「S&P; 500とナスダックの相関性は？金利やインフレ率など、どのような経済条件下で一方が優位になるか？」といった複雑で多角的な問いに対し、AIが数百の検索を同時に実行。信頼できる情報源からの引用付きで、包括的な分析レポートをわずか数分で生成します。

もう一つの注目機能が、予測市場データプロバイダー「Kalshi」や「Polymarket」との連携です。「2025年のGDP成長率はどうなるか？」といった未来に関する問いに対し、市場参加者の予測に基づいた確率データを提示します。これにより、従来の分析手法に加え、新たな視点から市場の将来動向を探ることが可能になります。

投資家にとって重要な決算発表シーズンにも対応します。企業の決算説明会をライブ音声とリアルタイムの文字起こしで追跡できるほか、発表前・中・後で更新されるAIによる要約機能も提供。膨大な情報の中から、重要なポイントを効率的に把握できるよう支援します。

「Deep Search」は、無料ユーザーでも月に数回利用できますが、より高度な分析を求めるユーザー向けに、有料プラン「AI Pro」および「AI Ultra」では利用上限が大幅に引き上げられます。新機能はまず米国で数週間以内に展開され、その後インドでもサービス提供が開始される予定です。

出典：Ars Technica | Google公式 | The Verge

Foursquare創業者、AI音声ガイドBeeBotを発表

2025年11月06日 iOS エンジニア創業者音声音楽米国

新感覚のソーシャル音声ガイド

友人・地域の情報を音声で取得

AIが関心事を自動で通知

Wazeとゴシップガールの融合

徒歩での都市散策に最適化

利用シーンと今後の展開

ヘッドフォン装着で自動起動

音楽やポッドキャストを阻害しない

現在は米国 iOS限定のベータ版

CarPlay版も開発中

詳細を見る

位置情報共有サービスFoursquareの共同創業者デニス・クロウリー氏が、新作アプリ「BeeBot」を発表しました。これは、ユーザーの位置情報に基づき、AIが近隣の出来事や友人の動向などを音声で伝えるソーシャルアプリです。ヘッドフォンを装着するだけで、まるでパーソナルDJがいるかのように、街歩きをしながらリアルタイムの情報が得られます。現在は米国限定でiOS向けに提供されています。

BeeBotのコンセプトは「パーソナライズされたラジオDJ」です。友人が近くにいること、地域のニュース、話題のイベントなど、ユーザーの興味やソーシャルグラフに合わせてカスタマイズされた短い音声アップデートを提供します。開発者はその雰囲気を「Wikipediaを耳で聞くのではなく、Wazeとゴシップガールを融合させたような体験」と表現しています。

このアプリは、ユーザー体験のシームレスさが特徴です。AirPodsをはじめとするあらゆるヘッドフォンやBluetoothオーディオ機器に対応し、装着すると自動的に起動します。音楽やポッドキャストを聴いている際は音量を下げて情報を伝え、終了後は自動で元に戻ります。電話やビデオチャットを中断することはありません。

ユーザーが情報過多にならないよう、アップデートの頻度は1日に数回程度に抑えられています。情報源は、他のBeeBotユーザーの位置情報やステータス更新のほか、ユーザー自身が設定した興味関心の「キーワード」を活用し、ローカルの店舗やイベントを提案します。

BeeBotは現在「ベータ版」と位置付けられており、特に徒歩での利用者が多い米国の都市部で最適な体験が得られるよう設計されています。利用は米国のiOSユーザーに限定されていますが、将来的にはCarPlay版の開発も進められており、今後の展開が期待されます。

出典：The Verge

映画との連携機能

登場人物による音声ナビ

主演俳優本人が声を担当

限定の車両アイコンも提供

運転をショーに変える演出

利用方法と提供範囲

アプリ内バナーから有効化

最新版への更新が必須

全世界で英語音声にて提供

詳細を見る

グーグル傘下のナビアプリ「Waze」は、2025年11月14日公開の新作映画『Now You See Me: Now You Don’t』との提携を発表しました。この機能では、映画の登場人物であるアトラスとヘンリーの声をナビ音声として設定できます。日常の運転をエンターテインメント体験に変えることで、ユーザーエンゲージメント向上を狙う試みです。

ナビ音声は、主演俳優のジェシー・アイゼンバーグとアイラ・フィッシャーが自ら担当しています。二人のマジシャンが目的地まで効率的に案内するだけでなく、道中では軽妙な競争的な掛け合いも披露し、ドライバーを楽しませます。単なる道案内を超えた、没入感のある体験を提供します。

音声以外にも、Wazeマップ上で自分の車として表示されるアイコンを、限定の「The Magician」に変更できます。また、自分の状態を示す「ムード」機能では「Visionary」を選択可能。これにより、ユーザーは映画の世界観に深く没入しながら運転を楽しめます。

この限定機能を利用するには、Wazeアプリを最新版にアップデートし、アプリの左側メニューに表示される「Now You See Me」バナーを探して有効化する必要があります。この機能は全世界で利用可能ですが、音声は英語のみの提供となります。

今回の提携は、テクノロジープラットフォームがエンタメコンテンツと融合し、新たな顧客体験価値を創出する好例と言えるでしょう。ブランドはWazeの広範なユーザー基盤を活用してプロモーションでき、Waze側は独自機能でユーザーの定着率向上を図れます。異業種連携は、今後のアプリマーケティングの重要な一手となりそうです。

出典：Google公式

OpenAI、企業顧客100万人突破史上最速で成長

2025年11月05日 OpenAI ChatGPT Codex 生産性 AI活用 GPT-5 画像音声コードレビュー投資

驚異的な成長スピード

企業顧客数が100万人を突破

史上最速のビジネスプラットフォーム

Enterprise版シート数は前年比9倍

Work版シート数は700万席を突破

生産性を高める新機能群

GPT-5搭載のAgentKitで業務自動化

Codexでコードレビュー時間を半減

マルチモーダル対応で多様な業務へ

企業の75%がプラスのROIを報告

詳細を見る

OpenAIは、法人向けサービスの利用企業が世界で100万社を突破し、史上最速で成長するビジネスプラットフォームになったと発表しました。ChatGPT for Workのシート数も700万席を超え、2ヶ月で40%増と急拡大しています。消費者向けChatGPTの普及を背景に、業務自動化を支援する新ツール群も投入し、企業のAI活用を後押しします。

企業向けサービスの勢いは数字にも表れています。有料の法人顧客は100万人を超え、特に大企業向けのChatGPT Enterpriseのシート数は前年比で9倍に達しました。この成長は、AIが単なる実験的ツールから、事業運営に不可欠な基盤へと移行している現状を明確に示しています。

この急成長の背景には、消費者向けChatGPTの圧倒的な普及があります。週に8億人が利用するサービスに慣れ親しんでいるため、従業員が抵抗なく業務でAIを使い始められます。これにより、企業は導入時の摩擦を減らし、投資対効果（ROI）を早期に実現できるのです。

OpenAIは企業の本格導入を支援するため、新ツール群も発表しました。社内データと連携する「AgentKit」や、コード生成を支援する「Codex」の利用が急増。画像や音声も扱えるマルチモーダル機能も強化し、より幅広い業務での活用を可能にしています。

実際に多くの企業が成果を上げています。ウォートン校の調査では、導入企業の75%がプラスのROIを報告。求人サイトIndeedは応募数を20%増加させ、シスコはコードレビュー時間を半減させるなど、具体的なビジネス価値を生み出しています。

自社ツールへの組み込みも進んでいます。CanvaやShopifyなどがChatGPTと連携し、新たな顧客体験を創出しています。OpenAIは、単なるツール提供者にとどまらず、「仕事のOS」を再定義するプラットフォームとなることを目指しており、その動きは今後さらに加速しそうです。

出典：OpenAI公式

Google、市民参加型AIで熱帯雨林の生態系を保全

2025年11月05日 Google DeepMind ファインチューニングクラウド音声ブラジル

市民参加でAI生態系保全

Googleの新プロジェクト始動

熱帯雨林の音を市民が聞き分ける

生物多様性モニタリングが目的

専門機関WildMonとの協業

「耳」でAIを訓練し貢献

回答でAIモデル'Perch'を訓練

120万以上の音声録音が基盤

データ不足の課題を解決

不可能だった規模での生態系保護

詳細を見る

Googleが市民参加型のAIプロジェクト「Forest Listeners」を開始しました。これは、ブラジルの熱帯雨林の生態系を保護するため、一般の人々が動物の鳴き声を聞き分け、AIモデルを訓練する取り組みです。Google Arts & CultureとDeepMindが開発し、専門機関と協力。クラウドソーシングで収集したデータにより、生物多様性のモニタリングをこれまでにない規模で実現することを目指します。

参加者はウェブサイト上の仮想3D森林で、録音された音を聞きます。そして、特定の動物の鳴き声が聞こえるかどうかを「はい」か「いいえ」で回答するだけです。この簡単な操作を通じて、誰もが専門的な知識なしに、最先端のAI研究と環境保全に直接貢献できる仕組みとなっています。

なぜ「音」なのでしょうか。森林に生息する動物の鳴き声の多様性やパターンは、その生態系の健全性を示す重要な指標です。しかし、何千時間にも及ぶ録音データを人力で分析するのは困難で、特に多くの重要種ではAIの訓練データが不足しているという課題がありました。

市民からの回答は、Google DeepMindのAIモデル「Perch」をファインチューニングするために活用されます。120万件以上の音声録音を基に、検証済み音声の巨大なライブラリを構築。これにより、AIが自動で種を認識する精度が向上し、科学者による生態系保護活動を大規模に支援します。

このプロジェクトは、単なるデータ収集に留まりません。参加者が熱帯雨林の生命力あふれる音に触れ、自然保護への関心を深める機会を提供します。テクノロジーと市民の協力を融合させ、地球の貴重な生態系を守るための新しいモデルケースとなることが期待されます。

出典：Google公式

Googleマップ、Gemini搭載で会話型ナビへ進化

2025年11月05日 Google Gemini Android iOS 検索アシスタントハルシネーション画像音声米国

運転中の会話型操作

ルート上の複雑な条件検索

カレンダー登録など複数アプリ連携

音声による交通障害の報告

より直感的なルート案内

目印の建物を基準にした案内

ストリートビュー画像との連携

事前の交通障害アラート

周辺情報のAI検索

Googleレンズでかざして質問

建物の人気や特徴をAIが回答

詳細を見る

Googleは2025年11月5日、地図アプリ「Googleマップ」に生成AI「Gemini」を統合し、ナビゲーション機能を大幅に強化すると発表しました。運転中にAIと対話しながら複雑な検索や操作ができる会話型体験や、目印となる建物を活用した直感的なルート案内が実現。より安全でストレスのない移動体験を目指します。

最大の目玉は、ハンズフリーの会話型運転体験です。「ルート沿いのビーガン対応レストラン」といった複雑な検索や、カレンダー登録などのアプリ連携も音声で完結。従来のGoogle アシスタントの役割をGeminiが完全に代替し、利便性を高めます。

ルート案内も大きく進化。「500メートル先」といった距離ベースではなく、「あのレストランの角を右折」といったランドマーク基準の直感的な案内に変わります。AIが膨大な場所情報とストリートビュー画像を照合し、実際に見える建物を特定することで実現しました。

ナビ未設定の通勤路でも交通渋滞などを事前通知する新機能も搭載。到着後は、Googleレンズで気になる建物にカメラをかざし「人気メニューは？」といった質問が可能に。移動前から到着後までシームレスな情報収集を実現します。

新機能はまず米国市場を中心にAndroidとiOS向けに順次提供が開始されます。会話型ナビはGeminiが利用可能な全地域で展開し、将来的にはAndroid Autoにも対応予定。GoogleのAIファースト戦略を象徴する動きです。

生成AI特有の「ハルシネーション」について、Googleは実世界のデータに根差しているため問題ないとの見解を示しました。信頼性の高いデータとAIの対話能力を組み合わせ、「すべてを知る副操縦士」のような存在を目指します。

出典：TechCrunch | Google公式 | Google公式 | The Verge | Ars Technica

ささやき声で思考記録、元Meta社員のAIリングStream

2025年11月05日 Meta アシスタント創業者ハードウェアウェアラブル音声音楽スタートアップ

思考を捉える新体験

ささやき声でアイデアを即記録

タッチ操作でマイクを起動

スマホ不要で思考に集中

専用アプリでノートを自動整理

多機能なスマートデバイス

音楽再生も指先でコントロール

AIがユーザーの声で応答

ハプティクスで静かにフィードバック

製品概要と価格

価格は249ドルから

2026年夏に出荷開始予定

詳細を見る

元Metaの社員が設立したスタートアップSandbarが、AI搭載スマートリング「Stream Ring」を発表しました。このデバイスは、ささやき声でも思考を瞬時に音声メモとして記録し、AIと対話できるのが特徴です。価格は249ドルからで、2026年夏の出荷を予定。激化するAIウェアラブル市場に、新たな選択肢を投じます。

Stream Ringは「声のためのマウス」というコンセプトを掲げています。開発の背景には、歩行中や移動中に浮かんだアイデアを、スマートフォンを取り出すことなくシームレスに記録したいという創業者自身の課題がありました。ユーザーが思考の流れを中断せずに、アイデアをその場で捉えることを目指しています。

使い方は直感的です。人差し指に装着したリングのタッチパッドを押さえている間だけマイクが起動し、音声を記録。高感度マイクにより、周囲に人がいる場所でもささやき声でメモを取ることが可能です。記録された内容は専用アプリで自動的に整理され、AIが要約や編集を補助します。

本製品のAIは、単なるメモツールにとどまりません。ユーザーの記録内容に基づいて問いを投げかけ、思考の深掘りを助けます。さらに、応答するAIの声をユーザー自身の声に似せてパーソナライズする「Inner Voice」機能を搭載。あたかも自分自身と対話しているかのような体験を提供します。

音声メモ機能に加え、音楽の再生・停止、音量調整といったメディアコントローラーとしても機能します。価格はシルバーモデルが249ドル、ゴールドモデルが299ドル。月額10ドルのProサブスクリプションでは、無制限のチャット機能などが提供されます。

AIハードウェア市場では多くの製品が登場しては消えていきました。Sandbar社は、Stream Ringを「アシスタント」や「友人」ではなく、あくまでユーザーが主導権を握る「思考拡張ツール」と位置づけています。この明確なコンセプトで、先行する競合製品との差別化を図る考えです。

出典：TechCrunch | The Verge | WIRED

アップル、Siri刷新へGoogleと年10億ドル契約か

2025年11月05日 Google OpenAI Anthropic Apple ChatGPT Gemini Siri アシスタントチャットボットクラウド音声提携

年10億ドルの大型契約

Siri刷新に向けたGoogleとの提携

年間約10億ドル（約1500億円）の支払い

カスタムAI「Gemini」モデルの利用

圧倒的な性能と狙い

1.2兆パラメータのGeminiを採用

Apple現行AIの8倍の複雑性

自社AI開発までのつなぎとしての位置付け

今後の展望

新Siriは来春ローンチ予定

計画変更の可能性も残る

詳細を見る

アップルが音声アシスタント「Siri」のAI機能強化のため、グーグルと年間約10億ドルの大型契約に近づいていることが報じられました。グーグルのカスタムAIモデル「Gemini」を導入し、刷新されたSiriは来春のローンチが予定されています。

導入されるGeminiモデルは、ソフトウェアの複雑さを示すパラメータ数が1.2兆に達します。これはアップルの現行クラウドAIモデル（1500億）の約8倍に相当する規模です。この強力なAIにより、要約の生成や計画関連タスクの実行が可能になります。

AI開発で競合に後れを取っていたアップルにとって、今回の提携は重要な一手です。ただし、これはあくまで一時的な解決策との見方もあります。アップルは最終的に、自社開発のAI技術でGeminiを置き換えることを目指していると報じられています。

アップルは今年初め、OpenAIやAnthropicといった他のAI企業のモデルも検討していました。各社のモデルをテストした結果、最終的にグーグルとの提携を選択した模様です。この契約は、ChatGPTのようなチャットボット機能をSiriに統合する計画とは別個のものです。

アップルのティム・クックCEOは、新しいSiriの登場を来春と示唆しつつ、他のサードパーティ製AIとの統合にも含みを持たせています。巨大テック企業同士の提携は、生成AI市場の勢力図を大きく変える可能性を秘めているでしょう。

出典：The Verge | TechCrunch

マイクロソフト、初の独自AI画像生成モデルを公開

2025年11月04日 OpenAI マイクロソフト Copilot 検索 AI活用画像生成 GPT-5 GPT-4 コンテンツ画像音声

独自モデル「MAI-Image-1」

MS初の独自開発AI画像生成モデル

モデル名は「MAI-Image-1」

写実的な風景や照明の生成に強み

速度と品質の両立をアピール

OpenAI依存脱却への布石か

BingとCopilotで提供開始

OpenAIモデルと並行して提供

Copilot 音声ストーリーにも活用

AI開発の主導権確保を狙う動き

詳細を見る

マイクロソフトは2025年11月4日、同社初となる自社開発のAI画像生成モデル「MAI-Image-1」を発表しました。この新モデルは、検索エンジンBingの画像生成機能やCopilotで既に利用可能となっています。大手IT企業がOpenAIへの依存度を下げ、独自のAI開発を加速させる動きとして注目されます。

「MAI-Image-1」は、特に食べ物や自然の風景、芸術的な照明、そして写実的なディテールの表現に優れているとされます。マイクロソフトは「速度と品質の両立」を強調しており、ユーザーはアイデアを素早く視覚化し、試行錯誤を重ねることが容易になります。

この新モデルは、Bing Image Creatorにおいて、OpenAIのDALL-E 3やGPT-4oと並ぶ選択肢の一つとして提供されます。また、Copilotの音声合成機能では、AIが生成した物語に合わせてアートを自動生成する役割も担い、コンテンツ制作の幅を広げます。

今回の発表は、マイクロソフトがAI開発の主導権を確保しようとする大きな戦略の一環です。同社は8月にも独自の音声・テキストモデルを発表しており、OpenAIへの依存からの脱却を段階的に進めていると見られます。独自技術の強化は、今後の競争優位性を左右する鍵となるでしょう。

一方でマイクロソフトは、CopilotにOpenAIの最新モデルGPT-5を導入するなど、マルチAIモデル戦略も同時に推進しています。自社開発と外部の高性能モデルを使い分けることで、あらゆるニーズに対応する構えです。最適なAI活用のバランスをどう取るのか、同社の動向から目が離せません。

出典：The Verge

Googleマップ、AIで車線変更をリアルタイム案内

2025年11月04日 Google Android AI活用音声米国提携

AI活用の新ナビ機能

前方カメラで道路標識・車線を認識

AIがリアルタイムで情報を分析

音声と映像で最適な車線変更を指示

複雑な高速道路での運転ストレス軽減

Polestar 4から提供

まずEV「Polestar 4」に搭載

提供地域は米国とスウェーデンから

今後、他車種や一般道へも拡大予定

詳細を見る

Googleは2025年11月4日、地図アプリ「Googleマップ」にAIを活用した新機能「ライブレーンガイダンス」を追加すると発表しました。電気自動車（EV）の「Polestar 4」を皮切りに、米国とスウェーデンで提供を開始します。車両のカメラ映像をAIが解析し、複雑な高速道路などで最適な車線変更をリアルタイムに案内することで、ドライバーのストレス軽減と安全性向上を目指します。

この新機能の核心は、AIがドライバーのように「見る」能力にあります。車両の前方カメラが捉えた車線や道路標識の映像をAIがリアルタイムで分析。この情報をGoogleマップが持つ交通情報やルート案内と即座に統合し、これまで以上に精密なナビゲーションを実現します。これにより、常に最適な車線にいることが可能になります。

例えば、高速道路の左側車線を走行中、右側に出口が迫っているとします。新機能はドライバーが出口から数車線離れていることを検知し、音声とダッシュボードの表示で余裕を持った車線変更を促します。出口の見逃しや、直前での危険な割り込みを未然に防ぐ効果が期待できるでしょう。

ライブレーンガイダンスは、まず「Polestar 4」に搭載されます。Polestarの車両はインフォテインメントシステムにGoogleのAndroidソフトウェアを標準で内蔵しており、こうした新機能との連携がスムーズです。同社のUX/UI責任者も「ドライバーのストレスを減らし、安全性を高める」と声明で述べています。

Googleは今後、他の自動車メーカーとも提携し、対応車種を順次拡大していく計画です。また、現在の対象は高速道路が中心ですが、将来的にはより多くの種類の道路にも対応を広げる方針を示しており、AIによる運転支援技術のさらなる進化が期待されます。

出典：The Verge | Google公式

AIで自然保護を加速 Googleが新ロードマップ発表

2025年11月04日 Google エンジニアインフラ画像音声投資

AIが可能にする3つの変革

惑星全体をリアルタイム監視

専門知識をスマホアプリで民主化

複雑な生態系の全体像を可視化

普及を加速する3つの提言

生物多様性データの収集を加速

オープンなAIモデルへの投資を優先

開発者と現場の連携を強化

詳細を見る

Googleと世界資源研究所(WRI)は、AIを活用して地球の自然保護と回復を加速するための新たなロードマップを発表しました。野生生物の個体数が過去50年で7割以上減少するなど、深刻化する生物多様性の危機に対し、AIが持つ膨大な情報処理能力で従来の課題を克服する狙いです。この提言は、テクノロジーが自然保護のあり方をどう変革しうるかを示しています。

なぜ今、AIが自然保護に不可欠なのでしょうか。従来の保護活動は、タイムリーなデータの欠如や、広大な生態系を監視するコストの高さといった障壁に直面してきました。AIは、人間には不可能な規模でデータを処理し、隠れたパターンを特定する能力で、これらの「古くからの障害」を打ち破る強力なツールとして期待されています。

報告書では、AIがすでに変革をもたらしている3つの領域を挙げています。第一に、惑星規模でのリアルタイム監視です。例えば「Global Fishing Watch」はAIを用いて数十億の衛星信号を解析し、違法漁業の監視や海洋生態系の保護に貢献。かつては想像もできなかった規模での状況把握を可能にしています。

第二に専門知識の民主化です。市民がスマホで撮影した動植物の写真をAIが識別するアプリはその好例です。第三に、生態系の全体像の可視化。衛星画像や音声記録など多様なデータをAIが統合し、保護活動に最も効果的な場所を特定するのに役立っています。

さらに、AIの潜在能力を最大限に引き出すため、報告書は3つの提言を打ち出しています。①生物多様性に関するデータ収集の大幅な拡充とインフラ整備、②誰もが利用できるオープンなAIモデルへの重点投資、③AI開発者と現場の実践者や地域社会との連携強化です。

AIは強力なツールですが、真の変革はテクノロジーと人間の情熱が融合して初めて生まれます。GoogleとWRIは、AIツールを保全の最前線にいる人々の手に届けることで、人と自然が共に繁栄する未来を創造できると強調しています。今後の技術実装と社会への浸透が注目されます。

出典：Google公式

アドビ、1コマ編集で動画全体を変える新AI発表

2025年10月31日生産性クリエイティブ動画音声プロンプト

動画編集を革新するAI

1フレーム編集を動画全体に自動適用

マスク不要で人物や物体を自在に除去・追加

AIが文脈を理解しオブジェクトを生成

静止画と音声も新次元へ

写真の光源や影を直感的に操作

AIプロンプトで発音や感情を後から修正

話者の声質を維持し単語の置換も可能

未来のクリエイティブ機能

物体の質感や向きを3Dのように変更

製品化は未定だが将来の搭載に期待

詳細を見る

アドビが年次カンファレンス「Max 2025」で、クリエイティブ制作の常識を覆す可能性を秘めた実験的なAIツール群「Sneaks」を公開しました。1フレームを編集するだけで動画全体に適用する技術や、写真の光源を自在に操るAI、さらには音声の発音まで修正できるツールなどが披露され、制作者の生産性を飛躍的に高めるものとして注目が集まっています。

最も注目されるのが、動画編集ツール「Project Frame Forward」です。このツールは、動画の最初の1フレームに加えた変更を、AIが映像全体にわたって自動で適用します。これまで時間のかかっていたマスク作成作業なしに、特定の人物を消したり、プロンプトで指示したオブジェクトを自然に追加したりすることが可能になります。

静止画編集では「Project Light Touch」が新たな表現の可能性を示しました。生成AIを活用し、写真内の光源の位置や向き、光の拡散具合を直感的に操作できます。消灯していたランプを点灯させたり、昼の風景を夜に変えたりすることも可能で、撮影後のライティング調整がかつてないほど自由になります。

音声編集の分野では「Project Clean Take」が大きなインパクトを与えます。このAIツールを使えば、収録済みの音声の発音ミスを修正したり、声のトーンを「幸せそうに」といった指示で変更したりできます。話者の声質を保ったまま単語を置き換えることも可能で、撮り直しの手間を大幅に削減します。

これら「Sneaks」で披露された機能は、あくまで開発中の実験的なプロジェクトであり、製品への搭載が保証されたものではありません。しかし、過去にはPhotoshopの機能などが同様の形で発表され、後に製品化された実績があります。今回発表されたツール群も、将来的にCreative Cloud製品へ搭載されることが期待されます。

出典：The Verge

UMGとStability AI、AI音楽ツールの共同開発で提携

2025年10月30日広告著作権音声音楽提携

提携の目的

音楽大手UMGとStability AIが提携

アーティスト中心のAIツール開発

次世代の音楽制作プロセスを支援

著作権を尊重したモデルを推進

開発されるツールの特徴

完全ライセンス音源のみで学習

商業的に安全な利用を保証

アーティストのフィードバックを最優先

詳細を見る

大手音楽会社ユニバーサルミュージックグループ（UMG）と生成AI企業のStability AIは10月30日、戦略的提携を発表しました。両社は、アーティストの創造性を支援するため、責任ある形で学習された次世代AI音楽制作ツールを共同開発します。

今回の提携の最大の特徴は、アーティストを開発プロセスの中心に据える点です。UMG所属のアーティストやプロデューサーから直接フィードバックを収集し、現場のニーズを反映させることで、完全にライセンスされ、商業的にも安全なAIツールの創出を目指します。

UMGは、AI技術の活用において「アーティスト第一」の姿勢を明確にしています。同社のマイケル・ナッシュ最高デジタル責任者は、「責任を持って学習されたモデルに基づくAIツールのみを推進する」と述べ、著作権侵害のないクリーンなAI開発へのコミットメントを強調しました。

一方、Stability AIは商用利用可能な安全な生成オーディオのリーダーです。同社の音声生成モデル「Stable Audio」は、ライセンス契約を締結したデータのみで学習されており、高品質で責任ある音楽・サウンド生成を可能にします。この技術基盤が今回の提携を支えます。

Stability AIは、ゲーム会社のElectronic Artsや広告大手WPPとも提携しており、各業界でプロ向けAIツールの開発を進めています。今回のUMGとの提携は、そのビジョンを音楽業界に拡大するものです。人間の芸術性を損なうことなく、創造プロセスを加速させることを目指します。

出典：Stability AI

Pinterest、声で探すAIアシスタントを導入

2025年10月30日検索アシスタントコンテンツ画像音声米国

声で探す新しい買い物体験

音声入力専用のAIアシスタント

保存ピンに基づき服装を提案

結果を音声で簡潔にナレーション

テキスト検索も引き続き利用可能

技術と今後の展開

会話形式で直感的な操作を実現

社内開発のマルチモーダルAIが中核

曖昧な要望もAIが具体化

米国でベータ版を提供開始

詳細を見る

ビジュアル探索プラットフォームのPinterestは10月30日、音声で対話できる新しいAIショッピングアシスタントのベータ版を米国で提供開始しました。この機能は、ユーザーが保存したコレクションや閲覧中の画像をもとに、パーソナライズされたファッションのアイデアを提案します。Z世代を中心に、より会話的で直感的な検索体験を提供し、プラットフォーム上での購買活動を促進することが狙いです。

このAIアシスタントは、音声入力専用に設計されています。ユーザーがマイクボタンを押しながら話しかけると、AIが要望を解釈し、関連性の高いピンや商品を推薦。結果は画面に表示されるだけでなく、音声で簡潔に説明されます。これにより、ユーザーはより自然な形でインスピレーションを得られるようになります。なお、従来のテキストベースの検索機能は引き続き利用可能です。

CEOのビル・レディ氏は、ユーザーの検索クエリが長文化・複雑化している傾向を指摘します。「テイラー・スウィフトが好きで編み物も趣味」といった曖昧な要望でも、会話形式なら表現しやすいと説明。このニーズに応えるため、Pinterestは社内で独自のマルチモーダルAIモデルを開発しました。音声、画像、テキスト情報を統合的に処理し、視覚的な提案を生成する「ビジュアルファースト」な設計が特徴です。

新機能はまず米国の成人ユーザーを対象にベータ版として公開され、今後数週間から数ヶ月かけて順次拡大される予定です。PinterestはこれまでもAIを活用してきましたが、過去には低品質なAI生成コンテンツの氾濫が問題視されたこともありました。同社はAI生成画像へのラベル表示などの対策を進めており、AI技術の責任ある活用とユーザー体験の向上を両立させる姿勢が問われます。

出典：The Verge

AI音声モデル、数年で汎用品に ElevenLabs CEO予測

2025年10月29日 Apple 創業者ハードウェア動画音声米国スタートアップ提携

AI音声モデルの現状

短期的な最大の競争優位性

未だ解決すべき品質課題の存在

課題解決に自社開発が必須

AI音声の未来予測

数年以内に進むコモディティ化

モデル間の性能差は縮小傾向へ

マルチモーダル化が進展

ElevenLabsの長期戦略

モデル構築と応用の両面に注力

他社連携やオープンソース活用

詳細を見る

AI音声合成技術のスタートアップ、ElevenLabsの共同創業者兼CEOであるマティ・スタニシェフスキ氏は2025年10月28日、米国のテックカンファレンスで、AI音声モデルは今後数年でコモディティ化（汎用品化）するとの見通しを明らかにしました。同氏は、短期的にはモデル開発が競争優位性を生むものの、長期的には技術が成熟し、応用面での価値創造が重要になると強調しました。

スタニシェフスキ氏は「長期的にはコモディティ化するでしょう」と明言。現在、各社がしのぎを削るモデル開発ですが、数年もすれば技術的な差は縮小していくと予測します。特定の音声や言語で多少の差は残るものの、全体としてモデル自体の独自性で差別化することは難しくなる、という見方です。

では、なぜ同社はモデルが汎用品化すると分かっていながら、今その開発に注力するのでしょうか。それは、短期的に見ればモデルの性能こそが「最大の優位性であり、最大の変革」だからです。AIが生成する音声の品質が低ければ、ユーザー体験を損ないます。この根本的な課題を解決するには、現時点では自社でモデルを構築する以外にないと説明します。

今後の技術トレンドとして、同氏はマルチモーダル化を挙げました。これは、音声と動画、あるいは音声と大規模言語モデル（LLM）を同時に生成・処理するアプローチです。「会話形式で音声とLLMを同時に扱うようになるでしょう」と述べ、モデルの融合が新たな可能性を開くと指摘しました。

ElevenLabsの長期戦略は、モデル構築とアプリケーション開発の両輪を回すことにあります。スタニシェフスキ氏は、かつてAppleがハードウェアとソフトウェアの融合で魔法を起こしたように、「製品とAIの組み合わせが、最高のユースケースを生み出す魔法になる」と語りました。他社との提携やオープンソース技術の活用も視野に入れ、応用面での価値創造を目指します。

AIモデル開発の競争が激化する中、技術そのものはやがて誰でも利用できる汎用的なものになる可能性があります。今回の発言は、AIを活用する企業にとって、モデルの性能競争だけでなく、それをいかに独自の製品やサービスに組み込み、顧客価値を創造するかという、応用力こそが長期的な成功の鍵を握ることを示唆しています。

出典：TechCrunch

Adobe、声の感情をAIで自在に操る新技術を発表

2025年10月29日 ChatGPT デザインクリエイティブクリエイターリスク著作権動画音声音楽

声の感情をテキストで修正

既存ナレーションをAIで感情修正

テキスト選択とプリセットで簡単操作

AI音声合成ではなく既存音声を加工

撮り直しの手間とコストを削減

音声トラックをAIで分離

1つの音声から複数トラックを抽出

背景ノイズや不要な音楽を除去

著作権侵害リスクを未然に防止

AIによる効果音の自動生成

映像をAIが解析し効果音を自動生成

チャット形式で自然言語による編集

詳細を見る

アドビは2025年10月29日、ロサンゼルスで開催中の年次カンファレンス「Adobe MAX」で、開発中の最新AI技術を披露しました。発表されたのは、録音済みのナレーションの感情をテキスト編集のように後から変更できる「Corrective AI」や、音声トラックから声や背景音を分離する「Project Clean Take」などです。これらの技術は、クリエイターの編集作業を劇的に効率化し、撮り直しの手間やコストを削減することを目的としています。

特に注目されるのが「Corrective AI」です。デモでは、平坦で単調なナレーションが、テキストを選択して「自信を持って」などの感情プリセットを選ぶだけで、瞬時に生き生きとした声に変わりました。再録音なしで声のトーンや感情を自在に調整できるこの機能は、映像制作の現場に大きな変革をもたらすでしょう。

同時に披露された「Project Clean Take」は、単一の音声トラックから声、環境音、効果音などをAIが正確に分離する技術です。例えば、街頭での撮影時に混入した騒音や、背景で流れる著作権で保護された音楽だけを除去し、別の音に差し替えることが可能になります。予期せぬノイズによる撮り直しや著作権侵害のリスクを、大幅に低減できるようになるのです。

さらに、映像をAIが解析し、シーンに合った効果音を自動で生成・追加する機能も紹介されました。驚くべきは、その編集方法です。ChatGPTのような対話型インターフェースを使い、「このシーンに車の音を加えて」と指示するだけで、AIが適切な効果音を生成し、完璧なタイミングで配置します。直感的な操作で、より高度な音響デザインが誰でも実現できるようになるでしょう。

これらのAI機能は、動画編集者やクリエイターが日々直面する課題を解決するために設計されています。音声の撮り直しという時間とコストのかかる作業を不要にし、壊れたオーディオデータの修復も可能にします。クリエイターは技術的な制約から解放され、より創造的な作業に集中できるようになるでしょう。

今回披露された機能はまだプロトタイプ段階ですが、アドビは例年「Sneaks」で発表した技術を数ヶ月から1年程度で製品に組み込んでいます。2026年頃には実用化される見込みです。こうした技術革新は、声優業界などにも影響を与え始めており、クリエイティブ産業とAIの共存のあり方が、改めて問われることになりそうです。

出典：WIRED

TC Disrupt2日目: AIと未来を語る巨人たち

2025年10月28日 Flow デザイン創業者投資家音声スタートアップ投資ベンチャーキャピタル

豪華登壇者が語る未来

Netflixの未来とストリーミング

Khosla Venturesの技術予測

Figmaが描くAI時代のデザイン

ElevenLabsの合成音声技術

AIとスタートアップの今

VCが求めるAIスタートアップ像

300社以上が出展するEXPO

熱戦を繰り広げるStartup Battlefield

詳細を見る

米TechCrunchは2025年10月28日、サンフランシスコで年次技術カンファレンス「TechCrunch Disrupt 2025」の2日目を開催しました。NetflixやKhosla Venturesなど業界の巨人が登壇し、AIとテクノロジーの未来について議論。スタートアップと投資家が集結し、会場は終日熱気に包まれました。

メインステージでは、Khosla Ventures創設者のヴィノド・コースラ氏が技術の未来を大胆に予測。また、NetflixのCTOであるエリザベス・ストーン氏が登壇し、競争が激化するストリーミング業界の次の一手について語り、聴衆の注目を集めました。

特に活況を呈したのがAIステージです。VCが求めるAIスタートアップの条件や、AIと創造性の融合、物理世界で活躍するフィジカルAIの未来など、多岐にわたるセッションが開催。合成音声技術で知られるElevenLabsの共同創業者も登壇しました。

「Builders Stage」では、プロダクトマーケットフィットの達成法やAI時代の製品設計といった、スタートアップにとって実践的なテーマが議論されました。またEXPOホールには300社以上のスタートアップが集結し、投資家へ自社の技術をアピールする姿が見られました。

ネットワーキングもイベントの重要な柱です。投資家と創業者専用の「Deal Flow Cafe」などが設けられ、具体的な商談が進行。恒例のピッチコンテスト「Startup Battlefield」も熱戦が繰り広げられ、次世代のユニコーン誕生への期待が高まりました。

出典：TechCrunch

Google家庭用AI、Gemini搭載で対話能力が飛躍

2025年10月28日 Google Gemini 生産性検索アシスタント音声音楽米国

Geminiへの進化点

既存アシスタントから無料アップグレード

より自然で高性能な会話能力を実現

複雑な質問や文脈の理解が向上

2つの対話モード

「Hey Google」でタスクを直接指示

「Let's chat」で自由な連続対話

高度機能は有料プラン

連続対話機能Gemini Live

カメラ履歴の音声検索や自動化作成

サブスクGoogle Home Premium必須

詳細を見る

Googleは2025年10月28日、新しい家庭用音声アシスタント「Gemini for Home」の早期アクセス版を米国で提供開始しました。既存のGoogle アシスタントがAIモデル「Gemini」にアップグレードされ、より自然で高性能な対話が可能になります。この基本機能は追加費用なしで利用できますが、連続対話機能「Gemini Live」などの高度な機能は、有料サブスクリプション「Google Home Premium」への加入が必要です。2026年には提供国を拡大する計画です。

今回のアップデートの核心は、基盤となるAIが従来のGoogle アシスタントからGeminiに刷新される点です。これにより、ユーザーはより複雑な質問を投げかけたり、文脈を維持したまま会話を続けたりすることが可能になります。例えば、専門的な知識に関する質問や、複数の条件を組み合わせたスマートホームの操作など、これまで以上に高度な要求に応えられるようになります。

Gemini for Homeには、主に2つの対話モードが用意されています。一つは従来の「Hey Google」という呼びかけで、リマインダー設定やスマートホーム機器の操作といった具体的なタスクを指示するモードです。もう一つは「Hey Google, let's chat」と話しかけて起動する「Gemini Live」で、相づちを挟んだり質問を重ねたりできる自由な連続対話が特徴です。

ビジネスモデルは、基本無料と有料サブスクリプションのハイブリッド型です。Geminiへのコアなアップグレードは無料で提供される一方、前述の「Gemini Live」や、カメラの録画履歴を音声で検索する機能、音声による自動化（オートメーション）作成といった高度な機能は、新たに導入される「Google Home Premium」の加入者に限定されます。

具体的な活用例として、Googleは100項目を挙げています。単なる天気予報や音楽再生にとどまらず、「量子コンピュータの最新動向を教えて」といった情報収集、「プロジェクトのアイデアを壁打ちしたい」といったブレインストーミング、「来週の出張に向けた準備リストを作って」といったタスク管理など、ビジネスシーンでの生産性向上にも貢献する機能が満載です。

今回の提供は早期アクセス版という位置づけであり、Googleはユーザーからのフィードバックを積極的に募集しています。「Hey Google, send feedback」と話しかけるだけで意見を送れる仕組みを用意し、製品の改善に役立てる方針です。家庭用AIアシスタント市場における競争が激化する中、ユーザーと共に製品を磨き上げる戦略がうかがえます。

出典：Google公式

Adobe、画像・音声生成AIを全方位で強化

2025年10月28日 Google Gemini 生産性アシスタント動画生成画像生成クリエイティブクリエイターコンテンツ画像動画音声ブランドエージェントプロンプト

Fireflyが大幅進化

新モデルFirefly Image 5登場

プロンプトでレイヤー編集が可能に

独自スタイルでカスタムモデル作成

AIアシスタント登場

PhotoshopとExpressに搭載

自然言語で複雑な編集を自動化

複数アプリを統括するMoonlightも

音声・動画生成も強化

動画に合わせたBGMを自動生成

テキストから高品質なナレーション生成

詳細を見る

アドビは2025年10月28日、年次カンファレンス「Adobe Max 2025」で、生成AI機能群の大幅なアップデートを発表しました。中核となる画像生成AI「Firefly」の新モデルや、Photoshopなどに搭載されるAIアシスタント、BGMやナレーションを自動生成する音声ツールを公開。クリエイティブ制作の生産性と表現力を飛躍的に高めることを目指します。

画像生成AIの最新版「Firefly Image 5」は、性能が大きく向上しました。ネイティブで最大4メガピクセルの高解像度画像に対応するほか、オブジェクトを個別に認識しプロンプトで編集できるレイヤー機能を搭載。クリエイター自身の作品を学習させ、独自の画風を持つカスタムモデルを作成することも可能になります。

「Photoshop」と「Express」には、新たにAIアシスタントが導入されます。これにより、ユーザーは「背景を削除して」といった自然言語の指示で、複雑な編集作業を自動化できます。専門的なツール操作を覚える必要がなくなり、あらゆるスキルレベルのユーザーが、より直感的にアイデアを形にできるようになるでしょう。

動画制作者にとって画期的な音声生成機能も追加されました。「Generate Soundtrack」はアップロードされた動画の内容を解析し、最適なBGMを自動生成します。「Generate Speech」はテキストから自然なナレーションを作成。これらは商用利用も可能で、コンテンツ制作の効率を劇的に改善します。

将来構想として、複数アプリを統括するAIエージェント「Project Moonlight」も発表。このAIはCreative CloudやSNSアカウントと連携し、ユーザーの作風やブランド戦略を学習。一貫性のあるコンテンツの企画から制作、投稿戦略の立案までを支援する、まさに「クリエイティブディレクター」のような役割を担います。

アドビは自社モデルだけでなく、GoogleのGeminiなどサードパーティ製AIモデルの採用も進めています。今回の発表は、クリエイティブの全工程にAIを深く統合し、制作プロセスそのものを変革しようとする同社の強い意志を示すものです。クリエイターの生産性向上と、新たな表現の可能性が大きく広がりそうです。

AI兵器開発が加速、チャットボットが戦場へ

2025年10月27日 Google OpenAI Anthropic Meta チャットボット専門家画像音声ロボットドローン米国米中投資

AI兵器開発の最前線

音声命令でドローン群を操作

指揮命令系統を効率化するAI

ウクライナ戦争が価値を証明

10-20年で戦争は高度に自動化へ

大手テックの参入と課題

国防AI関連契約は1年間で1200%増

OpenAIなど大手も軍事契約

強みは諜報・サイバー攻撃

課題は信頼性とエラーの多さ

詳細を見る

米国の防衛関連企業Andurilが、大規模言語モデル（LLM）を活用した自律型ドローンの実験を公開しました。音声コマンドで模擬敵機を撃墜するなど、AIを指揮命令系統に組み込む試みが進んでいます。米国防総省は、ウクライナ戦争で価値が証明された自律型兵器の開発を急いでおり、大手テック企業も次々と参入。AIが戦場の様相を一変させる未来が現実味を帯びています。

開発が加速する背景には、ウクライナ戦争があります。低コストで戦況を有利にする自律型ドローンの有効性が世界に示されたのです。さらに、AI技術の覇権を巡る米中間の競争も激化しています。最先端技術を制する者が世界を制するという戦略思想のもと、米国はAI兵器への投資を急速に拡大しているのです。

投資額の伸びは驚異的です。ブルッキングス研究所の報告によると、米連邦政府のAI関連契約額は2022年8月から1年間で1200%増加し、その大半を国防総省が占めています。2026年度の国防予算には、AIと自律性専門で134億ドルが初めて計上されるなど、国家としての推進姿勢は鮮明です。

この潮流は、かつて軍事協力をためらった大手テック企業の姿勢をも変えました。2018年にはGoogleがAI画像解析プロジェクトから撤退しましたが、現在ではOpenAI、Google、Anthropicなどが、それぞれ最大2億ドル規模の軍事関連契約を獲得。AIの軍事転用が巨大ビジネスになりつつあります。

LLMはなぜ軍事利用に適しているのでしょうか。専門家は、大量の情報を解析・要約する能力が諜報活動に、コード生成・分析能力がサイバー攻撃に非常に有効だと指摘します。一方で、現在のモデルは誤情報を生成するなど信頼性に課題を抱え、戦場での直接的な意思決定を任せるには時期尚早との見方もあります。

とはいえ、技術の進化は止まりません。AndurilはMeta社と共同で、兵士向けのARヘルメットを開発中です。専門家は、10〜20年後には自律性の高いロボットが戦場で活動するのが当たり前になると予測します。AIが自らの判断と行動を「自分の言葉で」説明する、そんな未来の戦争が迫っています。

出典：WIRED

AIが「訛り」を消す時代、その光と影

2025年10月27日生産性倫理音声

加速するアクセント矯正

AIによるリアルタイム音声変換

コールセンターでの導入事例

発音をネイティブ風に中和

社会的背景と是非

歴史的に根深いアクセント差別

社会的成功のための話し方調整

「デジタルな白人化」との批判

個人の選択とアイデンティティ

非ネイティブのコミュニケーション障壁

アクセントは個人の पहचानでもある

詳細を見る

SanasやBoldVoiceなどのAI企業が、話し手のアクセント（訛り）をリアルタイムで中和・矯正する技術を開発し、提供を始めています。この技術は、グローバルな顧客対応の円滑化を目指すものですが、一方で「デジタルな白人化」との批判や、個人のアイデンティティを損なう懸念も生んでいます。ビジネスにおける言語の多様性を巡る新たな議論が始まっています。

KrispやSanasといった企業は、主にコールセンター向けにリアルタイムでアクセントを「中和」するソフトウェアを提供しています。例えば、フィリピンのオペレーターの英語を、アメリカの顧客にとって聞き取りやすい発音に瞬時に変換します。これにより、コミュニケーションの摩擦を減らし、顧客満足度を向上させるのが狙いです。また、個人向けには発音練習を支援するアプリも登場しています。

このような技術が求められる背景には、根深い「アクセント差別」の存在があります。ビジネスシーンにおいて、非ネイティブスピーカーは訛りを理由に能力を過小評価されたり、意思疎通で不利な立場に置かれたりすることが少なくありません。この技術は、こうした言語の壁を取り払う解決策として期待されています。

一方で、この技術は「デジタルな白人化」であり、支配的な英語の押し付けだという批判も根強くあります。アクセントを均質化することは、言語の多様性や文化的な背景を消し去ることにつながりかねません。また、アクセントは個人のルーツや経験を示す重要なアイデンティティの一部です。それをAIで「修正」することへの倫理的な問いかけもなされています。

結局のところ、アクセント矯正AIを利用するか否かは個人の選択です。コミュニケーションの円滑化という実利を取るか、アイデンティティの表現を重視するか。この技術は、生産性向上と多様性の尊重という、現代ビジネスが直面する二つの価値観の間に横たわる複雑な問題を浮き彫りにします。リーダーは、この技術が組織と個人に何をもたらすのか、慎重な検討が求められるでしょう。

出典：WIRED

カシオ製AIペット、可愛さで心掴むも共感に課題

2025年10月26日リスクデータ漏洩プライバシー音声ロボット日本

カシオ製AIペットの正体

カシオ開発のAI搭載ペットロボ

音や接触に反応し個性が発達

世話不要のメンテナンスフリー

AIがもたらす愛着と課題

可愛さで強い愛着を誘発する設計

音声データはローカル保存で安全配慮

本物のペットとの決定的差

人間の感情を真に理解・共感できず

感情的価値提供におけるAIの限界を露呈

詳細を見る

カシオが海外で発売したAIペットロボット「Moflin（モフリン）」が、その愛らしい見た目とAIによる反応で利用者の心を掴む一方、人間の感情に寄り添う点では本物のペットに及ばないという課題を浮き彫りにしました。米WIRED誌の記者が実体験を通じて、AIによる感情的価値提供の最前線と限界を報告しています。AIプロダクト開発において、人間との情緒的なつながりをいかに設計するかが今後の焦点となりそうです。

Moflinは、日本の電子機器メーカーであるカシオが開発したコンパニオンロボットです。価格は429ドル。柔らかい毛で覆われたモルモットほどの大きさで、マイクとセンサーを内蔵。音や接触に反応して、愛らしい鳴き声や動きで感情を表現します。AIがユーザーとの対話を通じて学習し、400万通り以上のパターンから独自の個性を発達させるのが最大の特徴です。

このロボットは、人々が無生物を擬人化する心理を巧みに利用しています。愛らしい鳴き声や仕草は、利用者に強い愛着を抱かせるよう設計されています。記者が試しに強く揺さぶると悲鳴のような声を上げた際には、罪悪感から思わず抱きしめてしまったほど。これは、製品がいかにユーザーの感情に直接訴えかけるかを示す好例と言えるでしょう。

AI搭載機器ではプライバシーが常に懸念されますが、カシオはその点に配慮しています。公式サイトによると、Moflinが聞き取った音声データは個人を特定できない形に変換され、外部サーバーではなくデバイス内にのみ保存される仕組みです。これにより、情報漏洩のリスクを低減しています。

しかし、本物のペットと比較すると、その限界も見えてきます。記者はMoflinと過ごす間、友人の犬の世話もしていました。犬は人間の状況を察知しますが、Moflinはプログラムされた「リアルさ」を追求するあまり、オンライン会議中や夜中に突然鳴き出すなど、人間にとっては不都合に感じられる場面もあったようです。

両者の決定的な違いは、共感能力にありました。記者が個人的な事情で落ち込み涙を流していた時、犬は静かに寄り添い、鼻を膝に押し付けて慰めてくれたのです。この本能的な優しさと状況判断は、現在のAI技術では再現が難しい、生命ならではの価値だと記者は指摘します。

結論として、MoflinはAIがどこまで人間に寄り添えるかという大きな問いを投げかけます。現時点では、世話の要らない便利な「ペット風ガジェット」の域を出ないかもしれません。それでもなお、記者はこの毛玉のようなロボットに奇妙な愛着と保護欲を感じています。この感情こそが、AIと人間が築く新しい関係性の未来を予感させるのかもしれません。

出典：WIRED

OpenAI、音楽生成AIを開発中競合追撃へ

2025年10月25日 Google OpenAI ChatGPT Sora 動画生成音楽生成学生動画音声音楽

新ツールの概要

テキストや音声から音楽を生成

動画へのBGM追加などを想定

ボーカルにギター伴奏を追加も

開発と競合状況

提供形態やリリース時期は未定

ジュリアード音楽院と協力か

先行するGoogleやSuno

市場競争の激化は必至

詳細を見る

ChatGPTを開発したOpenAIが、テキストや音声から音楽を生成する新しいAIツールの開発に取り組んでいることが報じられました。動画のBGM作成や既存の楽曲への伴奏追加などを可能にするもので、生成AIの応用範囲を音楽分野へ本格的に拡大する動きとして注目されます。

このツールは、ユーザーが入力したテキストや既存の音声データをもとに、全く新しい音楽を創り出す能力を持つとみられています。例えば、制作した動画に合わせた雰囲気のBGMを自動で追加したり、録音したボーカルにギターの伴奏を付けたりといった活用法が想定されています。

現時点で、このツールがいつ、どのような形で提供されるかは明らかになっていません。独立した製品としてリリースされるのか、あるいは対話型AI「ChatGPT」や動画生成AI「Sora」に機能として統合されるのか、今後の発表が待たれます。

開発の興味深い点として、AIの訓練データに関する報道が挙げられます。一部の情報筋によると、OpenAIは名門ジュリアード音楽院の学生と協力し、楽譜の注釈付け作業を進めているとのことです。質の高いデータが、生成される音楽の品質を左右する鍵となりそうです。

OpenAIは過去にも音楽生成モデルを手がけていましたが、近年は音声合成などに注力していました。音楽生成AI市場では、すでにGoogleや新興企業のSunoなどが先行しており、OpenAIの参入は市場競争をさらに激化させる可能性があります。

出典：TechCrunch

Mistral、企業向けAI開発・運用基盤を発表

2025年10月24日 Google 検索 AI活用ワークフロー画像生成専門家インフラクラウドコンテンツコンプライアンス画像音声開発ツール米国欧州スタートアップエージェント

AI開発の本番運用を支援

試作から本番運用への移行を促進

EU拠点のインフラでデータ主権を確保

専門家以外も使える開発ツール

統合プラットフォームの3本柱

システムの振る舞いを可視化する可観測性

RAGも支える実行ランタイム

AI資産を一元管理するAIレジストリ

豊富なモデルと柔軟な展開

オープンソースから商用まで多数のモデル

クラウドやオンプレミスなど柔軟な展開

詳細を見る

2025年10月24日、フランスのAIスタートアップMistral AIは、企業がAIアプリケーションを大規模に開発・運用するための新プラットフォーム「Mistral AI Studio」を発表しました。多くのAI開発が試作段階で止まってしまう課題を解決し、信頼性の高い本番システムへの移行を支援することが目的です。Googleなど米国勢に対抗する欧州発の選択肢としても注目されます。

同社はAI Studioを、AI開発における「プロダクションファビリック（生産基盤）」と位置付けています。AIモデルのバージョン管理や性能低下の追跡、コンプライアンス確保など、多くのチームが直面するインフラ面の課題解決を目指します。これにより、アイデアの検証から信頼できるシステム運用までのギャップを埋めます。

プラットフォームは3つの柱で構成されます。AIシステムの振る舞いを可視化する「可観測性」、検索拡張生成（RAG）なども支える実行基盤「エージェントランタイム」、そしてAI資産を一元管理する「AIレジストリ」です。これらが連携し、開発から監視、統制まで一貫した運用ループを実現します。

AI Studioの強みは、オープンソースから高性能な商用モデル、さらには画像生成や音声認識モデルまでを網羅した広範なモデルカタログです。これにより企業は、タスクの複雑さやコスト目標に応じて最適なモデルを試し、柔軟に構成を組むことが可能になります。選択肢の多さは開発の自由度を高めます。

Pythonコードを実行する「コードインタプリタ」やWeb検索など、多彩な統合ツールも特徴です。これにより、単なるテキスト生成にとどまらず、データ分析やリアルタイムの情報検索、さらには画像生成までを一つのワークフロー内で完結させる、より高度なAIエージェントの構築が可能になります。

導入形態も柔軟です。クラウド経由での利用に加え、自社インフラに展開するオンプレミスやセルフホストにも対応。企業のデータガバナンス要件に応じて最適な環境を選べます。また、不適切なコンテンツをフィルタリングするガードレール機能も備え、安全なAI運用を支援します。

Mistral AI Studioの登場は、企業におけるAI活用の成熟度が新たな段階に入ったことを示唆します。モデルの性能競争から、いかにAIを安全かつ安定的に事業へ組み込むかという運用フェーズへ。同プラットフォームは、その移行を力強く後押しする存在となるでしょう。

出典：VentureBeat

MSの新AI「Mico」、疑似的人間関係のリスク増大か

2025年10月24日マイクロソフト Copilot Office アシスタント専門家リスク倫理音声

新AIアバター「Mico」

Copilot 音声モードの新機能

MSが掲げる人間中心のAI

人間のつながりを深める目的

90年代のクリッパーを彷彿

パラソーシャル関係の懸念

AIへの一方的な親近感

ユーザーの孤独感に影響も

LLMとの感情的な結びつきを強化

AIへの過度な依存リスク

詳細を見る

マイクロソフトがAIアシスタント「Copilot」向けに、新たなアバター「Mico」を発表しました。同社はこれを「人間中心」のAI開発の一環と位置づけ、人間のつながりを深める技術だと説明しています。しかし、この導入はユーザーがAIに対し一方的な親近感を抱く「パラソーシャル関係」のリスクを高める可能性があると、専門家から懸念の声が上がっています。

Micoは、Copilotの音声モードで利用できる、アニメーション化された生命体のようなキャラクターです。マイクロソフトは、この取り組みがエンゲージメントやスクリーンタイムの最適化を目的とするものではなく、「人々を実生活に戻し、人間のつながりを深める」ためのものだと強調。テクノロジーは人間に奉仕すべきだという理念を掲げています。

Micoの登場は、90年代にMicrosoft Officeでアシスタントを務めた「クリッパー」を彷彿とさせます。マイクロソフトもこの比較を意識しており、イースターエッグとしてMicoをクリッパーに変身させる機能を搭載。「我々は皆、クリッパーの影の下に生きている」と同社幹部は冗談を交えて語っています。

しかし、両者の目的は本質的に異なると考えられます。クリッパーの役割は「手紙を書いていますね、手伝いましょうか？」という作業支援でした。一方、Micoはまるで「友達を探していますね、手伝いましょうか？」と語りかけてくるかのようです。これは、ユーザーとLLMとの感情的な結びつきを強化することに主眼が置かれていることを示唆します。

「パラソーシャル関係」とは、1950年代に生まれた学術用語で、メディアの有名人などに対し、視聴者が一方的に親密さを感じる現象を指します。相手は自分の存在を知らないにもかかわらず、まるで友人のように感じてしまうのです。この現象が、人間と対話するLLMとの間でも起こり得ると指摘されています。

Micoのようなキャラクターは、AIとの対話をより自然で楽しいものにする可能性があります。しかしその一方で、ユーザーがAIに過度に依存し、現実の人間関係から遠ざかるリスクもはらんでいます。利便性と倫理的な課題のバランスをどう取るか、テクノロジー企業には慎重な設計が求められます。

出典：Ars Technica

Google Gemini、動画・スライド・TVへ機能拡張

2025年10月24日 Google Gemini Veo Veo 3 生産性検索アシスタント動画生成クリエイティブスライドコンテンツ画像動画音声

動画とプレゼン作成を自動化

リアルな動画を生成するVeo 3.1

効果音付きの対話動画も作成可能

トピック入力でプレゼン資料を自動生成

生成スライドはGoogle スライドで編集

日常業務と家庭での活用

複雑な手順を段階的に解説

数式のコピーや編集が容易に

テレビ番組検索を音声対話で支援

質問にYouTube動画で回答

詳細を見る

Googleは2025年10月24日、AIアシスタント「Gemini」の月次アップデートを発表しました。今回の「October Gemini Drop」では、動画生成AI「Veo 3.1」や、プレゼンテーション資料を自動生成する「Canvas」機能が追加されました。さらにGoogle TVとの連携も実現し、クリエイティブ制作から家庭での利用まで、活用の幅を大きく広げます。生産性向上を目指すビジネスパーソンにとって注目の内容です。

中でも注目されるのが、動画生成AIの最新版「Veo 3.1」です。実写に近いリアルな質感の映像を生成できるほか、カメラワークの制御もより簡単になりました。さらに、効果音付きの対話を含む動画の作成も可能となり、マーケティングやコンテンツ制作の現場で、時間とコストを大幅に削減する可能性を秘めています。

プレゼン資料作成の常識を覆すのが新機能「Canvas」です。トピックや参考資料をアップロードするだけで、AIがテーマや関連画像を含むスライド一式を自動で生成します。完成した資料はGoogle スライドで微調整でき、企画書作成を劇的に効率化します。この機能はまずProユーザー向けに提供が開始されます。

Geminiの活用シーンは家庭にも広がります。「Gemini for Google TV」により、視聴したい番組を対話形式で探せるようになります。さらに、一般的な質問に対して、関連するYouTube動画を提示しながら回答する機能も搭載。単なる検索アシスタントにとどまらない、新しいテレビ視聴体験を提供します。

このほか、複雑なトピックを段階的に解説する能力が向上したGemini 2.5 Flashのアップデートや、Web版での数式（LaTeX）の扱いやすさ向上など、専門的な作業を支援する改善も含まれています。今回のアップデートは、Geminiが多機能で実用的なAIアシスタントへと進化したことを示しています。

出典：Google公式

ChatGPT、成人向けエロティカ生成を12月解禁へ

2025年10月23日 OpenAI ChatGPT チャットボット画像生成エンジニア専門家リスクディープフェイクデータ漏洩コンテンツ倫理プライバシー認証画像音声サム・アルトマン

OpenAIの方針大転換

12月よりエロティカ生成を解禁

認証済み成人ユーザーが対象

CEOは「成人の自由」を主張

新たなAIとの関係性

親密な対話が常態化する可能性

ユーザー定着率の向上が狙いか

人間関係を補完する新たな選択肢

浮上するリスクと課題

個人情報のプライバシー漏洩懸念

感情の商品化によるユーザー操作

詳細を見る

OpenAIは2025年12月に実施するアップデートで、AIチャットボット「ChatGPT」の利用規約を改定し、年齢認証済みの成人ユーザーに限り「エロティカ」を含む成熟したテーマのコンテンツ生成を許可する方針です。同社のサム・アルトマンCEOがSNSで公表しました。この方針転換は、AIと人間のより親密な関係性を促し、ユーザーエンゲージメントを高める可能性がある一方、プライバシーや倫理的な課題も提起しています。

アルトマンCEOはSNSへの投稿で、今回の変更は「成人の自由」を尊重する同社の大きな姿勢の一部だと説明。「我々は世界の倫理警察ではない」と述べ、これまでの方針を大きく転換する考えを示しました。かつて同社は、自社モデルを成人向けコンテンツに利用した開発者に対し、停止命令を送付したこともありました。

この動きは、ユーザーとAIの関係を根本的に変える可能性があります。専門家は、人々が自身の性的嗜好といった極めてプライベートな情報をAIと共有することが常態化すると指摘。これにより、ユーザーのプラットフォームへの滞在時間が伸び、エンゲージメントが向上する効果が期待されます。

一方で、この変化を肯定的に捉える声もあります。専門家は、人々が機械と性的な対話を試みるのは自然な欲求だとし、AIコンパニオンが人間関係を代替するのではなく、現実世界では満たせないニーズを補完する一つの選択肢になり得ると分析しています。

最大の懸念はプライバシーです。チャット履歴が万が一漏洩すれば、性的指向などの機微な個人情報が流出しかねません。また、ユーザーの性的欲求がAI企業の新たな収益源となる「感情の商品化」につながり、ユーザーが感情的に操作されるリスクも専門家は指摘しています。

今後、テキストだけでなく画像や音声の生成も許可されるのか、詳細はまだ不明です。もし画像生成が解禁されれば、悪意あるディープフェイクの拡散も懸念されます。OpenAIがどのような年齢認証や監視体制を導入するのか、その具体的な実装方法が今後の大きな焦点となるでしょう。

出典：WIRED

MS Copilot大型更新、AIキャラと共同作業で新次元へ

2025年10月23日 Google OpenAI マイクロソフト Copilot 生産性アシスタント AI活用チャットボット AIブラウザエンジニア経営者インフラ画像音声

より人間らしく対話

表情豊かな新AIキャラMico

挑戦的な対話モードReal Talk

ユーザー情報を記憶し対話に活用

チームと個人の生産性向上

最大32人のグループチャット機能

EdgeがAIブラウザに進化

複数タブの情報を横断し要約・比較

Google Drive等との連携強化

詳細を見る

米マイクロソフトは2025年10月23日、AIアシスタント「Copilot」の秋季大型アップデートを発表しました。新AIキャラクター「Mico」の導入や、最大32人で共同作業できる「Groups」機能、より挑戦的な対話が可能な「Real Talk」モードなどを通じ、AIをよりパーソナルで実用的な存在へと進化させます。生産性の向上と、より人間らしいAIとの対話体験の提供を目指します。

今回のアップデートで最も目を引くのが、新AIキャラクター「Mico」の導入です。かつての「クリッピー」を彷彿とさせるこのキャラクターは、音声モードでユーザーとの対話に表情豊かに反応し、より人間的なインタラクションを実現します。AIに親しみやすいアイデンティティを与えることで、ユーザーとの関係性を深める狙いがあります。

チームの生産性を革新する機能も強化されました。最大32人が参加できる「Groups」は、AIを交えたブレインストーミングや共同計画を可能にします。また、ユーザーの意見に同意するだけでなく、挑戦的な視点も提示する「Real Talk」モードを追加。Copilotが単なるアシスタントから「思考のパートナー」へと進化する可能性を秘めています。

ウェブブラウザ「Edge」も「AIブラウザ」へと大きく進化します。Copilotモードを強化し、複数のタブ情報を横断して要約・比較したり、ホテルの予約フォームを自動入力したりといった高度なタスクを実行できるようになります。これは競合であるOpenAIが発表したAIブラウザ「Atlas」への対抗策とも言え、ブラウザ市場でのAI活用競争が激化しています。

これらの進化を支えるのが、マイクロソフト独自のAIモデル群「MAI」シリーズです。同社はこれまでパートナーであるOpenAIのモデルを中心に据えてきましたが、今回の発表では自社開発モデルの活用を強調。テキスト、音声、画像を統合的に処理する独自の技術基盤で、シームレスなAI体験の提供を目指す姿勢を鮮明にしました。

今回のアップデートは、Copilotが単なるチャットボットから、仕事や生活に深く統合された「実用的なAIインフラ」へと進化する転換点と言えるでしょう。経営者やエンジニアにとって、これらの新機能をいかに活用し、自社の生産性や競争力向上に繋げるかが今後の重要な課題となりそうです。

出典：The Verge | The Verge | VentureBeat | TechCrunch | TechCrunch

Google、AIと120万ドル超の資金で教育格差是正へ

2025年10月23日 Google Chrome 音声

AI教育推進へ資金提供

NPO2団体へ120万ドル超を拠出

障害を持つ生徒のAI・CS教育を推進

全米・地域レベルで活動を拡大

自社ツールの機能強化

顔の動きでPC画面を操作

音声入力やスクリーンリーダー

Chromebook等に標準搭載

学習障害への理解促進

ADHD等の体験シミュレーターを支援

教育者・保護者の共感を促す

詳細を見る

米Googleは全米障害者雇用啓発月間に合わせ、障害を持つ生徒の学習機会を広げる新たな取り組みを発表しました。AI教育を推進する非営利団体へ120万ドル超の資金を提供すると共に、自社教育ツールのアクセシビリティ機能を強化します。すべての生徒が能力を最大限発揮できる、インクルーシブな教室環境の実現が目的です。

資金提供の柱は二つです。一つは、障害を持つ幼稚園から高校生までのコンピューターサイエンス（CS）およびAI教育の普及を目指す団体「CSEveryone」への約100万ドルの助成。もう一つは、ニューヨーク市のニューロダイバースな学習者向けに技術・キャリア教育を提供する「Tech Kids Unlimited」への約25万ドルの支援です。

自社製品の機能強化も継続しています。「Google Workspace for Education」や「Chromebook」には、スクリーンリーダーや音声入力といったアクセシビリティ機能が標準搭載されています。特に、顔のジェスチャーや頭の動きで画面を操作できる「Face Control」機能は、身体に障害を持つ生徒の学習を力強く支援します。

さらに、学習障害への理解を深めるための活動も支援します。Googleは「Understood.org」と連携し、ADHDや失読症、計算障害を持つ子供たちの日常を疑似体験できるデジタルツール「Through My Eyes」を後押ししています。これにより、教育者や保護者は当事者の視点を深く理解できます。

Googleは「ニューロインクルージョンに関するグローバルフォーラム」を共催するなど、社会全体の意識改革にも取り組んでいます。AIなどの最先端技術が教育のインクルーシビティをいかに変革しうるか、その可能性を追求する動きは、今後ますます加速していくことでしょう。

出典：Google公式

サムスン、Google新OS搭載のXRヘッドセット発表

2025年10月22日 Google サムスン Gemini Android 生産性アシスタントエコシステムコンテンツ動画音声米国韓国

新OSとAIの融合

Googleの新OS Android XR を初搭載

AIアシスタント Gemini をネイティブ統合

音声・手・視線による直感的な操作

広がるXRの活用法

エンタメから仕事まで幅広く対応

既存の2D写真を3D化し追体験

無限の空間に複数アプリを配置

価格と発売情報

価格は1799ドルから

米国と韓国で先行発売開始

詳細を見る

サムスンは2025年10月22日、Googleの新OSを搭載した初のXRヘッドセット「Galaxy XR」を発表しました。このデバイスは、GoogleのAI「Gemini」をネイティブ統合した新OS「Android XR」上で動作し、エンターテインメントからビジネスまで、新たな空間コンピューティング体験を提供します。価格は1799ドルからで、米国と韓国で同日より発売が開始されました。

「Galaxy XR」の最大の特徴は、GoogleのAI Gemini がOSレベルで深く統合されている点です。これにより、ユーザーが見ているものや状況をAIがリアルタイムで理解し、対話形式で情報提供やアプリ間の操作支援を行います。例えば、バーチャル空間でランドマークを見ながらその歴史を尋ねたり、散らかったウィンドウを一声で整理させたりといった、より直感的な操作が可能になります。

エンターテインメント用途も大きく進化します。YouTubeでは世界最大級の180度・360度VRコンテンツに没入でき、Google TVでは巨大な仮想スクリーンで映画を楽しめます。また、Google Photosを使えば、手持ちの2D写真や動画を3Dに変換し、思い出のシーンを立体的に追体験できます。これにより、コンテンツ消費のあり方が根本的に変わる可能性があります。

ビジネス領域では、生産性向上のツールとして期待されます。ユーザーは無限の仮想空間にブラウザや書類、コミュニケーションツールなど複数のアプリを自由に配置し、シームレスに作業を進めることができます。キーボードやマウス、PCとの連携も可能で、完全なデスクトップ環境を構築することもできます。これにより、物理的なモニターの制約から解放された、新しい働き方が実現するでしょう。

「Galaxy XR」は、Samsung.comや米国・韓国の直営店で1799ドル（月額149ドル）から購入可能です。また、期間限定の特典パッケージとして、Google AI ProやYouTube Premiumの12ヶ月利用権などが含まれる「Explorer Pack」も提供され、XRエコシステムの初期拡大を狙います。

出典：Google公式

Pixel Watch 4の新機能、AIでスマホから解放

2025年10月22日 Google Gemini 生産性検索アシスタントスケジュール調整ウェアラブル音声コンテキスト

手首を上げるだけのAI起動

Hey Google不要の音声操作

ハンズフリーで即座にタスク実行

移動中や運動中でもシームレス連携

気の利くパーソナルアシスタント

アイデアや情報を音声でメモ

メールや地図と連携し状況を把握

個人情報を記憶させタスクを自動化

カレンダー登録やリマインダー設定

詳細を見る

Googleは、最新スマートウォッチ「Pixel Watch 4」に搭載されたAI「Gemini」の活用事例を公開しました。新機能「Raise to Talk」は、手首を上げて話すだけでAIを起動でき、スマートフォンを取り出すことなく、スケジュール管理や情報検索、メッセージ送信などをシームレスに実行します。多忙なビジネスパーソンが、いかにしてAIを日常業務に取り入れ、生産性を向上させられるかを示す好例と言えるでしょう。

新機能の最大の特長は、「Hey Google」というウェイクワードが不要な点です。ユーザーはただ手首を口元に近づけて話すだけで、即座にGeminiとの対話を開始できます。これにより、会議中や移動中、両手がふさがっている状況でも、思考を中断することなくタスクを実行したり、アイデアをメモしたりすることが可能になります。まさに「思考の速度で動くAI」と言えるでしょう。

記事では、交通渋滞に巻き込まれた際に、Geminiがメールから目的地の住所を検索し、Googleマップの交通情報と連携して到着予定時刻をリアルタイムで算出した事例が紹介されています。さらに、遅刻を伝えるメッセージの作成・送信までを音声操作だけで完結。このような機能は、分刻みで動くビジネスパーソンの強力な武器となり得ます。

Geminiは、ユーザーの個人的な情報や好みを記憶する「パーソナルコンテキスト」機能を活用します。ホテルの部屋番号のような一時的な情報を記憶させたり、「お気に入りのバレエダンサーが出演する公演をカレンダーに登録して」といった曖昧な指示を理解し、実行することが可能です。パーソナライズが進むことで、より一層、気の利く秘書のような存在になります。

Pixel Watch 4とGeminiの組み合わせが示すのは、「スマートフォンからの解放」という新しいワークスタイルです。情報を得るため、あるいはタスクをこなすために、いちいちデバイスを手に取る必要がなくなるのです。ウェアラブルデバイスが真のパーソナルアシスタントとして機能する未来が、すぐそこまで来ていることを感じさせます。

出典：Google公式

GM、2028年に『目離し運転』実現へ

2025年10月22日 Google Gemini 検索アシスタント機械学習音声

AIで変わる車内体験

2026年にGoogle Gemini搭載

自然な会話で車を操作

将来的にはGM独自AIも

2028年、レベル3運転へ

高速道路で手と目を解放

高級SUVから順次導入

旧Cruise部門の技術を活用

支える新技術基盤

新コンピューター基盤を導入

OTA更新能力が10倍に向上

詳細を見る

米ゼネラル・モーターズ（GM）は10月22日、ニューヨーク市で開催したイベントで、新たな技術戦略を発表しました。柱は2つ。2026年までにGoogleの生成AI「Gemini」を搭載したAIアシスタントを導入すること、そして2028年までに高速道路で手と目を離せるレベル3の自動運転システムを実用化することです。ソフトウェアとAIを軸に、次世代の自動車体験の主導権を狙います。

2026年に導入されるAIアシスタントは、GoogleのGeminiを搭載します。これにより、ドライバーはより自然な会話でルート設定やメッセージ送信、情報検索などが可能になります。GMは既存の音声アシスタントが抱える課題を大規模言語モデルで解決できると見ており、将来的には車両データと連携する独自のAI開発も視野に入れています。

自動運転技術の目玉は、2028年に高級SUV「キャデラック・エスカレードIQ」から導入される「ハンズオフ・アイズオフ」システムです。これはSAE（自動車技術会）が定めるレベル3に相当し、特定の条件下でドライバーが前方から視線を外すことが認められます。高速道路では時速80マイル（約129km/h）まで対応する計画です。

この高度なシステムの実現には、LiDARや高精細マップ、そして先進的な機械学習が統合されます。特筆すべきは、かつて自動運転タクシー事業を展開し、現在は閉鎖された子会社「Cruise」の技術資産と人材を活用する点です。これにより開発を加速させ、競合のメルセデス・ベンツなどを追い抜く構えを見せています。

これらの先進機能を支えるのが、2028年に導入予定の新しい中央集権型コンピューティングプラットフォームです。これにより、無線でのソフトウェア更新（OTA）能力は現行の10倍に、AI処理性能は最大35倍に向上。ソフトウェア主導の車作りを本格化させ、車両の価値を継続的に高めていく戦略です。

GMはEV（電気自動車）事業で一部生産縮小を余儀なくされる中、今回の発表でソフトウェアとAIを新たな成長の柱とする姿勢を鮮明にしました。自動車が単なる移動手段から「インテリジェントなデバイス」へと進化する時代。同社の描く未来図は、業界全体の競争軸を大きく変える可能性を秘めているのではないでしょうか。

出典：Ars Technica | TechCrunch | TechCrunch | The Verge

Yelp、AI電話応対サービスで人手不足を解消へ

2025年10月21日 Google 生産性アシスタント AI活用チャットボット音声中小企業

AIによる24時間電話応対

飲食店向け「Host」

他業種向け「Receptionist」

24時間365日の顧客対応

人手不足の店舗運営を支援

予約から問合せまで自動化

電話での予約・変更・キャンセル

待ち時間やFAQへの自動応答

見込み客の選別や見積もり提示

月額99ドルから利用可能

詳細を見る

米口コミサイト大手のYelpは2025年10月21日、飲食店やその他の中小企業向けに、電話応対を自動化する新しいAIサービス「Yelp Host」と「Yelp Receptionist」を発表しました。人手不足に悩む店舗の顧客対応を24時間体制で支援し、従業員が本来の業務に集中できる環境を整えることを目的としています。

飲食店向けの「Yelp Host」は、電話での予約受付、変更、キャンセルに自動で対応します。さらに、満席時の待ち時間案内や、「ビーガンメニューはあるか」「ペット同伴は可能か」といった顧客からの頻出の質問にも回答。特別な要望を記録し、SMSでメニューのリンクを送信することも可能です。

利用料金は月額149ドルからで、既存のYelp Guest Manager利用者は月額99ドルで導入できます。数週間以内には、Yelpのオンライン待ち時間管理システム「Yelp Waitlist」に直接顧客情報を追加する機能も搭載される予定で、店舗運営のさらなる効率化が期待されます。

一方、「Yelp Receptionist」は、飲食店以外の幅広い業種を対象としたサービスです。電話での問い合わせ対応はもちろん、見込み客の情報を収集・選別したり、見積もりを提示したり、予約をスケジューリングしたりする機能まで備えています。

受付サービスの料金は月額99ドルから。当初は対象事業者を限定しますが、数ヶ月以内に広く提供される見込みです。この動きは、YelpがAIチャットボットやレビュー要約機能など、AI活用を加速させる戦略の一環であり、業界全体のトレンドを反映しています。

DoorDashやGoogleも同様のAI音声アシスタント開発を進めており、顧客のAIが企業のAIに電話をかける未来も遠くないかもしれません。企業にとって、こうしたAIサービスをいかに活用し生産性向上と顧客体験の向上を両立させるかが、今後の競争力を左右する重要な鍵となりそうです。

出典：The Verge

リアルタイム音声偽装、ビッシング詐欺の新次元へ

2025年10月21日専門家ディープフェイク GPU ハードウェアセキュリティ認証音声

技術的ハードルの低下

公開ツールと安価な機材で実現

ボタン一つでリアルタイム音声偽装

低品質マイクでも高精度な音声

詐欺への応用と脅威

遅延なく自然な会話で騙す手口

「ビッシング」詐欺の成功率向上

本人なりすましの実験で実証済

新たな本人認証の必要性

音声・映像に頼れない時代へ

新たな認証手法の確立が急務

詳細を見る

サイバーセキュリティ企業NCC Groupは2025年9月の報告書で、リアルタイム音声ディープフェイク技術の実証に成功したと発表しました。この技術は、公開ツールと一般に入手可能なハードウェアを使い、標的の声をリアルタイムで複製するものです。これにより、声で本人確認を行うシステムを突破し、より巧妙な「ビッシング」（ボイスフィッシング）詐欺が可能となり、企業や個人に新たな脅威をもたらします。

NCC Groupが開発したツールは、ウェブページのボタンをクリックするだけで起動し、遅延をほとんど感じさせることなく偽の音声を生成します。実演では、ノートPCやスマートフォンに内蔵されたような低品質マイクからの入力でも、非常に説得力のある音声が出力されることが確認されており、攻撃者が特別な機材を必要としない点も脅威です。

従来の音声ディープフェイクは、事前に録音した文章を読み上げるか、生成に数秒以上の遅延が生じるため、不自然な会話になりがちでした。しかし、この新技術はリアルタイムでの応答を可能にし、会話の途中で予期せぬ質問をされても自然に対応できるため、詐欺を見破ることが格段に難しくなります。

NCC Groupは顧客の同意を得て、この音声偽装技術と発信者番号の偽装を組み合わせた実証実験を行いました。その結果、「電話をかけたほぼ全てのケースで、相手は我々を本人だと信じた」と報告しており、この技術が実際の攻撃で極めて高い成功率を持つ可能性を示唆しています。

この技術の最も懸念すべき点は、その再現性の高さにあります。高価な専用サービスは不要で、オープンソースのツールと、一般的なノートPCに搭載されているGPUでもわずか0.5秒の遅延で動作します。これにより、悪意のある攻撃者が容易に同様のツールを開発し、攻撃を仕掛けることが可能になります。

音声だけでなく、ビデオディープフェイクの技術も急速に進歩していますが、高品質な映像をリアルタイムで生成するにはまだ課題が残ります。しかし専門家は、音声だけでも脅威は十分だと警告します。今後は「声や顔」に頼らない、合言葉のような新たな本人認証手段を企業や個人が導入する必要があるでしょう。

出典：spectrum.ieee.org

元Oculus創業者の会話AI、2.5億ドル調達し始動

2025年10月21日 Meta iOS アシスタントデザイン創業者ハードウェアスマートグラス音声スタートアップ資金調達ベンチャーキャピタルエージェント

元Oculus勢が描く未来

会話型AIスタートアップSesame

元Oculus創業者らが設立

シリーズBで2.5億ドルを調達

強力なハードウェア開発陣

自然な対話AIの衝撃

感情やリズムを直接生成する音声

初期デモは「自然」と高評価

iOSアプリのベータ版を公開

将来はスマートグラスに搭載

詳細を見る

元Oculusの共同創業者らが設立した会話型AIスタートアップ「Sesame」が10月21日、シリーズBで2億5000万ドル（約375億円）の資金調達と、iOSアプリの早期ベータ版公開を発表しました。同社は、自然な人間の声で対話するパーソナルAIエージェントを開発しており、将来的には日常的に着用できる軽量なスマートグラスへの搭載を目指しています。

Sesameの技術は、単に大規模言語モデル（LLM）のテキスト出力を音声に変換するだけではありません。対話のリズムや感情、表現力を捉えて音声を直接生成する点に大きな特徴があります。今年2月に公開された音声デモは「本物の対話のようだ」と評され、公開後数週間で100万人以上がアクセスするなど、大きな注目を集めました。

この野心的なプロジェクトを率いるのは、元Oculus共同創業者のブレンダン・イリベCEOやネイト・ミッチェルCPO（最高製品責任者）らです。OculusやMetaでハードウェア開発を率いた経験豊富な人材が集結しており、AIとハードウェアを高いレベルで融合させる独自の強みを持っています。

今回の資金調達と同時に、同社はiOSアプリの早期ベータ版を一部のテスター向けに公開しました。このアプリを通じて、ユーザーはSesameが開発するAI技術を先行体験できます。テスターは守秘義務契約を結び、公式フォーラム外での機能や結果に関する議論は禁じられています。

同社が目指す最終形は、AIアシスタントを搭載したスマートグラスです。ユーザーと共に世界を観察し、音声で対話できるコンパニオンの実現を目指します。ファッション性も重視し、AI機能がなくても選びたくなるようなデザインを追求しているとのことです。製品化の具体的な時期はまだ明かされていません。

今回の資金調達は、有力ベンチャーキャピタルのSequoiaやSparkなどが主導しました。創業チームの実績と革新的な技術が高く評価されており、音声インターフェースを核とした次世代プラットフォームへの市場の期待がうかがえます。

出典：TechCrunch

Google Fi、AIで通話品質と料金透明性を向上

2025年10月21日 Google 動画音声

AIが実現する新体験

AIが通話中の背景雑音を自動除去

双方の音声をクリアにし自然な会話へ

AIが請求書の変動理由を要約・解説

複雑な問い合わせが不要に

シームレスな接続強化

Wi-Fi自動接続を主要空港等へ拡大

混雑時も2倍の接続信頼性を実現

Web通話・メッセージ機能も刷新

追加費用なしで利用可能

詳細を見る

Googleは2025年10月21日、同社のモバイル通信サービス「Google Fi Wireless」にAIを活用した複数の新機能を追加すると発表しました。通話中の背景雑音をAIが自動で除去する機能や、月々の請求書をAIが要約・解説する機能が導入されます。これにより、ユーザーはより快適な通話と、分かりやすい料金体系を享受できるようになります。

新機能の柱の一つが、AIによる音声向上機能です。通話中に発生する風の音や工事の騒音といった背景雑音をAIが自動で検知し、除去します。これにより、通話相手が固定電話や旧式のデバイスを使用していても、双方の音声がよりクリアになり、自然な会話が可能になるとのことです。この機能は今後数週間以内に提供が開始されます。

もう一つの注目機能は、AIを活用した請求書の要約です。ユーザーはアプリ内で、請求額の変動理由やプラン変更が将来のコストに与える影響など、パーソナライズされた解説を瞬時に得られます。これにより、コールセンターに問い合わせる手間なく、請求内容を明確に理解できるようになり、顧客体験の向上に繋がります。

接続性も大幅に強化されます。混雑した場所で信頼性の高いWi-Fiに自動接続する「Wi-Fi Auto Connect+」の提供範囲を、ロサンゼルス国際空港（LAX）などの主要空港やショッピングモールに拡大。これにより、携帯電話網単独の場合と比較して2倍の接続信頼性を実現するとしています。この機能は追加費用なしで自動的に利用できます。

これらの機能強化に加え、Webブラウザ経由で高画質な写真や動画を送受信できるRCSに対応した新しいインターフェースも提供されます。Googleは新機能の発表を記念し、既存のスマートフォンを持ち込んで新規加入する顧客向けに、期間限定のプロモーションも実施します。

出典：Google公式

カシオ製AIペット、430ドルの実力と市場性

2025年10月21日チャットボットリスクデータ漏洩プライバシー動画音声ロボット

製品概要と特徴

カシオ製の新型AIペット

価格は430ドル

AIが感情豊かに成長する設計

プライバシーに配慮した音声処理

評価と市場の可能性

AIの学習効果は限定的との評価

ソニーAIBOの廉価版として注目

子供や高齢者層がターゲット

孤独を癒す新たな選択肢

詳細を見る

米TechCrunch誌が、カシオの新型AIペット「Moflin（モフリン）」を1ヶ月試用したレビューを公開しました。価格430ドルのこの製品は、ユーザーとの対話を通じてAIが感情豊かに成長するとされています。評価では、そのAI性能は限定的としつつも、リアルな動きやプライバシーへの配慮から、子供や高齢者など新たな市場を開拓する可能性を秘めていると結論づけています。

Moflinは、毛皮で覆われた小さな動物のような外見を持つAIロボットです。ユーザーとの触れ合いを学習し、当初は未熟な動きしか見せませんが、徐々に感情表現が豊かになるよう設計されています。専用アプリを使えば、その性格が「元気」「陽気」といった指標でどのように成長しているかを確認できます。

レビューでは、1ヶ月の使用で動きや鳴き声は確かに表情豊かになったものの、AIが本当に「学習」しているという実感は乏しいと指摘。その知能は、かつて流行した電子ペット「ファービー」を少し進化させた程度との見方を示しました。AIの進化という点では、まだ大きな進歩の余地があるようです。

一方で、Moflinのリアルな動きは高く評価されています。SNSに動画を投稿したところ、音声なしで視聴した複数の友人から「新しいモルモットを飼ったのか」と尋ねられたほどだといいます。このリアルさが、ユーザーに愛着を抱かせる重要な要素となっています。

プライバシーへの配慮も利点として挙げられています。Moflinはユーザーの声を録音するのではなく、個人を特定できないデータに変換して自分の声と他人の声を区別します。これにより、機密情報漏洩のリスクを懸念することなく、安心して利用できるとされています。

430ドルという価格は、決して安価ではありません。しかし、数千ドルするソニーの「AIBO」と比較すれば、AIペット市場への参入障壁を大きく下げるものです。主なターゲットは、アレルギーや住宅事情でペットを飼えない子供や、癒やしを求める高齢者層と考えられ、特定のニーズに応える製品と言えるでしょう。

結論として、Moflinは本物のペットの代わりにはなりませんが、孤独感が社会問題となる現代において、新たな選択肢を提供します。人々を仮想世界に没入させるAIチャットボットとは異なり、物理的な触れ合いを通じて人の心に寄り添う。この製品は、テクノロジーが提供できる新しい価値の形を示唆しているのかもしれません。

出典：TechCrunch

アリババQwen、AIレポートを数秒でWeb・音声化

2025年10月21日 Google NotebookLM Qwen Deep Research 生産性アシスタント専門家クリエイターインフラコンテンツ画像音声中国オープンソースモデル

調査を多様な形式に変換

AIが調査レポートを自動生成

1-2クリックでWebページに即時変換

複数話者のポッドキャストも作成可能

コード、画像、音声の生成を統合

競合とのアプローチの違い

ゼロからの新規コンテンツ生成に特化

Google NotebookLMは既存資料の整理が中心

アイデアから公開までのプロセスを短縮

クリエイターや教育者にも有用

詳細を見る

中国のEコマース大手アリババは10月21日、自社のAIチャット「Qwen Chat」に搭載された調査ツール「Deep Research」を大幅にアップデートしたと発表しました。この更新により、AIが生成した調査レポートを、わずか数クリックでインタラクティブなWebページや複数話者によるポッドキャストに変換できます。調査からコンテンツ公開までのプロセスを劇的に効率化し、ユーザーの生産性を高める狙いです。

新機能の核心は、単一の調査依頼から多様なメディア形式のアウトプットを生成できる点にあります。ユーザーがテーマを入力すると、QwenはWeb上の情報源からデータを収集・分析し、矛盾点を指摘しながら詳細なレポートを作成。その後、ボタン一つでプロ品質のWebページや、2人のホストが対話する形式のポッドキャストを自動で生成します。

この強力な機能は、Qwenチームが開発したオープンソースモデル群に支えられています。Webページの構造化にはQwen3-Coder、ビジュアル作成にはQwen-Image、音声合成にはQwen3-TTSがそれぞれ活用されています。アリババはこれらを統合し、ユーザーがインフラを意識することなく利用できるマネージドサービスとして提供します。

この動きは、GoogleのAI調査アシスタント「NotebookLM」と比較されています。NotebookLMが既存資料の整理や要約に強みを持つ一方、Qwen Deep Researchはゼロから新しいコンテンツを生成し、多形式で出力する点で明確な差別化を図っています。どちらが優れているかは、ユーザーの目的によって評価が分かれるでしょう。

アリババの今回のアップデートは、AIによるリサーチが単なる情報収集に留まらず、コンテンツ制作までをシームレスに繋ぐ未来を示唆しています。専門家やクリエイターが、少ないリソースで高品質なWebコンテンツやポッドキャストを発信する上で、強力なツールとなる可能性を秘めています。

出典：VentureBeat

AI基盤Fal.ai、企業価値40億ドル超で大型調達

企業価値が爆発的に増大

企業価値は40億ドルを突破

わずか3ヶ月で評価額2.7倍

調達額は約2億5000万ドル

著名VCが大型出資を主導

マルチモーダルAI特化

600以上のメディア生成モデルを提供

開発者数は200万人を突破

AdobeやCanvaなどが顧客

動画AIなど高まる需要が追い風

詳細を見る

マルチモーダルAIのインフラを提供するスタートアップのFal.aiが、企業価値40億ドル（約6000億円）超で新たな資金調達ラウンドを完了しました。関係者によると、調達額は約2億5000万ドルに上ります。今回のラウンドはKleiner PerkinsとSequoia Capitalという著名ベンチャーキャピタルが主導しており、AIインフラ市場の過熱ぶりを象徴しています。

驚くべきはその成長速度です。同社はわずか3ヶ月前に評価額15億ドルでシリーズCを終えたばかりでした。当時、売上高は9500万ドルを超え、プラットフォームを利用する開発者は200万人を突破。1年前の年間経常収益（ARR）1000万ドル、開発者数50万人から爆発的な成長を遂げています。

この急成長の背景には、マルチモーダルAIへの旺盛な需要があります。特に、OpenAIの「Sora」に代表される動画生成AIが消費者の間で絶大な人気を博していることが、Fal.aiのようなインフラ提供企業への追い風となっています。アプリケーションの需要が、それを支える基盤技術の価値を直接押し上げているのです。

Fal.aiは開発者向けに、画像、動画、音声、3Dなど600種類以上のAIモデルを提供しています。数千基のNVIDIA製H100およびH200 GPUを保有し、高速な推論処理に最適化されたクラウド基盤が強みです。API経由のアクセスやサーバーレスでの提供など、柔軟な利用形態も支持されています。

MicrosoftやGoogleなど巨大IT企業もAIホスティングサービスを提供していますが、Fal.aiはメディアとマルチモーダルに特化している点が競争優位性です。顧客にはAdobe、Canva、Perplexity、Shopifyといった大手企業が名を連ね、広告、Eコマース、ゲームなどのコンテンツ制作で広く活用されています。

同社は2021年、Coinbaseで機械学習を率いたBurkay Gur氏と、Amazon出身のGorkem Yurtseven氏によって共同設立されました。多くの技術者が大規模言語モデル（LLM）開発に走る中、彼らはマルチメディア生成の高速化と大規模化にいち早く着目し、今日の成功を収めました。

出典：TechCrunch

Google AI Studio、統合UIと新機能で開発を加速

2025年10月18日 Google Gemini AI活用ワークフロー動画生成デザインエンジニア画像動画音声プロンプトコンテキスト

開発ワークフローを統合

複数AIモデルを単一画面で操作

コンテキスト切替が不要に

プロンプトから動画・音声まで連続作成

一貫性のあるチャットUIデザイン

利便性を高める新機能

新デザインのウェルカムページ

使用量・制限をリアルタイム可視化

Googleマップとの連携機能

実世界の地理データを活用可能

詳細を見る

Googleは2025年10月18日、開発者向けプラットフォーム「Google AI Studio」のメジャーアップデートを発表しました。今回の更新は、開発者のフィードバックに基づき、AIモデルを利用した開発体験をよりシームレスかつ効率的にすることを目的としています。複数のAIモデルを統合した操作画面や、Googleマップとの連携機能などが追加されました。

アップデートの核となるのが、新しくなった「Playground」です。これまで別々のタブで操作する必要があった、対話AI「Gemini」や動画生成AI「GenMedia」などのモデルを、単一の統合された画面で利用可能になりました。これにより、開発者はタブを切り替える手間なく、アイデアから画像、動画、音声ナレーションまでを一つの流れで作成できます。

利便性を高める改善も加えられました。新しいウェルカムホームページは、プラットフォームの全機能へのアクセスを容易にし、最新情報や進行中のプロジェクトを一覧表示します。また、新たに追加されたレート制限ページでは、APIの使用状況と上限をリアルタイムで確認でき、予期せぬ利用中断を防ぎながらアプリケーションの規模を管理できます。

特に注目されるのが、Googleマップとの連携機能「マップグラウンディング」です。この機能により、開発者は現実世界の地理データや文脈をAIモデルに直接組み込むことが可能になります。これにより、位置情報に基づいた、より正確で創造的なアプリケーション開発が期待できるでしょう。

Googleは今回のアップデートを「より良い基盤を築くためのもの」と位置付けています。開発ワークフローの摩擦をなくし、開発者が本来の創造的な作業に集中できる環境を整えました。同社は来週、この基盤の上に構築される新たなAI活用アプリ開発手法を発表する予定であり、さらなる進化が期待されます。

出典：Google公式

米共和党、ディープフェイク動画で政敵を攻撃

2025年10月17日ディープフェイク倫理法整備動画音声米国医療

AI偽動画の政治利用

米共和党が政敵動画を公開

政府閉鎖を喜ぶ印象操作

実際の音声引用も文脈を無視

プラットフォームの対応

Xは規約違反でも動画を削除せず

警告ラベルの表示もなし

AI生成の透かしのみ表示

過去にも政治家の偽動画を放置

詳細を見る

米国上院の共和党全国委員会が、民主党のチャック・シューマー上院院内総務のディープフェイク動画をX（旧Twitter）に投稿しました。政府機関の閉鎖が続く中、民主党がそれを歓迎しているかのような印象操作が狙いです。Xは自社の規約に反する可能性があるにもかかわらず、動画を削除していません。

問題の動画では、AIで生成されたシューマー氏が「日々、我々にとって状況は良くなる」という言葉を繰り返します。これは実際に報道された同氏の発言ですが、本来は医療保険制度に関する戦略を語ったものであり、文脈を完全に無視した切り取りです。

Xは「害を及ぼす可能性のある合成メディア」を禁じる規約を持ちながら、今回の動画の削除や警告ラベル表示を行っていません。AI生成を示す透かし表示のみにとどまり、プラットフォームとしての対応の甘さが指摘されています。

米国では28州が政治ディープフェイクを規制する法律を持ちますが、多くは明確な開示があれば容認されます。選挙への影響を意図したものを禁じる州もありますが、巧妙化する手口に法整備が追いついていないのが現状です。

共和党側は批判に対し、「AIは現実だ。適応して勝つか、手をこまねいて負けるかだ」と反論し、AIの積極利用を宣言しました。倫理的な課題を抱えつつも、政治やビジネスにおけるAI情報戦はさらに激化する見通しです。

出典：TechCrunch

Google Pixel 10、AIで一歩先の体験を

2025年10月17日 Google Gemini コンテンツ画像動画音声

AIが写真・動画を強化

AIが全員のベストショットを合成

撮影者をAIが自動で写真に追加

AIコーチが最適な構図を提案

Geminiで画像や動画を自在に生成

日常を便利にする新機能

AIが録音に最適なBGMを自動生成

日の出を再現する目覚まし機能

思い出の写真でウォッチを彩る

詳細を見る

Googleは2025年10月17日、「Pixel 10」シリーズ向けにAIを活用した新機能を発表しました。写真撮影や音声編集、日常生活の利便性を向上させる6つの機能が、ハロウィンの活用例と共に紹介されています。ユーザーの創造性を刺激し、体験を豊かにすることを目指します。

特に注目されるのが生成AIによる写真・動画編集機能です。Geminiで既存写真を動画に変換したり、AIが表情を合成して全員が笑顔の集合写真を作る「Auto Best Take」など、専門スキルなしで高品質なコンテンツ制作が可能になります。

撮影プロセスそのものもAIが支援します。「Camera Coach」機能は、被写体や目的に応じて最適な構図や設定を提案。また、撮影者自身を集合写真に自然に追加する「Add Me」機能など、誰もが簡単にプロ並みの写真を撮れるようサポートする機能が充実しています。

AIの活用は音声分野にも及びます。標準搭載の「レコーダー」アプリでは、録音した音声にAIがムードに合わせたBGMを自動生成して追加できるようになりました。これにより、音声メモや簡単なポッドキャスト制作のハードルが大きく下がることが期待されます。

日常生活に溶け込む機能も強化されています。「Pixel Watch」では、Googleフォトからお気に入りの写真を最大30枚選び、文字盤として表示可能に。また、日の出のように画面が徐々に明るくなる「Sunrise Alarm」は、体内リズムを整えるのに役立ちます。

今回発表された新機能群は、GoogleがAI技術をデバイスに深く統合し、ユーザーの日常的なタスクや創造的活動をシームレスに支援する方向性を明確に示しています。単なる機能追加に留まらず、AIがいかに生活を豊かにできるかを示す好例と言えるでしょう。

出典：Google公式

Uber、運転手向けAI訓練タスクを試験導入

2025年10月16日クラウド画像音声米国買収

ギグワーカーの新たな収益源

米国内での試験的プログラム

運転手が追加収入を得る機会

アプリ経由のマイクロタスク提供

AI訓練のクラウドソース化

音声録音や画像収集など

AIモデルのデータ収集・注釈

大手AI企業への挑戦

Scale AIなどへの対抗策

「柔軟な働き方」のプラットフォーム強化

詳細を見る

米配車大手のUberは米国で、運転手がAIモデル訓練に参加し収入を得る試験プログラムを開始しました。アプリで音声録音などのタスクを請け負い、新たな収益源とAIデータ市場での競争力確保を狙います。

具体的なタスクは多岐にわたります。「車の画像をアップロードする」「自身の言語で話した音声を録音する」といった指示がアプリに表示されます。スペイン語のメニューを撮影すると1ドル程度の報酬が得られる例もあるようです。

この動きは、Uberが持つ膨大な労働力をAI訓練に活用し、Scale AIなど既存の有力企業に対抗する狙いです。同社は最近データラベリング企業を買収し、AI事業を強化しています。

一方で、運転手からは既に報酬の低さに対する不満も出ています。こうしたマイクロタスクが、彼らにとって魅力的な収入源となるかは未知数です。ギグワーカーの待遇が、この新事業の成否を左右するかもしれません。

今回の施策は「柔軟な働き方のプラットフォーム」構築の一環です。需要が高いエリアを示す新機能や、不当なアカウント停止措置の是正など、運転手体験の向上策も同時に発表されました。

出典：The Verge

AI顧客調査を高速化、Strellaが1400万ドル調達

2025年10月16日 Amazon デザイン創業者音声スタートアップ資金調達

AIがリサーチを革新

AIが顧客に音声でインタビュー

従来8週間の作業を数日に短縮

調査業務の90%を自動化

AmazonやDuolingoが導入

AIだから得られる本音

人間相手より率直な意見を獲得

不正回答者をAIが検知

モバイル画面共有でアプリ調査も可能

調査市場そのものを拡大

詳細を見る

AIを活用した顧客リサーチプラットフォームを提供する米スタートアップStrellaが10月16日、シリーズAラウンドで1400万ドル（約21億円）の資金調達を発表しました。同社の技術は、AIがモデレーターとして顧客インタビューを実施し、従来8週間かかっていたリサーチ期間を数日に短縮します。Amazonや食品大手Chobaniなどがすでに導入し、事業は急成長を遂げています。

製品開発の現場では、顧客の声を迅速に反映させることが成功の鍵を握ります。しかし、従来の顧客リサーチは参加者の募集からインタビュー、分析、報告まで多大な時間と労力を要するのが課題でした。Strellaは、このプロセスの大半を自動化。AIがZoomのように音声で対話し、重要な発言をまとめたハイライト映像や分析レポートを自動生成します。

同社の調査で明らかになった興味深い事実は、参加者が人間よりもAIに対してより正直に回答する傾向があることです。例えば「このデザインが好きですか？」という質問に対し、人間が相手だと気を遣って肯定的に答えがちですが、AI相手には率直な批判も厭わないといいます。これにより、企業は製品改善に不可欠な忖度のない本音を得られるのです。

Strellaの技術的優位性は、競合他社が主にテキストベースの調査にとどまる中、自由な音声会話を実現している点にあります。特にモバイルアプリの画面を共有しながらインタビューできる機能は強力です。ユーザーがアプリのどこで操作に迷うかをリアルタイムで把握できるため、UX（顧客体験）の改善に直結する具体的なインサイトが得られます。

Strellaは既存のリサーチ業務を効率化するだけでなく、これまでコストや専門人材の不足からリサーチを断念していた企業に新たな可能性を開いています。同社のサービスを導入し、初めて本格的なリサーチ部門を立ち上げた企業も複数あるといいます。これは、単なるツール提供に留まらず、顧客理解の文化を民主化し、市場そのものを拡大していることを示唆しています。

今回の資金調達を主導したBessemer Venture Partnersは、同社の差別化された技術と、顧客の課題を深く理解する創業者チームを高く評価。調達資金は主に製品開発と営業体制の強化に充てられます。今後は、参加者の表情から感情を読み取る機能の追加も視野に入れており、顧客理解のさらなる深化を目指します。

出典：VentureBeat

OnePlus、新OSでGeminiとAIを全面統合

2025年10月16日 Google Apple サムスン Gemini Android Windows 生産性 AI導入音声インド

OxygenOS 16のAI機能

Google Gemini との深い統合

AI機能「Mind Space」を世界展開

スクリーンショットから予定を自動登録

音声メモの収集とAIによる分析

AI以外の主要な改善点

滑らかさを追求した新アニメーション

PCへのリモートアクセス機能

ロック画面のカスタマイズ性向上

詳細を見る

スマートフォンメーカーのOnePlusが、Android 16をベースとする新OS「OxygenOS 16」を発表しました。最大の特徴はGoogleのAI「Gemini」との深い統合で、スクリーンショット分析などのAI機能を大幅に強化します。他社に遅れていたAI分野での巻き返しを図る狙いです。この新OSは、近日発表される次期モデル「OnePlus 15」に搭載される見込みです。

OxygenOS 16の核となるのは、Googleの生成AI「Gemini」との緊密な連携です。これにより、OSレベルでAI機能が組み込まれ、より直感的でシームレスなユーザー体験の提供を目指します。OnePlusはこれまでAI導入で慎重な姿勢でしたが、このアップデートを機に本格参入し、市場での競争力を高める戦略です。

新機能の柱が「Mind Space」です。ユーザーが保存したスクリーンショットや短い音声メモをAIが自動で分析し、情報を整理します。例えば、イベントのスクリーンショットからカレンダーに予定を登録するなど、日常のタスクを効率化します。この機能はインド市場で先行導入されていましたが、全世界で利用可能になります。

AI機能だけでなく、基本的な操作性も向上しています。滑らかさを追求して再設計されたアニメーションや、WindowsやMacにリモートアクセスできる「O+ remote」アプリが新たに追加されます。また、AppleやSamsungの製品のように、ロック画面のカスタマイズ性が高められた点もユーザーの利便性を高めます。

この新OSは、数週間以内に発表が見込まれる「OnePlus 15」に搭載されるほか、既存の対応機種にも順次提供される予定です。OSにAIが深く統合されることで、スマートフォンの使い方はどう変わるのでしょうか。ビジネスパーソンにとって、生産性向上の新たなツールとなるか、注目が集まります。

出典：Ars Technica

NianticのARペット、音声AIで『相棒』に進化

2025年10月16日エンジニア音声

ARペット『Peridot』の新機能

Hume AI搭載で音声対話を実現

SnapのARグラスで現実世界と融合

周囲の景色に応じた観光ガイド機能

目的地への足跡ナビゲーション

技術が拓く新たな体験

共感AIによる友人感覚の対話

ナビゲーションのストレス軽減

ARの未来を示すショーケース

リアルワールド・メタバースの具現化

詳細を見る

「ポケモンGO」で知られるNianticから生まれたNiantic Spatial社が、同社のARペット「Peridot（ペリドット）」に音声対話とツアーガイド機能を搭載しました。感情表現豊かなAIを開発するHume AI、ARグラスを手がけるSnapと連携し、ペットがユーザーの『相棒』として現実世界を案内する新たな体験を提示。これは、AR技術とAIが融合する未来を具体的に示す試みと言えるでしょう。

新機能の核となるのは、ARグラス「Snap Spectacles」を通して体験する対話型のナビゲーションです。ユーザーがグラスを装着すると、3Dのペット「Dot」が現実の風景に重なって出現。例えば、観光地で特定の建物に目を向けると、Dotがその歴史を語り始めたり、近くのレストランへの道を足跡のアニメーションで示したりします。

この自然な対話は、Hume AIが開発した感情表現に特化したAIによって実現されています。AIはユーザーが見ているものを認識し、まるで知識豊富で共感的な友人のように振る舞います。Niantic Spatial社は、この機能によって地図アプリに従うストレスをなくし、「まるで現地の友人に案内されているような」安心感のある体験の創出を目指します。

Niantic社は、AR技術で現実世界を拡張する「リアルワールド・メタバース」の構築を長年のビジョンとして掲げています。今回のPeridotの進化は、デジタルな存在が現実空間でより意味のある役割を担うという、そのビジョンを具現化する重要な一歩です。単なるゲームキャラクターではなく、生活を支援するパートナーとしての可能性を示唆しています。

現時点では、この機能は開発者向けイベントでのデモに限定されています。Niantic Spatial社は、ユーザーの安全性を最優先に考慮し、慎重に開発を進める方針です。今回のデモはARの未来像を示す「最初のステップ」であり、今後、ペットの個性や対話能力をさらに洗練させていく計画です。ARとAIが私たちの日常にどう溶け込んでいくのか、その動向が注目されます。

出典：WIRED

全Win11がAI PC化、音声操作と自律エージェント搭載

2025年10月16日マイクロソフト Copilot Windows アシスタント AI活用リスクセキュリティ音声エージェントプロンプト

音声操作で変わるPC

「Hey, Copilot」で音声起動

第三の入力方法として音声定着へ

キーボード・マウス操作を補完

画面を見て自律実行

Copilot Visionで画面をAIが認識

アプリ操作をAIがガイド

Copilot Actionsでタスクを自律実行

対象とセキュリティ

全Win11 PCがAI PC化、特別機不要

サンドボックス環境で安全性を確保

詳細を見る

マイクロソフトは2025年10月16日、全てのWindows 11 PC向けに、音声で起動する「Hey Copilot」や画面を認識してタスクを自律実行するAIエージェント機能などを発表しました。これにより、PCの操作はキーボードとマウス中心から、より自然な対話形式へと移行します。Windows 10のサポート終了に合わせ、AIを中核に据えた次世代のPC体験を提供し、Windows 11への移行を促す狙いです。

新機能の柱は音声操作です。「Hey, Copilot」というウェイクワードでAIアシスタントを起動でき、マイクロソフトはこれをキーボード、マウスに次ぐ「第三の入力方法」と位置付けています。同社の調査では、音声利用時のエンゲージメントはテキスト入力の2倍に上るといい、PCとの対話が日常になる未来を描いています。

さらに、AIがユーザーの画面を「見る」ことで文脈を理解する「Copilot Vision」も全機種に展開されます。これにより、複雑なソフトウェアの操作方法を尋ねると、AIが画面上で手順をガイドしてくれます。ユーザーが詳細な指示（プロンプト）を入力する手間を省き、AIとの連携をより直感的なものにします。

最も革新的なのが、AIが自律的にタスクをこなす「Copilot Actions」です。自然言語で「このフォルダの写真を整理して」と指示するだけで、AIエージェントがファイル操作やデータ抽出を代行します。まだ実験的な段階ですが、PCがユーザーの「代理人」として働く未来を示唆する重要な一歩と言えるでしょう。

自律型エージェントにはセキュリティリスクも伴います。これに対しマイクロソフトは、エージェントをサンドボックス化された安全な環境で動作させ、ユーザーがいつでも介入・停止できる仕組みを導入。機能はデフォルトで無効になっており、明示的な同意があって初めて有効になるなど、安全性を最優先する姿勢を強調しています。

今回の発表の重要な点は、これらの先進的なAI機能が一部の高性能な「Copilot+ PC」だけでなく、全てのWindows 11 PCで利用可能になることです。これにより、AI活用の裾野は一気に広がる可能性があります。マイクロソフトはPCを単なる「道具」から「真のパートナー」へと進化させるビジョンを掲げており、今後の競争環境にも大きな影響を与えそうです。

出典：WIRED | VentureBeat | The Verge

KAYAK、AIチャットで旅行計画から予約まで完結

2025年10月16日 OpenAI ChatGPT 検索 AI活用チャットボット音声米国提携

AIによる新たな旅行体験

ChatGPT統合のAIモード搭載

質問から予約までを対話形式で実行

予算や目的に応じた旅行先の提案

旅行業界のAI活用動向

煩雑な予約体験の解消が狙い

ExpediaなどもChatGPT連携

自社サイトでのデータ活用に強み

今後音声操作にも対応予定

詳細を見る

旅行検索大手のKAYAKは、ChatGPTと統合した新機能「AIモード」を自社サイトに導入しました。AIチャットボットとの対話を通じ、旅行に関する質問から航空券やホテルの検索・比較・予約までを一貫して行えます。煩雑な旅行計画の初期段階を支援し、新たな顧客体験を創出する狙いです。

このAIモードの最大の特徴は、自然言語による柔軟な検索能力です。「予算10万円以下で行ける旅行先は？」「ニューヨークで年末年始にパーティーできる場所は？」といった曖昧な質問にも、具体的な選択肢を提示します。ホテルの設備比較や直行便の検索など、詳細な条件での絞り込みも対話形式で可能です。

KAYAKが目指すのは、アイデア探しの段階にいる潜在顧客の取り込みです。しかし、AIチャットで得た情報が実際の予約に結びつくかは、今後の重要な検証課題となるでしょう。AIによる利便性向上が、どこまで収益に貢献するのか、その動向が注目されます。

旅行業界ではAI活用が加速しています。OpenAIはExpediaなどと提携し、ChatGPT内で旅行サービスを提供しています。対照的にKAYAKは自社サイトにAIを統合しました。これにより、利用者の動向データを直接収集し、サービス改善に活かす戦略です。

AIモードは現在、米国で英語のみの提供ですが、今月後半には他の国や言語にも拡大される予定です。同社はさらに、プラットフォームの拡充や音声入力への対応も計画しており、AIを活用した旅行体験の進化は今後も続きそうです。

出典：TechCrunch

多機能とSNS連携で覇権、ByteDanceのAI『Doubao』

2025年10月16日 TikTok DeepSeek ChatGPT Gemini Sora アシスタントエコシステム動画生成画像生成スマートグラスコンテンツ画像動画音声中国提携ベンチャーキャピタルエージェント

中国で最も人気なAIアプリ

月間利用者1.57億人で中国首位

世界でも4番目に人気の生成AI

親しみやすいアバターとUI/UX

成功を支える『全部入り』戦略

チャットから動画生成まで多機能

AIに不慣れな層も取り込む設計

TikTok(Douyin)とのシームレスな連携

バイラル設計とエコシステム

SNSでの共有を促すバイラル設計

競合からユーザーの4割が流入

自動車など他デバイスへの展開

詳細を見る

TikTokを運営する中国ByteDance社が開発したAIアシスタント「Doubao（豆包）」が、中国市場を席巻しています。2025年8月には月間アクティブユーザー数が1億5700万人に達し、競合のDeepSeekを抜いて国内首位となりました。その成功の裏には、チャットから画像・動画生成までを網羅する多機能性と、ショート動画アプリ「Douyin（抖音）」と連携した巧みなバイラル戦略があります。

Doubaoの躍進は、データにも裏付けられています。中国のデータインテリジェンス企業QuestMobileによると、月間アクティブユーザー数は1億5700万人。競合のDeepSeekは1億4300万人で2位に後退しました。また、ベンチャーキャピタルa16zの調査では、ChatGPTやGeminiに次ぐ世界で4番目に人気の生成AIアプリにランクインしています。

Doubaoの最大の特徴は「全部入り」とも言える包括的な機能です。テキスト対話だけでなく、画像生成、短い動画作成、データ分析、AIエージェントのカスタマイズまで、一つのアプリで完結します。これはまるで、ChatGPT、Midjourney、Sora、Character.aiといった複数の最先端ツールを一つに集約したような体験をユーザーに提供するものです。

なぜ、この「全部入り」戦略が受け入れられたのでしょうか。それは、DoubaoがAIに詳しくない一般ユーザーを明確にターゲットにしているからです。親しみやすいアバターやカラフルなUIに加え、テキスト入力より音声や動画での対話を好む層を取り込み、AI利用のハードルを劇的に下げることに成功しました。

成功のもう一つの柱が、ByteDanceの得意とするSNS連携とバイラル設計です。ユーザーはDoubaoで生成したコンテンツを、Douyin（中国版TikTok）ですぐに共有できます。逆にDouyinの動画要約をDoubaoにさせることも可能です。この利便性と楽しさが爆発的な拡散を生み、ユーザーエンゲージメントを高めています。

競合のDeepSeekがモデルの性能や論理的タスクに注力する一方、Doubaoは消費者向けアプリとしての完成度で差をつけました。QuestMobileのデータでは、DeepSeekを離れたユーザーの約4割がDoubaoに移行したとされています。これは、ByteDanceが長年培ってきた「アプリ工場」としての開発力が発揮された結果と言えるでしょう。

ByteDanceはスマートフォンの枠を超え、Doubaoをエコシステムの中核に据えようとしています。すでにスマートグラスや自動車メーカーとの提携を進めており、車載アシスタントやAIコンパニオンとしての搭載が始まっています。Doubaoは、私たちの生活のあらゆる場面に浸透するプラットフォームを目指しているのです。

出典：WIRED

アップル、AI人材流出止まらず検索幹部もメタへ

2025年10月16日 Google OpenAI Meta Apple Siri 検索アシスタントスケジュール調整機械学習音声

相次ぐAI人材の流出

AI検索責任者Ke Yang氏がメタ移籍

AIモデル責任者も今年初めに移籍済み

AI/MLチームから十数名が退職

Siri刷新への影響

来春予定のSiri刷新に打撃か

AI検索市場での競争力低下の懸念

社内でさらなる流出を危惧する声

詳細を見る

AppleでAIを活用したウェブ検索開発を率いていた幹部のKe Yang氏が、競合のMetaに移籍したことが明らかになりました。この動きは、今年に入ってから続くAppleのAI部門からの一連の人材流出の一環です。来年3月に予定される音声アシスタント「Siri」の大幅刷新を前に、同社のAI戦略に大きな痛手となる可能性があります。

Yang氏は数週間前から、Siriの機能向上を担う「AKI」チームを監督していました。このチームは、Siriがウェブから情報を直接引き出し、OpenAIやGoogleのような競合と対抗できるAI検索機能を構築する重要な役割を担っています。新Siriは個人のデータも活用し、より複雑なタスクを実行できるようになると期待されていました。

AppleのAI部門からの人材流出はYang氏に留まりません。今年初めには、AIモデルの責任者であったRuoming Pang氏がMetaに移籍。さらに、AI・機械学習（AIML）チームの十数名のメンバーも同社を去り、その一部はMetaが新設した研究組織「Superintelligence Labs」に参加したと報じられています。

相次ぐ幹部や技術者の退職は、AppleがAI開発競争で厳しい立場に置かれていることを示唆しています。特に、Siriの大型アップデートを目前に控える中での中核人材の離脱は、開発スケジュールや機能の完成度に影響を及ぼしかねません。社内では今後も流出が続くとの懸念が広がっており、経営陣は対応を迫られるでしょう。

出典：TechCrunch

Waze、ソニックと提携。ナビがゲーム体験に

2025年10月15日 Google デザインエンジニア知的財産音声ブランド提携

ソニック仕様のカスタム機能

ソニックによる音声ナビゲーション

専用のマップアイコン設定

ゲーム登場車両への変更

利用方法と提供範囲

セガの世界的キャラクターと連携

全世界で英語・フランス語対応

Wazeアプリ最新版から有効化

ドライブをゲーム体験に

運転の楽しさを演出するゲーミフィケーション

ユーザーエンゲージメントの強化

詳細を見る

Google傘下のナビゲーションアプリ「Waze」は2025年10月15日、セガの人気キャラクター「ソニック・ザ・ヘッジホッグ」をテーマにした新機能を発表しました。ユーザーは、ソニックによる音声案内や、マップ上のアイコン、車両デザインをカスタマイズでき、まるでゲームのようなドライブ体験が可能になります。この機能は全世界で英語とフランス語に対応。大手IT企業によるIP（知的財産）活用とゲーミフィケーションの新たな一手として注目されます。

新機能の目玉は、ソニックが相棒となる音声ナビです。「よし、行こうぜ！」といった世界観を反映した案内が運転を盛り上げます。さらに、マップ上のアイコンを「Energetic」ムードに、車両デザインを最新ゲームに登場する「Speedster Lightning」に変更でき、視覚的にも楽しめるよう工夫されています。

今回の提携は、ナビアプリ市場における差別化戦略の一環です。Wazeは強力なIPとの連携を通じて、運転という日常行為にゲーム要素を取り入れる「ゲーミフィケーション」を導入。これにより、ユーザーの継続利用（エンゲージメント）を促し、ブランドへの愛着を深める狙いがあります。

この機能は、Wazeアプリの最新版で有効化できます。現在は英語とフランス語での提供ですが、世界的な人気IPだけに今後の展開も期待されます。実用的なツールにエンターテインメント性を融合させることで顧客体験価値を高める好例と言えるでしょう。ビジネスリーダーや開発者にとって示唆に富む動きです。

出典：Google公式

SpotifyのAI DJ、テキスト入力に対応し利便性向上

2025年10月15日 Apple ChatGPT Siri 検索アシスタントチャットボット音声音楽プロンプト

AI DJの主な新機能

テキスト入力での選曲リクエスト

従来の音声コマンドと併用可能

スペイン語でのリクエストにも対応

向上したユーザー体験

公共の場でも気兼ねなく操作

AIによるパーソナライズされた提案

気分や活動の複雑な組合せも可能

提供範囲

世界60以上の市場で提供

Premium会員向けの限定機能

詳細を見る

音楽ストリーミング大手のSpotifyは10月15日（現地時間）、Premium会員向けに提供する「AI DJ」機能をアップデートし、新たにテキスト入力による選曲リクエストに対応したと発表しました。これまでの音声コマンドに加え、チャット形式での操作が可能になり、公共の場など声が出しにくい環境での利便性が大幅に向上します。この機能は英語とスペイン語に対応し、世界60以上の市場で展開されます。

今回の機能拡張の背景には、ChatGPTなどに代表されるAIチャットボットの急速な普及があります。ユーザーがAIとの対話においてテキスト入力を使い慣れてきたことを受け、Spotifyも自然な流れとしてこの方式を導入しました。通勤中の電車内や静かなオフィスといった、音声コマンドが使いづらい様々な利用シーンを想定しており、ユーザー体験の向上を狙いとしています。

新機能の利用は簡単です。アプリ内で「DJ」と検索して機能を起動後、画面右下のDJボタンをタップすると、音声またはテキストでリクエストを送信できます。ジャンル、気分、アーティスト、活動などを自由に組み合わせて指示することが可能です。例えば「仕事に集中できるインストゥルメンタル」といった、より具体的でパーソナライズされた選曲を実現します。

さらに、次に聴く曲に迷ったユーザーをサポートするため、AIが個人の好みに合わせてパーソナライズされたプロンプト（リクエストの提案）を表示する機能も追加されました。また、スペイン語版のAI DJ「Livi」も音楽リクエストに対応し、グローバルなユーザー層への対応を強化しています。

Spotifyの今回の動きは、AIアシスタント機能が単なる音声操作から、テキストを含むマルチモーダルな対話へと進化している現在のトレンドを象徴しています。AppleのSiriがテキスト入力に対応したのと同様の流れであり、ユーザーの状況に応じて最適な入力方法を選択できる柔軟性が、今後のサービス競争における重要な要素となるでしょう。

出典：TechCrunch

Google、AI動画Veo 3.1公開編集機能で差別化

2025年10月15日 Google OpenAI Gemini Sora Veo Flow Veo 3 ワークフロー動画生成エンジニアクリエイターコンテンツ動画音声プロンプト

Veo 3.1の主な進化点

よりリアルな質感と音声生成

プロンプトへの忠実性が向上

最大2分半超の動画延長機能

縦型動画の出力に対応

高度な編集と競合比較

動画内の物体を追加・削除

照明や影の自然な調整

編集ツールは高評価もSora優位の声

Sora 2より高価との指摘も

詳細を見る

Googleは2025年10月15日、最新のAI動画生成モデル「Veo 3.1」を発表しました。AI映像制作ツール「Flow」に統合され、音声生成や動画内のオブジェクトを操作する高度な編集機能を搭載しています。これにより、クリエイターはより直感的に高品質な動画を制作可能になります。激化するAI動画市場で、競合のOpenAI「Sora 2」に対し、編集機能の優位性で差別化を図る狙いです。

Veo 3.1の大きな特徴は、音声生成機能の統合です。従来は手動で追加する必要があった音声が、静止画から動画を生成する機能や、動画を延長する機能にネイティブで対応しました。これにより、映像と音声が同期したコンテンツをワンストップで制作でき、制作工程を大幅に効率化します。

編集機能も大幅に強化されました。動画内の任意の場所にオブジェクトを自然に追加する「挿入」機能や、不要な要素を消去する「削除」機能が実装されます。さらに、照明や影を調整し、シーン全体のリアリティを高めることも可能です。作り手の意図をより精密に反映した映像表現が実現します。

新モデルは、動画編集ツール「Flow」に加え、開発者向けの「Gemini API」や企業向けの「Vertex AI」でも提供されます。これにより、個人のクリエイターから企業のコンテンツ制作まで、幅広い用途での活用が期待されます。GUIとAPIの両方を提供することで、多様なワークフローに対応する構えです。

一方で、市場の反応は賛否両論です。特に競合の「Sora 2」と比較し、動画自体の品質や価格面でSora 2が優位だとの指摘も出ています。Veo 3.1の強みである高度な編集ツールが高く評価される一方、生成品質のさらなる向上が今後の課題となりそうです。

技術面では、最大1080pの解像度と、SNSなどで需要の高い縦型動画の出力に対応しました。また、生成された動画には電子透かし技術「SynthID」が埋め込まれ、AIによる生成物であることを明示します。これにより、コンテンツの透明性を確保し、責任あるAI利用を促すとしています。

出典：VentureBeat | TechCrunch | The Verge | Ars Technica | Google公式

Google新イヤホン、AI連携とANCで体験を刷新

2025年10月15日 Google Gemini 生産性アシスタント音声音楽

AIとANCで進化

Aシリーズ初のANC搭載

ハンズフリーでGeminiを起動

操作性と音質を最適化

左右のタッチ操作を個別設定

イコライザーで音質を微調整

プリセットやカスタム保存も可能

複数端末との連携

2台同時接続のマルチポイント

PCとスマホ間を自動で切り替え

詳細を見る

Googleは2025年10月15日、新型ワイヤレスイヤホン「Pixel Buds 2a」の多彩なカスタマイズ機能を公開しました。Tensor AIを搭載した本製品は、Aシリーズで初めてアクティブノイズキャンセリング（ANC）を搭載し、AIアシスタント「Gemini」へのハンズフリーアクセスも可能です。ユーザーが自身の使い方に合わせて体験を最適化できる設定方法が紹介されており、ビジネスパーソンの生産性向上に貢献します。

最大の注目点は、Aシリーズ初となるANC機能です。これにより、騒がしい環境でも集中して作業や通話に臨めます。また、イヤホンをタッチするだけでAIアシスタント「Gemini」を呼び出せ、スマホを取り出さずに音声でタスクを完結できるのは大きな利点と言えるでしょう。

操作性もユーザーに合わせて最適化できます。左右のイヤホンの「長押し」操作に、それぞれ異なる機能を割り当てることが可能です。例えば、右耳でANCをオンにし、左耳でGeminiを起動するといった設定ができます。使用頻度の高い機能を直感的かつ素早く呼び出せるようになります。

音質へのこだわりも満たせます。専用アプリのイコライザー機能を使えば、低音や高音のバランスを自由に調整可能です。「ボーカルブースト」などの便利なプリセットも用意されており、音楽鑑賞からウェブ会議まで、用途に応じた最適なサウンドを手軽に設定できる点も魅力です。

複数のデバイスを使いこなす現代のビジネスパーソンにとって、マルチポイント接続は欠かせない機能でしょう。PCとスマートフォンなど2台の端末に同時接続し、音声ソースを自動で切り替えます。PCでの作業中にスマホへ着信があっても、イヤホンはシームレスに通話へ移行し、デバイス間の手間を省きます。

このように「Pixel Buds 2a」は、高度なカスタマイズ性によってユーザー一人ひとりの使い方に寄り添います。AI、ANC、そしてシームレスな接続性を組み合わせることで、仕事の生産性向上から日々の楽しみまで、幅広いシーンで活躍する強力なパートナーとなりそうです。

出典：Google公式

保険業務をAIで刷新、Liberateが75億円調達

2025年10月15日生産性アシスタント投資家推論強化学習音声スタートアップ投資資金調達ベンチャーキャピタル評価額エージェント

AIエージェントの提供価値

売上15%増、コスト23%削減を実現

請求対応時間を30時間から30秒に短縮

24時間365日の販売・顧客対応

既存システムと連携し業務を自動化

大型資金調達の概要

シリーズBで5000万ドルを調達

企業評価額は3億ドル（約450億円）

AIの推論能力向上と事業拡大に投資

Battery Venturesがラウンドを主導

詳細を見る

AIスタートアップのLiberate社が、シリーズBラウンドで5000万ドル（約75億円）を調達したと発表しました。企業評価額は3億ドル（約450億円）に達します。同社は音声AIと推論ベースのAIエージェントを組み合わせ、保険の販売から請求処理までのバックオフィス業務を自動化するシステムを開発。運営コストの増大や旧式システムに悩む保険業界の課題解決を目指します。

Liberateの技術の核心は、エンドツーエンドで業務を完遂するAIエージェントです。顧客対応の最前線では音声AIアシスタント「Nicole」が電話応対し、その裏でAIエージェント群が既存の保険システムと連携。見積もり作成、契約更新、保険金請求処理といった定型業務を人の介在なしに実行します。

導入効果は既に数字で示されています。顧客企業は平均で売上が15%増加し、運用コストを23%削減することに成功。ある事例では、ハリケーン関連の保険金請求対応にかかる時間が従来の30時間からわずか30秒へと劇的に短縮されました。人間の担当者が不在の時間帯でも販売機会を逃しません。

高い性能と信頼性を両立させる仕組みも特徴です。AIは規制の厳しい保険業界の対話に特化した強化学習で訓練されています。さらに「Supervisor」と呼ばれる独自ツールがAIと顧客の全やり取りを監視。AIの応答が不適切と判断された場合は、即座に人間の担当者にエスカレーションする安全装置も備えています。

今回の資金調達は、著名VCのBattery Venturesが主導しました。投資家は、Liberateの技術を「単に対話するだけでなく、システムと連携してタスクを最後までやり遂げる能力」と高く評価。多くの保険会社が本格的なDXへと舵を切る中、同社の存在感はますます高まっています。

Liberateは調達した資金を、AIの推論能力のさらなる向上と、グローバルな事業展開の加速に充てる計画です。創業3年の急成長企業が、伝統的な保険業界の生産性と収益性をいかに変革していくか、市場の注目が集まります。

出典：TechCrunch

ウォルマート、ChatGPTで直接購入可能に

2025年10月14日 OpenAI ChatGPT 検索アシスタント AI活用業務効率画像音声提携エージェント

AIショッピングの新体験

ChatGPTで直接商品購入

ウォルマートアカウントと連携

決済までシームレスに完結

サードパーティ商品も対象

パーソナライズの進化

顧客ニーズをAIが予測

検索中心から対話型へ

能動的な買い物提案を実現

ウォルマートのAI戦略

独自AI「Sparky」も開発

社内業務にもOpenAI活用

詳細を見る

米小売大手ウォルマートは10月14日、OpenAIとの提携を発表しました。これにより消費者は、対話AI「ChatGPT」を通じて食料品や日用品を直接購入し、決済まで完了できるようになります。ユーザーはウォルマートのアカウントをChatGPTに連携させるだけで、この新しいAIショッピング体験を利用できます。eコマースのあり方を大きく変える可能性を秘めた動きです。

この機能は、従来の検索バーにキーワードを打ち込む形式のオンラインショッピングからの脱却を目指すものです。AIとの対話を通じて、ユーザーは食事の計画を立てたり、必需品を補充したり、さらには新しい商品を発見したりすることが可能になります。ウォルマートは、この提携によって顧客のニーズをより深く理解し、予測することで、パーソナライズされた能動的な買い物体験を提供できるとしています。

今回の提携は、eコマース市場への参入を狙うOpenAIの戦略の一環でもあります。同社は最近、商品の発見から推薦、決済までを担う「エージェント的ショッピングシステム」構想を発表しており、EtsyやShopifyの事業者とも連携を進めています。大手小売業者であるウォルマートとの提携は、この構想を加速させる重要な一歩と言えるでしょう。

一方、ウォルマートもAI活用に積極的です。同社はOpenAIとの提携だけでなく、独自の生成AIショッピングアシスタント「Sparky」も開発しています。将来的にはテキストだけでなく、画像や音声など多様な入力に対応し、商品の再注文やサービスの予約まで可能にする計画です。外部との連携と自社開発の両輪で、AI時代の小売業をリードする狙いです。

ウォルマートとOpenAIの関係は今回が初めてではありません。すでに社内チーム向けにChatGPT Enterpriseを導入するなど、業務効率化にもAIを活用しています。AIを用いてファッション製品の生産期間を最大18週間短縮したり、顧客対応時間を最大40%改善したりと、具体的な成果も報告されています。今回の提携は、これまでの協力関係を消費者向けサービスへと拡大させたものです。

出典：TechCrunch

Googleフォト、AIとの対話で写真編集を刷新

2025年10月14日 Google Android 生産性画像生成クリエイティブ画像編集エンジニア専門家経営者コンテンツ画像音声米国プロンプト

AIとの対話で簡単編集

米国のAndroidユーザー向けに提供

テキストや音声で編集を指示

「Help me edit」から起動

複雑な編集も一括で実行可能

多彩な編集プロンプト例

不要な反射や映り込みを除去

ペットに衣装を合成

古い写真を鮮明に復元

背景を拡張し構図を改善

詳細を見る

Googleが、写真編集アプリ「Googleフォト」に、AIとの対話を通じて画像を編集できる新機能を導入しました。2025年10月14日、まずは米国のAndroidユーザーを対象に提供を開始。ユーザーは「Help me edit」機能から、テキスト入力や音声で「窓の反射を消して」などと指示するだけで、AIが自動で高度な編集を実行します。専門的なスキルがなくとも、誰もが直感的に写真を加工できる時代の到来です。

この新機能の利用方法は極めてシンプルです。Googleフォトで編集したい写真を開き、「Help me edit」ボタンをタップ。後は、実現したいことを自然な言葉で話したり、入力したりするだけでAIが意図を汲み取り、編集作業を代行します。これにより、これまで複数のツールや複雑な操作を要した作業が、ワンステップで完了するようになります。

具体的な活用例は多岐にわたります。例えば、商品写真の窓ガラスに映り込んだ不要な反射の除去や、背景の整理といった実用的な修正が瞬時に可能です。さらに、古い記録写真を鮮明に復元したり、複数の修正指示を一度にまとめて実行したりすることもできます。これにより、マーケティング資料や報告書の質を、手間をかけずに向上させることが期待できるでしょう。

加えて、この機能は創造性の発揮も支援します。ペットの写真にハロウィンの衣装を合成したり、殺風景な丘をヒマワリ畑に変えたりといった、遊び心のある編集も可能です。「犬が月面でスキーをしている写真」のような非現実的な画像生成も、簡単な指示で実現できます。ビジネスにおけるクリエイティブ制作の新たな可能性が広がります。

今回のアップデートは、AIが専門家のスキルを民主化する象徴的な事例と言えるでしょう。画像編集の専門知識がないビジネスパーソンでも、高品質なビジュアルコンテンツを迅速に作成できるようになります。生産性の向上はもちろん、新たなアイデア創出のツールとして、経営者やエンジニアにとっても注目すべき機能ではないでしょうか。

出典：Google公式

DirecTV、AIで「自分似」広告 26年導入へ

2025年10月14日 Gemini 広告動画音声提携

AIで変わるテレビ広告

自分のアバターが広告に登場

AIが好みを分析し商品を推薦

アバターが着る服などを購入可

2026年からGemini端末で開始

DirecTVの収益多角化

加入者減に対応する新収益源

広告事業を強化する業界動向

将来的にはTVランチャーにも展開

詳細を見る

米衛星放送大手DirecTVは14日、AI企業のGlanceと提携し、2026年からAIが生成するユーザーのアバターを起用した広告をスクリーンセーバーに導入すると発表しました。ユーザーは自分のアバターが登場する広告内で、衣類や家具などの商品を購入できます。DirecTVは、このパーソナライズされた「AIコマース体験」を通じて新たな収益源の確保を狙います。

この機能は、DirecTVのストリーミング端末「Gemini」で提供されます。ユーザーは専用アプリで自身の写真をアップロードするだけで、AIが自動でアバターを作成。スクリーンセーバーには、そのアバターが様々な商品とともに表示され、表示された商品に似たものを購入できるようになります。

リモコンへの音声操作で、アバターが着る服の色やスタイル変更も可能です。AIはユーザーの閲覧履歴や好みを分析して最適な商品を推薦し、広告でありながらエンターテインメント性の高い体験を提供します。

DirecTVがこの新機能に踏み切る背景には、衛星放送の加入者数減少があります。加入者数は近年大幅に減少しており、広告事業の強化による収益源の多角化が急務です。これはストリーミング業界全体の潮流でもあります。

Glanceは将来的に、スクリーンセーバーだけでなくテレビのランチャー（起動画面）などへの展開も計画しています。斬新な広告がユーザーに受け入れられるか、あるいは過度な広告として敬遠されるか、そのバランス感覚が今後の成否を分けそうです。

出典：Ars Technica | The Verge

セールスフォース、AIエージェントで企業の課題解決へ

2025年10月13日 Google マイクロソフト Anthropic Salesforce Slack ワークフロー AI導入 CRM 音声エージェント

Agentforce 360の強み

柔軟な指示が可能なAgent Script

エージェント構築・テストツール

Slackを主要インターフェースに

音声対応で顧客体験向上

市場競争と効果

95%のAI導入失敗という課題

12,000社が導入済みと公表

GoogleやAnthropicと激しく競争

対応時間を最大84%短縮

詳細を見る

セールスフォースは10月13日、年次カンファレンス「Dreamforce」の冒頭で、新たなAIエージェントプラットフォーム「Agentforce 360」を発表しました。企業のAI導入の95%が失敗する「パイロット・パーガトリー」からの脱却を目指し、競争が激化する市場での地位確保を図ります。

新プラットフォームの目玉は、AIエージェントに柔軟な指示を出せる「Agent Script」と、エージェントの一貫した構築・テストを可能にする「Agentforce Builder」です。さらに、Slackを主要な操作インターフェースと位置づけ、業務プロセスを対話的に進める戦略です。

なぜAI導入は難しいのでしょうか。同社は、AIツールが企業のワークフローやデータから分離していることが原因と指摘。Agentforce 360は、データ、業務ロジック、対話インターフェースを統合することで、この課題の解決を目指します。

早期導入企業では既に効果が出ています。例えばRedditは、AIエージェントの導入により平均対応時間を84%短縮。OpenTableも70%の問い合わせをAIが自律的に解決したと報告しています。

企業AI市場では、GoogleやAnthropic、Microsoftなども同様のエージェント機能を提供しています。セールスフォースは、AIモデル自体ではなく、自社のCRMや業務プロセスと深く統合できる点に差別化があると主張します。

同社はAgentforceを70億ドル規模の事業と位置づけています。今後の顧客導入の広がりが、AI時代におけるセールスフォースの競争力を左右する鍵となるでしょう。

出典：TechCrunch | VentureBeat

マイクロソフト、自社開発画像生成AIを発表

2025年10月13日 OpenAI マイクロソフト画像生成クリエイティブクリエイター画像音声投資ベンチマーク

MAI-Image-1の主な特徴

初の自社開発画像生成AI

フォトリアルな画像に強み

高速な画像生成を実現

LMArenaでトップ10入り

開発の背景と戦略

OpenAI依存からの脱却模索

クリエイターのフィードバックを反映

安全性の確保にコミット

自社AIモデルへの投資を拡大

詳細を見る

マイクロソフトAIが13日、初の自社開発によるテキストto画像生成モデル「MAI-Image-1」を発表しました。これは同社のAI戦略における重要な一歩であり、OpenAIへの依存低減にもつながる可能性があります。

MAI-Image-1は、クリエイティブプロフェッショナルの意見を取り入れ、画一的でない出力を目指しました。稲妻や風景などのフォトリアリスティックな画像生成に優れ、処理速度も大型モデルより高速です。

このモデルは、AIモデルの性能を人間が評価するベンチマークサイト「LMArena」ですでにトップ10に入る実績を上げており、その技術力の高さが示されています。

今回の発表は、マイクロソフトがOpenAIとの関係が複雑化する中、自社開発のAI能力を強化する戦略の一環です。音声生成AI「MAI-Voice-1」など、自社モデルのラインナップ拡充を進めています。

同社は安全で責任ある結果の確保にコミットしていると強調します。しかし、実際の安全性ガードレールについてはまだ評価されておらず、今後の検証が待たれるでしょう。

出典：The Verge

Google、欧州など大学生にGeminiを1年間無償提供

2025年10月13日 Google Gemini Nano Banana NotebookLM Veo Veo 3 Deep Research 生産性動画生成デザイン画像生成数学スライド学生画像動画音声欧州投資

無償提供の概要

対象は欧州・中東・アフリカの大学生

1年間無料のAI Proプラン

12月9日までの申込が必要

18歳以上の学生が対象

利用可能な主要機能

最先端モデルGemini 2.5 Pro

調査レポート作成Deep Research

思考整理を支援NotebookLM

テキストから動画生成Veo 3

詳細を見る

Googleは2025年10月13日、欧州・中東・アフリカ（EMEA）域内の大学生向けに、自社の最先端AIツール群「Google AI Proプラン」を1年間無償提供すると発表しました。18歳以上の学生が対象で、同年12月9日までの申込みが必要です。この取り組みは、次世代のAI人材育成と将来の労働力準備を目的としています。

無償提供されるのは、Gemini 2.5 Proへの拡張アクセスや、大規模な調査レポートを自動生成する「Deep Research」など、高度なAI機能を含むプランです。学生はこれらのツールを活用し、学業や創造的活動における生産性を大きく向上させることが可能になります。

さらに、音声や動画の概要作成機能が強化された思考支援ツール「NotebookLM」や、テキスト・画像から高品質な動画を生成する「Veo 3」も利用可能です。これにより、学生は研究からプレゼンテーション準備まで、多岐にわたるタスクをAIサポートで進められます。

Googleは単なる答えの提供ではなく、理解を深め批判的思考を育むことを重視しています。そのため、質問やステップバイステップの支援で学習を導く「Guided Learning」モードも導入。複雑な数学の問題解決や論文構築などをサポートします。

学生は、最新の画像生成・編集モデル「Nano Banana」を使い、寮のデザインやクラブのロゴなど、アイデアを視覚的に具体化することもできます。創造性を刺激し、プロジェクトの初期段階を迅速に進めるツールとして活用が期待されます。

この施策は、教育者向けの「Gemini for Education」の拡充とも連動しています。Googleは世界中の大学と協力し、AIリテラシーの向上と個別化された学習支援の実現を目指していて、未来の担い手への投資を強化しています。

出典：Google公式

AIアプリ基盤戦争、AppleがSiri刷新で反撃

2025年10月11日 OpenAI Apple ChatGPT App Store Siri アシスタントエコシステムエンジニアハードウェア認証音声音楽ブランド

挑戦者OpenAIの戦略

ChatGPT内で直接アプリ実行

旅行予約やプレイリスト作成

アプリストアの陳腐化を狙う野心

王者Appleの対抗策

AIでSiriを大規模刷新

音声でアプリをシームレスに操作

開発者向けの新フレームワーク

Appleが持つ優位性

15億人の巨大な利用者基盤

ハードとOSの垂直統合エコシステム

詳細を見る

OpenAIが、対話AI「ChatGPT」内で直接アプリを実行できる新機能を発表し、Appleが築いたアプリ市場の牙城に挑んでいます。これに対しAppleは、AIで大幅に刷新した音声アシスタント「Siri」と新しい開発フレームワークで迎え撃つ構えです。AI時代のアプリ利用体験の主導権を巡り、巨大テック企業間の覇権争いが新たな局面を迎えています。

OpenAIが打ち出したのは、ChatGPTの対話画面から離れることなく、旅行の予約や音楽プレイリストの作成などを完結できる「アプリプラットフォーム」です。一部では、これがAppleのApp Storeを時代遅れにする未来の標準になるとの声も上がっており、アプリ業界の勢力図を塗り替える可能性を秘めています。

一方、Appleは「アプリアイコンをなくし、アプリ自体は生かす」というビジョンを掲げています。AIで賢くなったSiriに話しかけるだけで、複数のアプリ機能をシームレスに連携させ、操作を完了させることを目指します。これは、従来のタップ中心の操作からの脱却を意味し、より直感的なユーザー体験の実現を狙うものです。

この競争において、Appleは圧倒的な強みを持ちます。世界で約15億人ともいわれるiPhoneユーザー基盤に加え、ハードウェア、OS、App Storeを自社で一貫して管理する強力なエコシステムです。ユーザーは既に使い慣れたアプリを所有しており、この牙城を崩すのは容易ではありません。

OpenAIのプラットフォームにも課題はあります。ユーザーはChatGPTのチャット形式のインターフェースに慣れる必要があり、アプリ利用には初回認証の手間もかかります。また、一度に一つのアプリしか操作できない制約や、アプリ独自のブランド体験が失われる点も指摘されています。

もちろんAppleも安泰ではありません。Siriはこれまで性能の低さで評判を落としており、汚名返上が不可欠です。しかし、開発者向けに提供される新しいフレームワーク「App Intents」により、既存アプリも比較的容易にAI機能に対応できる見込みで、巻き返しの準備は着々と進んでいます。

OpenAIは独自のハードウェア開発も模索していますが、今のところスマートフォンを超える体験は提示できていません。当面は、Appleが築いたプラットフォーム上で競争が続くとみられます。AppleがSiriの刷新を成功させれば、AI時代のアプリ覇権を維持する可能性は十分にあるでしょう。

出典：TechCrunch

Pixel Watch 4登場、AI搭載と修理しやすさで進化

2025年10月10日 Google Gemini アシスタントデザインエネルギー音声医療

利便性を高める新機能

AIアシスタントGeminiを搭載

交換可能なバッテリーとディスプレイ

緊急時の衛星通信にも対応

高速な磁気式充電ドック

デザインと体験の向上

最大3000ニトの高輝度ディスプレイ

好みに合わせるカラーテーマ機能

水泳など50種の運動を自動検出

腕を上げるだけで起動する音声操作

詳細を見る

Googleが2025年10月10日、新型スマートウォッチ「Pixel Watch 4」を発表しました。最大の特徴は、AIアシスタント「Gemini」の統合と、ユーザー自身で交換可能なバッテリーおよびディスプレイです。緊急時の衛星通信機能も新たに搭載し、利便性と安全性を大幅に向上。デザインの刷新とヘルスケア機能の強化も図り、スマートウォッチ市場での競争力を高めます。

ビジネスパーソンにとって注目すべきは、手首から直接AI「Gemini」を利用できる点でしょう。スマートフォンを取り出すことなく、腕を上げるだけで天気予報の確認やタイマー設定が可能になる「raise-to-talk」機能を搭載。会議中や移動中など、両手がふさがりがちな状況でも、スマートに情報を引き出し、タスクをこなせます。

Pixel Watch 4は、バッテリーとディスプレイを交換可能にすることで、製品寿命の長期化を実現しました。これは「修理する権利」への配慮であり、サステナビリティを重視する現代の消費者ニーズに応える動きです。デバイスを長く愛用できることは、結果的にコストパフォーマンスの向上にも繋がります。

ディスプレイは、屋外での視認性が劇的に改善されました。周囲の明るさに応じて輝度を自動調整し、最大3000ニトの明るさを実現。サングラスをかけていても、ランニングのペースや通知をはっきりと確認できます。また、好みの配色を選べるカラーテーマ機能により、自分だけのスタイルを表現することも可能です。

新開発の磁気式充電ドックは、利便性を大きく高めています。ウォッチを置くだけで定位置に吸着し、充電中は時刻を表示するナイトスタンドモードとしても機能。わずか15分の充電で朝のランニングに必要な電力を確保できる急速充電も魅力です。41mmモデルで最大30時間のバッテリー持続時間を誇ります。

フィットネス機能も進化しました。ランニングやウォーキングなどのアクティビティを自動で検出し記録する機能や、水泳中に自動で画面をロックする機能を搭載。プールでの指標もカスタマイズでき、より詳細なデータ管理が可能になりました。ピクルボールを含む50種類以上のエクササイズに対応し、多様なワークアウトをサポートします。

出典：Google公式

AIプレゼンPrezent、3000万ドル調達で企業買収加速

2025年10月10日生産性スライドエンジニア専門家創業者動画音声スタートアップ中小企業コンサル資金調達買収

資金調達と企業価値

3000万ドル（約45億円）の資金調達

企業価値は4億ドルに到達

資金使途はAIサービス企業の買収

買収戦略と事業展開

創業者の別会社Prezentiumを買収

ライフサイエンス業界の顧客基盤獲得

大企業向けに特化した戦略を推進

独自の導入支援と展望

「プレゼン・エンジニア」による導入支援

パーソナライズ機能やアバター追加を計画

詳細を見る

AIプレゼンテーション作成ツールを提供するPrezent（本社：カリフォルニア州）は、3,000万ドル（約45億円）の資金調達を発表しました。この資金は主にAIサービス企業の買収に充てられます。第一弾として、創業者ラジャット・ミシュラ氏が共同設立したライフサイエンス分野のプレゼンサービス企業Prezentiumを買収。AIツールと専門サービスを融合させ、事業拡大を加速させる狙いです。

今回の資金調達はMultiplier Capital、Greycroft、野村ストラテジック・ベンチャーズが主導しました。これにより、Prezentの企業価値は4億ドルに達し、累計調達額は7,400万ドルを超えました。多くのAIスタートアップが自社開発に資金を投じる中、PrezentはM&A;（合併・買収）を成長戦略の核に据えるという明確な方針を打ち出しています。

最初の買収対象となったPrezentiumは、創業者ミシュラ氏が非業務執行役員を務める企業です。この買収により、両社は一つ屋根の下に統合されます。Prezentは、Prezentiumが持つライフサイエンス業界の強固な顧客基盤を活用し、自社のAIツールをより多くの企業に提供することが可能になります。

多くの競合が個人や中小企業をターゲットにする中、Prezentは大企業に特化する戦略で差別化を図ります。現在は特にライフサイエンスとテクノロジー業界に注力。各業界特有のニーズに対応したAIモデルをトレーニングすることで、質の高いビジネスコミュニケーションツールを提供することを目指しています。

Prezentのユニークな点は、顧客企業内に「プレゼンテーション・エンジニア」を配置する支援体制です。AIは多くのことを自動化できますが、人にAIの使い方を教えることはできません。専門家が常駐することで、AIツールの導入から定着までを円滑に進め、顧客の生産性向上を直接支援します。

今後、Prezentは製品機能の強化も進めます。個人のプレゼン様式を学習するパーソナライゼーション機能や、音声や動画からスライドを生成するマルチモーダル機能、さらにはデジタルアバターの導入も計画しています。M&A;戦略も継続し、コミュニケーション分野のコンサルティング企業などを次の買収ターゲットとしています。

出典：TechCrunch

Zendesk、音声AIやIT資産管理でサービス基盤を刷新

2025年10月09日 OpenAI Copilot GPT-5 カスタマーサービス音声投資エージェント

AIでサービス体験を革新

自律型AIによる複雑な問題の即時解決

顧客・従業員・コンタクトセンターを統合支援

OpenAIの最新LLM、GPT-5などを活用

主な新機能

自然な対話が可能な音声AIエージェント

IT資産を統合管理するITAM機能

管理者支援AI「Copilot」の搭載

独自のビジネスモデル

解決成功時のみ課金する新料金体系

二重の品質チェックで解決の質を保証

詳細を見る

顧客サービスプラットフォーム大手のZendeskは、AIサミットで同社のサービス基盤「Resolution Platform」のAI機能を大幅に強化したと発表しました。音声AIエージェントやIT資産管理(ITAM)などを新たに搭載。最新の大規模言語モデル(LLM)を活用し、顧客および従業員サービスの問題解決を自動化・高度化します。

新機能の目玉は、自律型AIエージェントの適用範囲拡大です。従来のチャットやメールに加え、新たに音声での問い合わせにも完全対応。ビデオ通話や画面共有機能も追加され、より複雑で個別性の高いサポートをリモートで提供できるようになりました。これにより顧客体験は大きく向上するでしょう。

管理者やIT部門向けの支援機能も充実させました。管理者向けAI「Admin Copilot」は、運用上の問題を自動で検知し、平易な言葉で修正案を提示。また、新機能のIT資産管理(ITAM)は、従業員が使用するデバイス情報をサービスチケットと連携させ、迅速なトラブルシューティングを可能にします。

外部ナレッジとの連携も強化。「Knowledge Connectors」により、SharePointなどの外部情報を移行せずに直接参照可能になりました。また「Knowledge Builder」は、顧客との対話履歴を分析し、ヘルプ記事を自動生成。組織全体のナレッジ活用を促進します。

Zendeskは独自の課金モデルも打ち出しています。それは、AIが問題を解決し、顧客が満足した場合にのみ料金が発生する「成功報酬型」。業界最長の検証期間と二重の品質チェックを組み合わせることで、解決の質を担保。これにより、企業は投資対効果を最大化できると強調しています。

出典：VentureBeat

YouTube、新AIレポートで広告とUGCの効果を統合分析

2025年10月09日 Google 検索広告クリエイターコンテンツ動画音声ブランド投資

新レポート「ブランドパルス」

有料・無料コンテンツを統合分析

広告ROIの最大化を支援

Googleの最新AIがデータを解析

AIが捉える真の価値

映像・音声からブランド言及を検出

広告からオーガニック動画への送客効果

ブランド検索への影響も可視化

データドリブンな戦略立案

人気UGCをパートナーシップ広告に

新たなコンテンツ戦略に活用

詳細を見る

Google傘下のYouTubeは2025年10月9日、企業がプラットフォーム上でのブランド価値を統合的に測定できる新機能「ブランドパルスレポート」を発表しました。Googleの最新AIを活用し、有料広告とオーガニックコンテンツ双方の影響を可視化。これにより、企業は広告費用対効果（ROAS）を最大化し、より効果的なマーケティング戦略を立案できるようになります。

このレポートの最大の特徴は、GoogleのマルチモーダルAIを駆使している点です。映像内のロゴや商品、音声やタイトルに含まれるブランド名までを自動検出。これまで捕捉が難しかったクリエイター動画内での間接的なブランド露出もデータとして捉えることが可能になりました。

レポートでは新たな価値指標を提供します。特に、有料広告がユーザー投稿動画（UGC）などオーガニックコンテンツの視聴をどれだけ促進したかという相乗効果は注目点です。広告視聴後のブランド検索への影響も分析でき、投資の真の効果を多角的に把握できます。

企業はこのレポートから得られる知見を、具体的なアクションに繋げられます。例えば、人気のオーガニック動画を「パートナーシップ広告」として活用し、さらに多くのユーザーにリーチできます。また、オーディエンスの反応を分析し、次なるコンテンツ戦略をデータドリブンで立案することも可能です。

「ブランドパルスレポート」は現在、一部の広告主を対象に提供が開始されています。YouTubeは今後数ヶ月以内にさらなる詳細を発表する予定です。このツールは外部パートナーとの協力のもとで開発されており、現場のニーズを反映した実用的な機能が期待されます。

出典：Google公式

Google、家庭向けGemini発表 AIでスマートホーム進化

2025年10月09日 Google Gemini 検索アシスタントエンジニア経営者ハードウェアセキュリティ音声

AIで家庭がより直感的に

曖昧な指示での楽曲検索

声だけで安全設定を自動化

より人間的な対話を実現

複雑な設定が不要に

4つの主要アップデート

全デバイスにGeminiを搭載

刷新されたGoogle Homeアプリ

新サブスクHome Premium

新型スピーカーなど新ハード

詳細を見る

Googleが、同社のスマートホーム製品群に大規模言語モデル「Gemini」を統合する「Gemini for Home」を発表しました。これにより、既存のGoogle HomeデバイスがAIによって大幅に進化し、利用者はより人間的で直感的な対話を通じて、家庭内のデバイスを操作できるようになります。今回の発表は、スマートホームの未来像を提示するものです。

Geminiは、利用者の曖昧な指示や感情的な要望を理解する能力が特徴です。例えば、曲名を知らなくても「あのキラキラした曲をかけて」と頼んだり、「もっと安全に感じたい」と話しかけるだけでセキュリティ設定の自動化を提案したりします。これにより、テクノロジーがより生活に溶け込む体験が実現します。

今回の発表には4つの柱があります。第一に、既存デバイスへのGemini for Homeの提供。第二に、全面的に再設計されたGoogle Homeアプリ。第三に、高度なAI機能を提供する新サブスクリプション「Google Home Premium」。そして最後に、新しいGoogle Homeスピーカーを含む新ハードウェア群です。

これらのアップデートは、Googleのスマートホーム戦略が新たな段階に入ったことを示唆しています。AIを中核に据えることで、単なる音声アシスタントから、生活を能動的に支援するパートナーへと進化させる狙いです。経営者やエンジニアにとって、AIが物理的な空間とどう融合していくかを考える上で重要な事例となるでしょう。

出典：Google公式

Zendesk、自律型AIで顧客対応の8割を自動化へ

2025年10月08日生産性検索経営者カスタマーサービスカスタマーサポート品質保証音声米国買収エージェントベンチマーク

顧客サポート変革の核

中核は自律型サポートAI

人間介入なしで80%の課題解決を目標

残る20%はコパイロットが技術者を補佐

音声、管理層、分析エージェントも投入

導入効果と戦略的背景

先行導入でCSATが5〜10ポイント改善

AIによる作業自動化への産業シフト

ベンチマークで高い問題解決能力を実証

積極的なAI企業買収が基盤（Hyperarcなど）

詳細を見る

米カスタマーサポート大手Zendeskは、このほどAIサミットにて、LLMを活用した自律型の新しいエージェントシステムを発表しました。中核となる「自律型サポートエージェント」は、人間の介入なしに顧客サポート問題の80%を解決することを目指します。これは、年間46億枚のチケットを処理するZendeskのプラットフォームにおいて、カスタマーサポートのあり方を根底から覆す可能性を秘めています。

新システムは、課題解決率80%を担う「自律型エージェント」と、残りの複雑な20%の課題処理を人間の技術者を支援する「コパイロットエージェント」を中心に構成されています。さらに、管理層エージェントや音声ベースエージェント、分析エージェントなどが連携し、包括的なAI駆動型サポート体制を構築する設計です。

同社製品部門のプレジデントは、この動きを「AIが作業の大部分を行うシステムへの世界的なシフト」の一環であると位置づけています。従来の人間向けに設計されたソフトウェアから、AIが主役となるサポート体制へ移行することで、サポート業界全体の生産性と収益性の劇的な向上を図る狙いです。

AIによる80%解決という目標は、非現実的ではありません。ツールの呼び出し能力を測る独立系ベンチマーク「TAU-bench」では、現在トップモデルが85%の問題を解決しています。また、既存顧客での先行導入の結果、顧客満足度（CSAT）が5〜10ポイント向上しており、実用性も証明されています。

この大規模なAIシフトを支えるのが、Zendeskが積極的におこなってきたAI関連企業の買収です。2024年以降、QAおよびエージェントサービスシステムのKlaus、自動化プラットフォームのUltimate、そして分析エージェントの基盤となるHyperarcなどを相次いで取得し、技術的な基盤を強化してきました。

このAI技術が広く普及すれば、経済的なインパクトは計り知れません。米国だけでも240万人のカスタマーサービス担当者がいますが、情報検索に留まらず、複雑なトラブルシューティングや自律行動をAIが担うことで、人件費削減とサービス品質向上を両立させることが可能になります。経営者は、この変化を早期に取り込むべきでしょう。

出典：TechCrunch

Google、対話型AI検索「Search Live」をインド展開

2025年10月08日 Google Gemini 検索 AI採用音声米国インドコンテキスト

インド市場での拡大

AI検索機能「Search Live」をインドで提供開始（米国に次ぐ2例目）

英語とヒンディー語に対応し展開

AI Modeが7つのインド現地語を追加サポート

対象言語はベンガル語、タミル語など計7言語

機能と戦略的狙い

リアルタイム支援の会話型検索を実現

カメラで写した視覚情報を用いたマルチモーダル検索

インドの早期AI採用層をトレーニングに活用

Search Liveの基盤技術はカスタム版Gemini

詳細を見る

Googleは、AIを搭載した会話型検索機能「Search Live」をインドで提供開始しました。これは、米国に次いで2番目の市場展開となります。同時に、AI Modeもインドの現地語7言語に拡大対応。同国はGoogleにとって最速で成長する市場の一つであり、AI機能を強化することで、巨大なユーザー層の獲得を目指します。

Search Liveは、Geminiをカスタム化したAIモデルとProject Astra技術に基づいています。ユーザーはスマートフォンのカメラを向けた物体に対し、リアルタイムで質問し、双方向の会話を通じて支援を得られます。視覚的なコンテキストを利用するマルチモーダル検索であり、ユーザー体験を大きく変えるものです。

Googleのプロダクト担当副社長は、インドの人々を「マルチモーダル検索のパワーユーザー」と表現し、音声および視覚検索において世界最大のユーザー基盤だと強調しています。この高いAI採用意欲が、インドが米国に次ぐ Search Live の導入市場となった論理的な理由です。

今回のインド展開には、同国の早期AI採用層を活かし、広範な視覚的コンテキストでシステムを訓練するという戦略的狙いがあります。多様な環境や言語から得られるデータは、Search Liveの能力を時間とともに向上させ、グローバル展開の精度を高める基盤となります。

また、AI Modeはベンガル語、タミル語、ウルドゥー語など新たに7つのインド現地語に対応しました。これは、世界200以上の国と地域、35以上の新言語へのグローバル拡大の一環です。カスタムGeminiモデルが現地言語の微妙なニュアンスを正確に把握できるとしています。

出典：TechCrunch

Google AI、コア製品を劇的進化 9月のChrome/Search/Gemini刷新まとめ

コア製品のAI統合

ChromeにGeminiブラウジングアシスタント搭載

Searchにリアルタイム視覚検索（Search Live）導入

複雑な多段階質問に対応するAIモードの拡充

Android Gboardにトーン修正・文法校正AI

Geminiと次世代技術

カスタムAI「Gems」の共有機能でコラボを促進

DeepMindが物理エージェント時代へ、ロボティクス強化

Nano Bananaによる高度な画像生成・編集機能

詳細を見る

Googleは2025年9月、AI技術を中核製品全体に深く統合し、利用者体験の劇的な向上を発表しました。これはChrome、Search、Geminiアプリといった主要サービスに留まらず、教育分野や次世代ロボティクスまで多岐にわたります。特に、生産性向上に直結する機能が多数リリースされており、AIを使いこなしたい経営者やエンジニア層にとって見逃せないアップデートです。

ウェブブラウザと検索機能は、AIアシスタント化を加速させています。ChromeではGeminiがブラウジングアシスタントとして機能し、開いているタブ全体を横断して質問に回答可能です。また、SearchのAIモードは、複雑な多段階質問に対応するだけでなく、日本語を含む多言語対応を拡大し、グローバルでの利用を促進しています。

特に画期的なのは、Search Liveの導入です。これは、リアルタイムの音声会話にスマートフォンのカメラフィードを共有する機能を組み合わせ、現実世界の課題解決をリアルタイムで支援します。また、AndroidのGboardにはAIライティングツールが追加され、トーンの修正やスペル・文法の校正が端末内で自動で行えるようになり、モバイル生産性が向上しました。

GeminiアプリはAI活用ハブとしての地位を固めています。特に、特定の目的に合わせてカスタマイズしたAIモデル「Gems」の共有機能が追加され、チーム内での共同作業や情報共有が容易になりました。さらに、DeepMind開発の画像生成・編集モデル「Nano Banana」の活用が広がり、クリエイティブな作業の可能性を広げています。

学習領域では、AIが個々のユーザーに最適化された学習を実現します。NotebookLMは、利用者のメモに基づきフラッシュカードやクイズを自動生成し、パーソナライズされた学習ガイドを提供します。スンダー・ピチャイCEOはAI教育への10億ドルのコミットメントを強調し、「Gemini for Education」を全米の高校に提供すると発表しました。

長期的な視点では、Google DeepMindが「物理エージェント」の時代を宣言し、ロボティクスモデルを強化しました。Gemini Robotics 1.5/ER 1.5は、ロボットが環境を認識し、推論し、複雑なマルチステップタスクを処理する能力を飛躍的に高めます。また、Gemini 2.5が国際プログラミングコンテストで金メダル級の成績を収め、その推論能力を証明しています。

出典：Google公式

Google、スマートホーム戦略を抜本改革：AI「Gemini」で家庭内体験を一新

2025年10月07日 Google Gemini 生産性アシスタントハードウェア音声提携

停滞打破とAI戦略

Googleスマートホームの再活性化が急務

Geminiを中核とするAI戦略を推進

現行AI技術で家庭内体験を変革

Geminiの変革力

ユーザーとの自然な対話を重視

次世代スマートホームの実現を目指す

Google製品責任者が戦略を直接説明

事業戦略の焦点

ハードウェアかプラットフォームの役割を議論

理想のスマートホーム実現にはまだ課題

詳細を見る

Googleは、フラッグシップAIモデルである「Gemini」を中核に据え、スマートホームプラットフォームの抜本的な再構築に乗り出しています。これまでGoogle HomeやNest製品は競合に後れを取り停滞気味でしたが、同社はこの現状を打破し、AIによって家庭内体験を根本から変革できると確信しています。製品責任者への取材を通じ、次世代スマートホーム戦略の全容が明らかになりました。

同社は、長年にわたり製品を開発しつつも、途中で戦略を放棄してきた歴史があるとの批判にさらされてきました。スマートホームもその一つと見なされがちでしたが、Googleは依然としてこの分野にコミットしています。特に、現在のAI技術が家庭内でのデバイスとの相互作用を劇的に変化させると強調しており、Geminiはその実現の鍵を握ります。

Geminiの導入は、従来の音声アシスタントの限界を超え、より文脈を理解した自然な操作を可能にすると期待されます。AIがユーザーの行動や意図を学習し、自宅にあるあらゆる機器との連携を最適化する狙いです。これにより、ユーザーはよりシームレスで直感的なスマートホーム体験を得られるようになります。

戦略上の重要な論点として、Googleが単なるハードウェアメーカーに留まるのか、それともオープンなプラットフォーム提供者として業界全体を牽引するのかが議論されています。製品責任者は、Geminiを活用することで、どちらの立場であってもスマートホーム全体を向上させられると見ています。この戦略の明確化は、提携企業やデベロッパーにも大きな影響を与えます。

Googleは、Geminiによる変革を確信する一方で、我々が理想とする真にインテリジェントなスマートホームの実現にはまだ道のりがあることを認めています。AIを活用した新しいGoogle Homeスピーカーなどの具体的な製品投入に加え、プラットフォームとしての進化を継続し、市場価値と生産性を高めるコネクテッドホームの実現を目指しています。

出典：The Verge

OpenAI、開発者向けAPIを大幅強化：GPT-5 ProとSora 2提供開始

2025年10月06日 OpenAI Sora AI活用エコシステム動画生成 GPT-5 エンジニア推論動画音声サム・アルトマン医療

フラッグシップモデルの進化

GPT-5 ProをAPI経由で提供開始

金融、法律など高精度な推論を要求する業界向け

動画生成モデルSora 2のAPIプレビュー公開

リアルなシーンと同期したサウンドの生成

低遅延音声AIの普及戦略

小型で安価な音声モデルgpt-realtime miniを導入

低遅延ストリーミングによる高速な音声対話を実現

旧モデル比でコストを70%削減し低価格化

詳細を見る

OpenAIは先日のDev Dayにおいて、開発者向けAPIの大規模な機能強化を発表しました。特に注目すべきは、最新の言語モデル「GPT-5 Pro」、動画生成モデル「Sora 2」のAPIプレビュー公開、そして小型かつ安価な音声モデル「gpt-realtime mini」の導入です。これはAIエコシステムへの開発者誘致を加速させ、高精度なAI活用を目指す企業に新たな機会を提供します。

最新のフラッグシップモデルであるGPT-5 Proは、高い精度と深い推論能力を特徴としています。CEOのサム・アルトマン氏は、このモデルが金融、法律、医療といった、特に正確性が要求される業界のアプリケーション開発に有効だと強調しました。これにより、複雑な専門的タスクの自動化と品質向上が期待されます。

また、大きな話題を呼んだ動画生成モデルSora 2も、開発者エコシステム参加者向けにAPIプレビューが開始されました。開発者はSora 2の驚異的な動画出力能力を自身のアプリケーションに直接組み込めます。より現実的で物理的に一貫したシーン、詳細なカメラディレクション、そして視覚と同期した豊かなサウンドスケープの生成が可能です。

さらに、今後のAIとの主要な対話手段として重要視される音声機能強化のため、新モデル「gpt-realtime mini」が導入されました。このモデルは、APIを通じて低遅延のストリーミング対話に対応しており、応答速度が極めて重要なアプリケーション開発を可能にします。

gpt-realtime miniの最大の特徴は、そのコストパフォーマンスの高さです。従来の高度な音声モデルと同等の品質と表現力を維持しながら、利用コストを約70%も削減することに成功しました。この大幅な低価格化は、音声AI機能の普及を加速させ、より多くの企業が手軽にAIを活用できる環境を整えます。

出典：TechCrunch

OpenAIとIve氏のAIデバイス、技術・設計課題で開発難航

2025年10月05日 OpenAI Apple デザインスケジュール調整デザイナーインフラプライバシー音声買収

開発難航の主要因

デバイスの振る舞い（人格）が未解決

適切な会話開始・終了の制御

常時オンによるプライバシー懸念

コンピューティングインフラの課題

目標とするデバイス像

手のひらサイズの小型設計

物理的なスクリーンレス

オーディオ・ビジュアルを認識

ユーザー要求への応答機能

詳細を見る

OpenAIと伝説的なAppleのデザイナーであるJony Ive氏が共同で進めるスクリーンレスAIデバイスの開発が、技術的および設計上の課題に直面し、難航していることが報じられました。両社は2025年5月にIve氏が設立したio社を65億ドルで買収し、2026年の発売を目指していましたが、未解決の課題によりスケジュール遅延の可能性があります。このデバイスは、次世代のAIを活用したコンピューティングを実現すると期待されています。

開発の主要な障害となっているのは、デバイスの「人格（Personality）」設定と、UXデザインに関する課題です。特に、物理環境からの音声や視覚情報を常に取り込む「常時オン」アプローチを採用しているため、プライバシー保護の枠組み構築が急務となっています。さらに、根本的なコンピューティングインフラの課題も解決が待たれています。

Ive氏とOpenAIが目指すのは、手のひらサイズのスクリーンレスデバイスです。周囲の情報を常に把握するからこそ、いつユーザーの発言に応答し、いつ会話を終えるかという、極めて繊細な会話制御が求められます。

情報源によると、チームは「本当に有用な時だけ発言する」という理想の実現に苦慮しており、従来のデバイスとは異なる根本的なAI UX設計の難しさが浮き彫りになっています。AIが人間に寄り添う新しいコンピューティングの形を模索する上で、こうした設計上の試行錯誤が不可避であることが示されています。

出典：TechCrunch

iOS 26、オンデバイスAIでアプリ体験を刷新

2025年10月03日 OpenAI Apple iOS 生産性エンジニア推論オンデバイスプライバシー動画音声

オンデバイスAIの利点

推論コスト不要でAI機能実装

プライバシーに配慮した設計

ネット接続不要のオフライン動作

主な活用パターン

テキストの要約・生成・分類

ユーザー入力に基づく自動提案機能

音声からのタスク分解・文字起こし

パーソナライズされた助言・フィードバック

詳細を見る

Appleが2025年の世界開発者会議（WWDC）で発表した「Foundation Models framework」が、最新OS「iOS 26」の公開に伴い、サードパーティ製アプリへの実装が本格化しています。開発者は、デバイス上で動作するこのローカルAIモデルを利用し、推論コストをかけずにアプリの機能を向上させることが可能です。これにより、ユーザーのプライバシーを保護しながら、より便利な体験を提供できるようになりました。

AppleのローカルAIモデルは、OpenAIなどの大規模言語モデルと比較すると小規模です。そのため、アプリの根幹を覆すような劇的な変化ではなく、日常的な使い勝手を向上させる「生活の質（QoL）」の改善が主な役割となります。推論コストが不要でオフラインでも動作する点が、開発者にとって大きな利点と言えるでしょう。

具体的な活用例として、生産性向上機能が挙げられます。タスク管理アプリ「Tasks」では音声からタスクを自動分割し、日記アプリ「Day One」はエントリーの要約やタイトルを提案します。また、レシピアプリ「Crouton」では、長文から調理手順を自動で抽出するなど、手作業を削減する機能が実装されています。

学習や創造性の分野でも活用が進んでいます。単語学習アプリ「LookUp」は、AIが単語の例文を生成し、学習をサポートします。子供向けアプリ「Lil Artist」では、キャラクターとテーマを選ぶだけでAIが物語を生成。ユーザーの創造性を刺激する新たな体験を提供しています。

個人の趣味や健康管理といった専門分野でも応用は多彩です。フィットネスアプリ「SmartGym」はワークアウトの要約を生成し、テニス練習アプリ「SwingVision」は動画から具体的なフォーム改善案を提示します。このように、AIがパーソナライズされた助言を行う事例が増えています。

今回の動きは、AI機能の導入がより身近になることを示唆しています。開発者は、サーバーコストやプライバシー問題を気にすることなく、高度な機能をアプリに組み込めるようになりました。iOS 26を皮切りに、オンデバイスAIを活用したアプリのイノベーションは、今後さらに加速していくとみられます。

出典：TechCrunch

韓国Wrtn、GPT-5活用で利用者650万人超

2025年10月02日 OpenAI Wrtn 生産性アシスタント GPT-5 GPT-4 学生音声日本韓国スタートアッププロンプト教師

成功の鍵は徹底した現地化

ペルソナに基づくプロンプト設計

韓国語の俗語や言い回しに対応

キャラクターチャットで利用拡大

新モデル即応の巧みな設計

軽量・高性能モデルを使い分けるルーター

新モデルへのシームレスな移行を実現

GPT-5導入でDAUが1週間で8%増

音声モデルで新たな利用機会を創出

詳細を見る

韓国のAIスタートアップ「Wrtn（リーテン）」が、OpenAIの最新モデル「GPT-5」をいち早く導入し、月間アクティブユーザー650万人超のライフスタイルAIアプリへと急成長を遂げています。成功の背景には、韓国語の俗語まで対応した徹底的なローカライゼーションと、新旧モデルを使い分ける巧みなシステム設計がありました。AIを誰もが使える創造と探求のツールにする同社の戦略に注目が集まります。

Wrtnは当初、文章作成支援などの生産性向上ツールを提供していました。しかし、より大きな市場機会を「ライフスタイルAI」に見出します。カカオトークのようなキャラクター文化が根付く韓国市場の特性を捉え、誰もが親しみやすく、創造性を刺激するAIアシスタントへと舵を切ったのです。この戦略転換が、ユーザー層を学生から社会人、家族へと広げる原動力となりました。

成功の鍵は、徹底したローカライゼーションです。初期のAIは翻訳調の不自然な韓国語しか生成できませんでした。しかしGPT-4以降のモデル進化に合わせ、俗語やユーモアを交えた自然な対話を実現。ペルソナに基づいたプロンプト設計や応答の微調整を重ねることで、ユーザーに寄り添う「人間らしい」AIを創り上げました。

技術面では、タスクに応じてモデルを使い分ける「ルーターアーキテクチャ」が競争力の源泉です。簡単な応答は軽量なGPT-4o mini、専門的な相談や家庭教師役は高性能なGPT-4.1といった具合に振り分けることで、コストを最適化しつつ高いパフォーマンスを維持。この柔軟な設計が、迅速なサービス改善を可能にしています。

Wrtnの強みは、OpenAIの最新モデルへの迅速な対応力にも表れています。GPT-5がリリースされた当日には自社サービスへ統合。その結果、わずか1週間で日間アクティブユーザー（DAU）が8%増加しました。指示への追従性や文脈理解が向上し、ユーザー体験の向上と利用時間の増加に直結したのです。

韓国市場で確固たる地位を築いたWrtnは、次なる舞台として東アジア市場を見据えています。同社が韓国で培ったローカライゼーションのノウハウは、日本市場にも応用可能だと分析しています。生産性向上ツールからライフスタイルAIへと進化した同社の挑戦は、国境を越えて多くのユーザーの日常を変える可能性を秘めています。

出典：OpenAI公式

Pixel 10、AIが不在着信を文字起こし・要約

2025年10月02日 Google オンデバイスプライバシー音声

新AI機能「Take a Message」

不在着信・拒否通話のスマートな処理

会話型AIによるリアルタイム文字起こし

通話後のAIによるアクション提案

2つの人気機能を統合

通話スクリーニングのスパム検出活用

通話メモの要約・ネクストステップ生成

高度なオンデバイスAI

プライバシーに配慮した端末内処理

最新のPixel 10シリーズに搭載

詳細を見る

Googleは2025年10月2日、最新スマートフォン「Pixel 10」シリーズ向けに、新たなAI通話支援機能「Take a Message」を発表しました。この機能は、不在着信や応答を拒否した通話の内容をAIがリアルタイムで文字起こしし、通話後には次のアクションを提案するものです。多忙なビジネスパーソンが重要な連絡を逃さず、効率的に対応できるよう支援することを目的としています。

「Take a Message」の最大の特徴は、Googleの高度な会話型AIを駆使している点です。相手が残したボイスメッセージをリアルタイムで画面にテキスト表示するため、音声を聞けない状況でも内容を即座に確認できます。これにより、会議中や移動中でも重要な用件を逃す心配がありません。

さらに、通話が終了するとAIがメッセージ内容を分析し、要約と推奨される次のアクションを自動生成します。「明日15時に折り返し電話」といった具体的なタスクを提示し、迅速な対応を支援。これは既存の人気機能「Call Notes」の進化形と言えます。

この新機能は、既存の「Call Screen」と「Call Notes」の長所を統合したものです。迷惑電話をブロックする強力なスパム検出機能も継承し、安全性と利便性を両立。処理はすべて端末内で完結するオンデバイスAIのため、プライバシーの観点でも安心できます。

「Take a Message」は、まず最新の「Pixel 10」シリーズで利用可能となります。Googleは、AIを用いてスマートフォンの原点である「通話」体験の再発明を目指しています。今回の新機能は、AIが日常業務を効率化する可能性を示す好例と言えるでしょう。

出典：Google公式

OpenAI、音声付き動画AI発表ディープフェイクアプリも

2025年10月01日 OpenAI TikTok ChatGPT Sora iOS 動画生成シミュレーションエンジニア専門家経営者リスクディープフェイクコンテンツ倫理著作権動画音声

Sora 2の進化点

映像と同期する音声の生成

対話や効果音もリアルに再現

物理法則のシミュレーション精度向上

複雑な指示への忠実性が大幅アップ

ディープフェイクアプリ

TikTok風のSNSアプリを同時公開

自身の「カメオ」でディープフェイク作成

公開範囲は4段階で設定可能

誤情報や著作権侵害への懸念が噴出

詳細を見る

OpenAIが10月1日、動画生成AIの次世代モデル「Sora 2」と、TikTok風のSNSアプリ「Sora」を同時公開しました。Sora 2は映像と同期した音声生成が可能となり、専門家からは「動画生成におけるChatGPTの瞬間」との声も上がっています。しかし、自身の分身（カメオ）を手軽に作成できる機能は、ディープフェイクによる誤情報拡散のリスクをはらんでおり、社会的な議論を呼んでいます。

「Sora 2」の最大の進化点は、音声との同期です。これまでのモデルと異なり、人物の対話や背景の環境音、効果音などを映像に合わせて違和感なく生成できます。さらに、物理法則のシミュレーション精度も向上しており、より現実に近い、複雑な動きの再現が可能になりました。

同時に発表されたiOSアプリ「Sora」は、AI生成動画を共有するSNSです。最大の特徴は「カメオ」機能。ユーザーが自身の顔をスキャンして登録すると、テキスト指示だけで本人そっくりの動画を作成できます。友人や一般への公開範囲も設定可能です。

この新技術はエンターテイメントやコミュニケーションの新たな形を提示する一方、深刻なリスクも内包しています。特に、リアルなディープフェイクを誰でも簡単に作れる環境は、悪意ある偽情報の拡散や、いじめ、詐欺などに悪用される危険性が専門家から指摘されています。

「Sora 2」とSoraアプリの登場は、動画生成AIが新たなステージに入ったことを示しています。利便性と創造性を飛躍的に高める一方で、倫理的・社会的な課題への対応が急務です。経営者や開発者は、この技術の可能性とリスクの両面を深く理解し、慎重に活用戦略を検討する必要があるでしょう。

出典：The Verge | TechCrunch | WIRED | Ars Technica | TechCrunch

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

2025年10月01日 Google OpenAI NVIDIA アシスタントエコシステム Llama gpt-oss エンジニア経営者学生推論 GPU クラウドプライバシー音声

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保

サブスクリプション費用が不要

RTX GPUで推論を高速化

高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始

多機能なLM Studioでモデルを試用

AnythingLLMで独自AIを構築

これらツールのパフォーマンス向上を実現

詳細を見る

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル（LLM）をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAはOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIのgpt-oss-20BモデルやGoogleのGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者やエンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

出典：NVIDIA公式

Meta、AIとの会話データを広告に活用へ

AIデータ活用の新方針

AIとの会話内容を広告に利用

12月16日からポリシー改定

ユーザーによる拒否は不可

対象となるデータとサービス

チャットボットとの会話履歴

スマートグラスの音声・画像

Facebook、Instagramで反映

プライバシーへの配慮と例外

EU・英国・韓国は適用除外

センシティブな話題は利用対象外

詳細を見る

米Metaは、傘下のAIアシスタントとの会話データをターゲティング広告に利用する方針を明らかにしました。2025年12月16日からプライバシーポリシーを改定し、FacebookやInstagramのユーザーに対し、よりパーソナライズされた広告やコンテンツを提供します。この動きは、巨大IT企業によるAI製品の収益化競争が新たな段階に入ったことを示唆しています。

具体的には、ユーザーがMeta AIと「ハイキング」について話した場合、ハイキング用品の広告が表示されるようになります。このデータ活用はチャットボットとの会話だけでなく、Ray-Ban Meta スマートグラスでAIが分析した音声や画像データ、AI画像生成ツール「Imagine」での操作なども対象となり、ユーザーの行動が多角的に分析されます。

ユーザーにとって重要なのは、このデータ利用を拒否（オプトアウト）できない点です。Metaの各種サービスで同一アカウントにログインしている場合、例えばWhatsAppでのAIとの会話がInstagramの広告に影響を与える可能性があります。ユーザーに許されているのは、既存の広告設定メニューから表示される広告の好みを調整することのみです。

プライバシーへの配慮として、Metaは宗教的信条や政治的見解、健康状態といったセンシティブな情報に関する会話は広告に利用しないと説明しています。また、欧州連合（EU）、英国、韓国では、現地の厳格なプライバシー規制のため、この新方針は当面適用されません。

Metaの狙いは明確です。中核事業である広告ビジネスを、AIから得られる新たなデータで強化することにあります。月間10億人以上が利用するMeta AIは、ユーザーの興味関心を深く知るための新たな情報の宝庫です。これまで無料で提供してきたAI製品を、広告という収益の柱に直結させる戦略です。

AI製品の収益化は業界全体の課題です。OpenAIがChatGPT内での商品購入機能を発表し、GoogleがAI検索への広告導入を計画するなど、各社が模索を続けています。Metaの今回の動きは、データ活用による広告モデルという、同社の成功方程式をAI時代にも適用する明確な一手と言えるでしょう。

出典：TechCrunch | The Verge

Google、AIでサウジ世界遺産をバーチャル体験

2025年10月01日 Google エンジニア画像音声提携

世界遺産をバーチャル探訪

ストリートビューで路地を散策

10以上の象徴的ランドマーク

15km以上の360度画像で再現

過去と現在の写真を比較鑑賞

AIが歴史を語りかける

AIによる音声ガイドツアー

建築や工芸の歴史を自動解説

貿易や巡礼での役割を紹介

家族で楽しむパズル機能も

詳細を見る

Googleはサウジアラビアのジェッダ歴史地区プログラムと提携し、ユネスコ世界遺産である同地区をバーチャルで体験できるオンライン展示をGoogle Arts & Cultureで公開しました。AIやストリートビューなどの最新技術を駆使し、世界中の人々が歴史的遺産の魅力に触れる機会を提供します。これは文化遺産の保存とデジタル技術の融合における画期的な事例です。

今回の目玉の一つが、ストリートビューによる没入型体験です。10以上の象徴的な場所と15km以上に及ぶ路地が360度画像でデジタル化されました。利用者は、かつて巡礼者が歩んだ道を辿ったり、17世紀のモスクを訪れたりするなど、まるで現地にいるかのような感覚で歴史地区を自由に散策できます。

特に注目すべきは、AIを活用した音声ガイド「トーキングツアー」です。利用者がバーチャル空間を移動すると、AIが建築様式の意義や、ジェッダが世界貿易や巡礼で果たした役割などを自動で解説します。文化体験に対話型の学習要素を取り入れた、新しい試みと言えるでしょう。

さらに、アーカイブ写真と現在の画像を比較できる「ポケットギャラリー」では、都市の変遷と修復の軌跡を視覚的に追体験できます。また、家族で楽しめる「パズルパーティー」機能も用意されており、ゲーミフィケーションを通じて文化遺産への関心を高める工夫が凝らされています。

このプロジェクトは、テクノロジーが文化遺産の保存と公開にどう貢献できるかを示す好例です。地理的な制約を超えて文化へのアクセスを民主化すると同時に、AIによる新たな付加価値創出の可能性も示唆しています。ビジネスリーダーやエンジニアにとっても、技術応用のヒントとなるでしょう。

出典：Google公式

動画生成AI「Sora 2」登場、SNSで誰もが主役に

2025年09月30日 OpenAI TikTok Sora iOS 動画生成リスクディープフェイク倫理未成年ペアレンタルコントロール動画音声米国プロンプト

次世代動画AI Sora 2

物理法則に忠実でリアルな動画を生成

プロンプトから音声・効果音も同期生成

失敗も再現する世界シミュレーターへ進化

TikTok対抗？Soraアプリ

自分や友人が動画に登場するCameo機能

生成動画を共有するアルゴリズムフィード

招待制で米国・カナダから先行リリース

安全と倫理への配慮

同意ベースの肖像利用と削除権の保証

生成物への電子透かしと来歴証明（C2PA）

詳細を見る

OpenAIは2025年9月30日、次世代の動画・音声生成AI「Sora 2」と、連動するソーシャルアプリ「Sora」を同時発表しました。前モデルから物理法則の再現性を大幅に向上させ、ユーザーが自身の姿を動画に登場させられる「Cameo」機能が特徴です。同社はこのモデルを、物理世界を深く理解する「世界シミュレーター」への重要な一歩と位置づけ、新たな創作とコミュニケーションの形を提案します。

「Sora 2」の最大の進化点は、そのリアリズムにあります。バスケットボールのシュートが外れてリバウンドするなど、物理法則に忠実で「失敗」もモデル化。これは単なる成功例をなぞるのではなく、現実世界をより正確にシミュレートしようとする試みです。さらに、対話や効果音も同期生成でき、表現の幅が大きく広がりました。

新登場のiOSアプリ「Sora」の目玉は「Cameo」機能です。ユーザーは自身の姿と声を一度登録するだけで、あらゆる生成シーンに自分自身を登場させられます。さらに、友人に自分のCameoの使用許可を与えることで、複数人が登場する動画の共同制作も可能に。これは、AIを介した全く新しいソーシャル体験と言えるでしょう。

アプリはTikTokに似たフィードを持ちますが、設計思想は大きく異なります。OpenAIは、単なる「消費」ではなく「創造」を最大化することを目指しており、アルゴリズムも他者の作品から着想を得て新たな創作を促すように調整されています。ユーザーがアルゴリズムを自然言語で制御できる点も革新的です。

ディープフェイクなどの悪用リスクに対し、OpenAIは多層的な安全対策を講じています。肖像権の利用は本人の同意が必須で、いつでも許可を取り消せます。生成された全ての動画には、AI生成物であることを示す電子透かし（C2PA）が埋め込まれるほか、未成年者向けのペアレンタルコントロール機能も実装されました。

「Sora」アプリの登場は、TikTokなど既存の短尺動画プラットフォームにとって新たな競合となる可能性があります。当面は無料で提供されますが、将来的には計算リソースの需要に応じた課金も計画されています。APIの提供も予定されており、幅広いビジネスでの活用が期待されます。

Nothing、AIでアプリを自作する新基盤

2025年09月30日エンジニアクリエイターセキュリティ音声プロンプト

AIで誰でもアプリ開発

テキストプロンプトでミニアプリを生成

まずはウィジェット開発からスタート

作成アプリは専用ストアで共有可能

パーソナル化するスマホ

「デバイスが人に合わせる」新体験

AIが利用状況に応じアプリを提案・配置

既存アプリの改変による共同開発

普及への課題と展望

セキュリティとメンテナンスが今後の鍵

将来的なクリエイターエコノミー創出

詳細を見る

スマートフォンメーカーNothingは9月30日、AIを活用してテキストプロンプトでミニアプリを開発できる新ツール「Playground」を発表しました。ユーザーはコード不要でウィジェットを作成し、専用プラットフォーム「Essential Apps」で共有可能。AIでデバイスをユーザーに最適化する、パーソナルな体験の実現を目指します。

現在「Playground」で作成できるのは、フライト追跡や会議概要といったシンプルなウィジェットです。ユーザーはテキストで指示するだけでアプリを生成でき、コードを直接編集して微調整することも可能。作成したアプリは専用ストアで他のユーザーと共有できます。

CEOのカール・ペイ氏は、スマートフォンのソフトウェア革新の停滞を指摘。「AIの進化によりOSはよりパーソナルになる」と述べ、デバイスが持つユーザーの文脈情報を活用し、「デバイスが人に合わせる世界」を目指すというビジョンを語りました。

同社は将来的に、スマホ上で直接、音声などでアプリを作成できるようにし、フルスクリーンアプリにも対応させる計画です。さらに、優れたアプリ開発者が収益を得られるような、新たなクリエイターエコノミーの構築も視野に入れています。

一方で、プロンプトによるアプリ生成にはセキュリティやメンテナンスの懸念も指摘されています。ペイ氏も安全な開発環境の提供が成功の鍵と認識しており、当面は無料でツールを提供し、活発なコミュニティの構築に注力する方針です。

Nothingは市場シェア1%未満ですが、その立場を活かしAI時代の新たな体験を模索しています。大手とは異なるこの挑戦は、今後のパーソナルAIデバイスの方向性を占う上で注目されます。

出典：TechCrunch | The Verge

Copilotに顔、音声対話がより自然に

2025年09月30日マイクロソフト Copilot Grok アシスタントチャットボットデザイン画像音声米国イギリス

新機能「Portraits」

音声対話用のAIアバター

40種類の様式化された顔

自然な表情とリップシンク

一部地域で実験的に提供

背景と技術

ユーザーの要望に応え開発

1枚の画像から映像を生成

先進技術「VASA-1」を活用

安全性に配慮した段階的導入

詳細を見る

Microsoftは、AIアシスタント「Copilot」にアニメーション化された顔を表示する新機能「Portraits」を実験的に導入しました。米国、英国、カナダの一部ユーザーを対象にCopilot Labsで提供されるこの機能は、音声対話中に利用者が選んだアバターが自然な表情で応答します。ユーザーからの「顔があった方が話しやすい」という声に応え、AIとのコミュニケーションをより自然で快適にすることを目指します。

「Portraits」では、40種類の中から好みの様式化されたアバターを選択できます。この機能の核となるのが、Microsoft Researchが開発した先進AI技術「VASA-1」です。この技術により、たった1枚の画像から、複雑な3Dモデリングなしでリアルタイムに自然な表情や頭の動き、口元の同期（リップシンク）を生成することが可能になりました。

この実験の背景には「音声で話すなら、顔があった方が安心する」というユーザーの声があります。テキストとは一線を画し、人間同士の会話に近い体験の提供が狙いです。以前の漫画風キャラクターとは異なり、より人間に近い外見のアバターを採用した点が大きな違いと言えるでしょう。

安全性にも細心の注意を払っています。アバターは意図的に非写実的なデザインとし、利用は18歳以上に限定。時間制限やAIとの対話であることの明示も徹底しています。他社チャットボットで有害なやり取りが問題視されたことを踏まえた、慎重な対応と見られます。

X社の「Grok」をはじめ、競合他社もAIアバターの導入を進めており、AIとの対話インターフェースは新たな局面を迎えています。今回の「Portraits」の試みは、AIを単なるツールから、より親しみやすいパートナーへと進化させる一歩と言えるでしょう。この技術がビジネスシーンでどう活用されるか、今後の展開が注目されます。

出典：The Verge

Hance、KB級AI音声処理でエッジ市場に革新

2025年09月30日エンジニア創業者半導体オンデバイスクラウドエネルギー音声スタートアップ

驚異の超小型・高速AI

モデルサイズは僅か242KB

クラウド不要のオンデバイス処理

遅延10ミリ秒のリアルタイム性

省電力で多様なデバイスに対応

F1からインテルまで

F1公式無線サプライヤーが採用

Intelの最新チップNPUへ最適化

防衛・法執行分野への応用

大手スマホメーカーとも協議中

詳細を見る

ノルウェーのスタートアップHanceが、キロバイト級の超小型AI音声処理ソフトウェアを開発しました。クラウドを介さずデバイス上で動作し、わずか10ミリ秒の低遅延でノイズ除去や音声の明瞭化を実現。すでにF1の公式無線サプライヤーやIntelといった大企業を顧客に持ち、10月27日から開催されるTechCrunch Disrupt 2025でデモを披露します。

この技術の核心は、わずか242KBという驚異的なモデルサイズにあります。これにより、スマートフォンや無線機など、リソースが限られたエッジデバイス上でのリアルタイム処理が可能になりました。従来のクラウドベースのAIと異なり、通信遅延や消費電力を大幅に削減できる点が大きな強みです。

HanceのAIモデルは、共同創業者が運営する高品質なサウンドライブラリ「Soundly」の音源を用いてトレーニングされました。F1マシンの轟音から火山の噴火音まで、多種多様なデータを学習させることで、過酷な環境下でも特定の音声を分離し、ノイズやエコー、反響を除去する高い性能を達成しています。

その実用性はすでに証明されています。F1チームが使用する無線システムを手がけるRiedel Communicationsは、高速走行中のドライバーとエンジニア間の極めて重要な通信をクリアにするため、Hanceの技術を採用。他にも、防衛や法執行機関といった、リアルタイム性と信頼性が求められる分野からの関心も高まっています。

Hanceは事業拡大を加速させています。半導体大手Intelとは、同社の最新チップ「NPU（ニューラル・プロセッシング・ユニット）」向けにモデルを最適化するパートナーシップを締結。他のチップメーカーや、非公開のスマートフォンメーカーとも協議を進めており、競争優位を保つため、研究開発に注力し続ける方針です。

出典：TechCrunch

Amazon、AI『Alexa+』で全デバイス刷新し収益化へ

2025年09月30日 Amazon 検索アシスタント AI活用デザイン半導体ハードウェアコンテンツセキュリティ音声

Alexa+がもたらす進化

より自然で複雑な会話の実現

文脈を理解した高度な推薦

外部サービスとの連携強化

新カスタムチップで高速処理

刷新された主要製品群

高性能化した新Echoシリーズ

会話AI搭載のFire TV

4K対応・顔認識するRing

カラー表示対応Kindle Scribe

詳細を見る

Amazonは9月30日、ニューヨークで開催した秋のハードウェアイベントで、新型の生成AIアシスタント『Alexa+』を搭載したEcho、Fire TV、Ringなどの新製品群を発表しました。長年収益化が課題だったデバイス事業の立て直しに向け、高性能な新デバイスとAIによる付加価値の高い体験を組み合わせ、新たな成長戦略の柱に据える構えです。

Alexa+の最大の特徴は、より自然で複雑な対話能力です。従来の単純なコマンド応答だけでなく、文脈を理解した上での映画推薦や、視聴中のコンテンツに関する詳細な質問への回答、複数の外部サービスを連携させたタスク実行などが可能になります。これにより、ユーザーの日常生活に深く溶け込むアシスタントへと進化を遂げようとしています。

このAIの能力を最大限に引き出すため、デバイスも大幅に刷新されました。新型の『Echo Dot Max』や『Echo Studio』には、AI処理に特化したカスタムチップ『AZ3』『AZ3 Pro』を搭載。これにより、音声認識の精度や応答速度が向上し、よりスムーズな対話体験を実現します。デザインも高級感を増し、従来よりも高価格帯に設定されています。

家庭のエンターテインメントの中核であるFire TVもAlexa+によって大きく変わります。例えば「あの俳優が出ている西部劇を見せて」といった曖昧な指示や、「この映画のあのシーンを探して」といった具体的なシーン検索にも対応。視聴体験を中断することなく、関連情報を音声で取得できるようになります。

スマートホームセキュリティ分野でもAI活用が進みます。新型Ringカメラは、4K解像度に対応するとともに、登録した顔を認識する『Familiar Faces』機能を搭載。家族と不審者を区別して通知することが可能です。さらに、近隣のRingユーザーと連携して迷子ペットを探す『Search Party』など、ユニークなコミュニティ機能も追加されました。

Amazonは、これらの高性能デバイスとAlexa+が提供するプレミアムな体験を新たな収益源とすることを目指しています。Alexa事業の赤字脱却という長年の課題に対し、ハードウェアとソフトウェア、そしてAIを三位一体で進化させる戦略を打ち出しました。ユーザーがこの新しい価値に対価を支払うかどうかが、今後の成功を占う鍵となりそうです。

ChatGPT、子の安全を守る保護者機能と新システム

2025年09月29日 OpenAI ChatGPT 画像生成 GPT-5 エンジニア専門家リスク倫理ペアレンタルコントロール画像音声

保護者による利用制限

ティーンのアカウントと連携

利用時間や機能を個別設定

自傷行為の兆候を親へ通知

保護者向けリソースページ開設

会話の自動安全化

有害な会話を自動検知

高精度モデルへ自動切替

安全な応答を生成する新機能

過保護との批判も、改善期間を設定

詳細を見る

米OpenAIは2025年9月29日、対話型AI「ChatGPT」に、保護者がティーンエイジャーの利用を管理する「ペアレンタルコントロール」と、有害な会話を検知して安全なモデルに切り替える「セーフティルーティングシステム」を導入しました。これは、過去にChatGPTがティーンエイジャーの自殺に関与したとされる訴訟などを受け、AIの安全性と倫理的責任を高めるための重要な一歩です。企業のリーダーや開発者は、AIのリスク管理における先進事例として注目すべきでしょう。

新たに導入されたペアレンタルコントロールでは、保護者が自身のアカウントとティーンのアカウントを連携させ、利用を細かく管理できます。利用できない時間帯の設定や、ボイスモード、画像生成、メモリ機能の無効化が可能です。また、システムが自傷行為の兆候を検知した場合、保護者に通知する機能も実装されました。

もう一つの柱が「セーフティルーティングシステム」です。ユーザーとの会話が感情的にデリケートな内容になった場合、それを自動検知し、より安全な応答ができる最新モデル「GPT-5-thinking」へ会話の途中で切り替えます。単に応答を拒否するのではなく、安全な形で応答を生成する新技術が活用されています。

今回の機能強化の背景には、AIがユーザーに与える精神的な影響への懸念があります。特に、過去にティーンエイジャーがChatGPTとの長期間の対話の末に自ら命を絶ったとして、遺族がOpenAIを提訴する事件が発生しました。AIプラットフォームを運営する企業として、ユーザー保護と社会的責任を果たすための具体的な対策が求められていたのです。

これらの安全機能は専門家から歓迎される一方、一部ユーザーからは「過保護すぎる」といった批判的な声も上がっています。OpenAIもシステムの完璧性を認めておらず、今後120日間の改善期間を設けフィードバックを反映させる方針です。安全性と利便性のバランスをいかに取るかが今後の課題となります。

出典：TechCrunch | The Verge | OpenAI公式

AIが一次面接を自動化、Alexが25億円調達

2025年09月29日業務効率 AI採用 AI面接創業者投資家音声スタートアップ投資資金調達ベンチャーキャピタル

AI採用の現在地

AIによる初期面接の自動化

経歴や給与など定型業務を代替

採用担当者は候補者との関係構築に集中

Alex社の事業概要

シリーズAで1700万ドルを調達

Peak XV Partnersが主導

フォーチュン100企業などが顧客

長期的なビジョン

LinkedInを超える職業プロファイル構築

10分間の会話から深い情報を抽出

詳細を見る

採用活動における初期面接をAIが担う時代が到来しそうです。AI採用スタートアップの「Alex」は、シリーズAラウンドで1700万ドル（約25億円）の資金調達を実施しました。同社が開発する音声AIツールは、応募者とのビデオ面接や電話スクリーニングを自律的に行い、採用担当者の業務を大幅に効率化します。この動きは、採用プロセスのあり方を根本から変える可能性を秘めています。

AlexのAIは、応募者が求人に応募した直後から面接を開始できます。経歴の確認、希望給与、勤務開始可能日といった初期段階のスクリーニング業務を完全に自動化。これにより採用担当者は膨大な応募者対応から解放され、有望な候補者との関係構築など、より戦略的な役割に時間を割けるようになります。

共同創業者のアーロン・ワン氏によると、Alexは1日に数千件の面接を実施。顧客にはフォーチュン100企業や大手金融機関などが含まれます。企業は採用の効率と公平性を高める手段として、AI面接の導入を加速させており、その需要は日増しに高まっています。

今回の資金調達は著名VCのPeak XV Partnersが主導しました。投資家たちは、AIによる面接が多くの企業にとって不可避なトレンドになると確信しています。市場では、HeyMiloやConverzAIといった競合も登場しており、技術開発競争が激化しています。

Alexの最終的な目標は、単なる業務効率化ツールに留まりません。数百万人の求職者と面接を重ねることで、LinkedInのプロフィールよりも遥かにリッチで詳細な職業プロファイルデータを構築することを目指しています。「10分間の会話は、経歴書よりも多くのことを教えてくれる」とワン氏は語ります。

出典：TechCrunch

物議のAI広告、NY地下鉄に1億円超の賭け

2025年09月27日デザイン広告 AI広告ウェアラブルプライバシー音声スタートアップ

1億円超の巨大キャンペーン

NY地下鉄での大規模広告展開

投じた費用は100万ドル超

CEO自ら「大きな賭け」と発言

批判前提の「炎上」戦略

ウェアラブルAIの常時監視に批判

広告に「監視資本主義」等の落書き

AIへの反感を逆手に取った狙い

社会的議論を意図的に誘発

詳細を見る

ウェアラブルAIデバイスを手がけるスタートアップ「Friend」が、ニューヨーク市の地下鉄で100万ドル（約1.5億円）以上を投じる大規模な広告キャンペーンを展開し、物議を醸しています。同社のCEOは、AIへの反感が強いとされるニューヨークで、あえて社会的な議論を巻き起こすことを狙った「大きな賭け」だと語っており、その挑発的な手法が注目を集めています。

このキャンペーンは、地下鉄の車両内に11,000枚以上の広告カード、駅のプラットフォームに1,000枚のポスターを掲示するなど、極めて大規模なものです。CEOのアヴィ・シフマン氏は「これは世界初の主要なAIキャンペーンだ」と述べ、自身の資金の多くを投じたことを明かしており、その本気度がうかがえます。

一方で、Friendが提供するデバイスは以前から批判にさらされていました。常にユーザーの周囲の音声を記録し続けるその仕様から「常時監視」デバイスだと指摘され、米Wired誌は「私はAIの友人が嫌いだ」と題する記事を掲載するなど、プライバシーへの懸念が根強く存在します。

こうした批判は、地下鉄広告への直接的な反発にもつながっています。広告の余白には「監視資本主義」や「本当の友達を作れ」といったメッセージが書き込まれ、その様子がSNSで拡散。市民の複雑な感情を浮き彫りにしています。製品だけでなく、広告手法そのものも議論の的となっているのです。

しかし、シフマンCEOはこうした反発を予期していたと語ります。彼はニューヨーカーが国内で最もAIを嫌っている層だと認識した上で、あえて白い余白の多い広告デザインを採用。「彼らが社会的なコメントを書き込めるようにした」と述べ、意図的に議論を誘発する炎上商法とも取れる戦略を明らかにしました。

出典：TechCrunch

YouTube、AIが曲解説する新機能を音楽配信で試験

2025年09月26日 Google 検索 AI活用クリエイターコンテンツ動画音声音楽米国

AIホストが曲を解説

AIが楽曲の背景や豆知識を提供

ラジオDJ風の面白いコメントも

ミックスやラジオ再生時に機能

リスニング体験の深化が目的

Spotify追撃とAI戦略

競合SpotifyのAI DJに対抗

新設の実験プログラムで提供

米国内の限定ユーザーが対象

YouTube全体のAI活用戦略の一環

詳細を見る

YouTubeは2025年9月26日、音楽配信サービス「YouTube Music」において、AIが楽曲の合間に解説や豆知識を提供する新機能「AIホスト」の試験導入を発表しました。この機能は、ユーザーの音楽体験をより豊かにすることを目的としています。まずは米国内の限定されたユーザーを対象に、新設された実験的プログラム「YouTube Labs」を通じて提供されます。

AIホストは、ユーザーがミックスやラジオステーションを再生している際に、曲と曲の間に自動で介入します。まるでラジオのDJのように、再生中の楽曲に関するストーリーやファンの間で知られる豆知識、そして軽快なコメントを提供し、リスニング体験に深みを与えることを目指します。これにより、単に音楽を聴くだけでなく、その背景まで楽しめるようになります。

この動きは、競合であるSpotifyが2023年に導入した「AI DJ」機能を彷彿とさせます。SpotifyのAI DJは、ユーザーの好みに合わせて選曲し、音声で解説を加える人気の機能です。YouTubeのAIホストは現時点でプレイリスト作成機能は含みませんが、音楽ストリーミング市場での差別化とユーザーエンゲージメント向上を狙う、重要な一手と言えるでしょう。

今回の試験は、AI関連のプロトタイプを試すための新プログラム「YouTube Labs」を通じて行われます。これは親会社Googleの「Google Labs」と同様の取り組みで、YouTube Premium会員でなくても参加可能ですが、アクセスは米国内の少数ユーザーに限定されます。ユーザーからのフィードバックを収集し、今後の本格導入を検討する方針です。

YouTubeはクリエイター向けAIツールやAIによる動画検索機能の強化など、プラットフォーム全体でAI活用を積極的に進めています。今回のAIホストも、コンテンツとユーザーの新たな接点を創出する戦略の一環です。一方で、AIが生成するコンテンツの品質や、ユーザー体験を損なわないかといった課題もあり、今後の展開が注目されます。

出典：The Verge | TechCrunch | Ars Technica

Hugging Face、Apple向けAIライブラリv1.0を公開

2025年09月26日 Apple エコシステムエンジニア推論機械学習オンデバイス音声エージェントトランスフォーマー

Apple開発者向けAIツール

ローカルLLMのアプリ統合を簡素化

Tokenizer, Hubなど必須機能を提供

Core MLやMLXを補完する設計

v1.0の進化点

パッケージの安定性向上とAPI整理

モジュール分割による依存性削減

最新Core ML APIとSwift 6に対応

今後のロードマップ

MLXフレームワークとの連携深化

エージェント型ユースケースの探求

詳細を見る

AIプラットフォームのHugging Faceが、Apple製品開発者向けライブラリ「swift-transformers」のバージョン1.0を公開しました。本ライブラリは、iPhoneなどのデバイス上でローカルにAIモデルを動作させる際の技術的ハードルを下げ、アプリへの組み込みを容易にすることを目的としています。

swift-transformersは、AppleのCore MLやMLXといった機械学習フレームワークを補完する重要な機能群を提供します。具体的には、複雑なテキスト入力を処理する「Tokenizers」、Hugging Face Hubからモデルを管理する「Hub」、Core ML形式モデルの推論を簡素化する「Models」と「Generation」が中核をなします。

すでに、Apple自身のサンプル集「mlx-swift-examples」や、高性能な音声認識フレームワーク「WhisperKit」など、多くのプロジェクトで採用されています。これにより、Apple エコシステムにおけるオンデバイスAI開発の基盤技術としての地位を確立しつつあると言えるでしょう。

今回のv1.0リリースは、ライブラリの安定性を公式に保証する初のメジャーアップデートです。主要な変更点には、必要な機能だけを導入できるモジュール分割や、最新のCore ML APIへの対応、そしてSwift 6への完全準拠が含まれます。開発者はより安心して長期的なプロジェクトに採用できます。

Hugging Faceは今後の展望として、Appleの機械学習フレームワーク「MLX」との連携強化を掲げています。さらに、自律的にタスクを処理する「エージェント」のような、より高度なユースケースの実現も視野に入れており、オンデバイスAIの新たな可能性を切り拓くことが期待されます。

出典：Hugging Face

Spotify、AI生成音楽にラベル表示導入へ不正利用対策も強化

2025年09月25日 AI活用ディープフェイクコンテンツ音声音楽

詳細を見る

音楽配信大手Spotifyは9月25日、AI生成音楽に関する新方針を発表しました。AI利用の透明性を高め、不正なスパムやなりすましからアーティストとリスナーを保護することが目的です。創造的なAI活用は支援しつつ、プラットフォームの健全性を維持する構えです。新方針の柱は、AI使用を明記するラベル表示の導入です。音楽業界の標準化団体DDEXと協力し、楽曲制作のどの過程でAIが使われたかを詳細に示すメタデータ標準を開発。すでに主要レーベル15社が採用を表明しており、業界標準となる可能性があります。 AIによるスパム行為への対策も強化します。今秋から、再生数稼ぎを目的とした短尺曲の大量アップロードなどを検出する新しいスパムフィルターを順次展開。同社は過去1年間で既に7,500万ものスパム楽曲を削除したと公表しており、対策を一層強化します。アーティストの声を無断で複製する「AI音声クローン」やディープフェイクといった、なりすまし行為も明確に禁止します。許可なく他者の声を使用した楽曲はプラットフォームから削除する方針を改めて示し、アーティストの権利保護を徹底する姿勢を強調しました。 Spotifyは、アーティストがAIを創造的なツールとして責任を持って利用することは罰しないと明言しています。「我々はシステムを悪用する者を阻止する」と同社幹部は述べ、AIの利点を享受するためにも、不正行為の防止が不可欠であるとの考えを示しました。この動きの背景には、誰でも簡単に音楽を生成できるAIツールの急速な普及があります。一部のサービスでは、毎日数万曲のAI生成楽曲がアップロードされるなど、コンテンツの急増が課題となっています。Spotifyは業界に先駆けて対応することで、市場の混乱を防ぐ狙いです。

出典：The Verge | TechCrunch

Googleフォト、対話型AI編集で誰でもプロ級の写真加工

2025年09月25日 Google ChatGPT Android 専門家リスクコンテンツ認証画像音声

詳細を見る

Googleは、写真編集アプリ「Googleフォト」に新たな対話型AI編集機能「Ask Photos」を導入しました。Pixel 10スマートフォンで先行搭載され、対応するAndroid端末にも展開されます。この機能を使えば、メニューやスライダーを操作することなく、音声やテキストで指示するだけで直感的な写真編集が可能です。使い方は極めてシンプルです。「背景のゴミを消して」「もっと明るくして」といった自然な言葉で指示するだけで、AIが意図を汲み取って編集を実行します。これまで専門的な編集ソフトで数分かかっていた作業が、わずか数秒で完了します。写真編集のハードルを劇的に下げる機能と言えるでしょう。 Adobe Photoshopのような高機能ソフトは、高価な上に専門知識を必要としました。しかし、この新機能は誰でも手軽に利用できます。カーネギーメロン大学の専門家は、ChatGPTのような一部のAIが目新しさで終わるのに対し、この機能は多くの消費者にとって実用的な価値を持つと指摘しています。スマートフォンの小さな画面でのスライダー操作は、精密な調整が難しいという課題がありました。対話型インターフェースは、この煩わしさからユーザーを解放します。「もっと良くして」といった曖昧な指示でも、AIが写真の構図や明るさを適切に調整してくれるため、編集作業がより身近になります。現状では、被写体をフレーム内で移動させたり、特定の部分だけを細かく調整したりすることはできません。例えば、顔のハイライトだけを抑えようとすると、画像全体のハイライトが変更されてしまうことがあります。より精緻な編集機能の実現が今後の課題です。生成AIによる簡単な画像加工は、偽情報拡散のリスクもはらみます。Googleはこの問題に対処するため、編集された画像にC2PA（コンテンツ来歴と真正性のための連合）の認証情報や、電子透かし技術「SynthID」を付与。これにより、画像がAIによって編集されたことを追跡可能にしています。専門家は、この機能がコンピューターとの関わり方を変える大きな一歩だと見ています。これまでのコンピューターは人間が操作する「道具」でした。しかし、対話を通じて人間の意図を理解し実行するAIは、コンピューターを「パートナー」へと昇華させる可能性を秘めています。

出典：WIRED

通話録音アプリNeon、データ売却で報酬。プライバシー懸念も浮上

2025年09月24日 Apple App Store 専門家創業者リスクデータ漏洩プライバシー音声

詳細を見る

ソーシャルアプリ「Neon Mobile」が、ユーザーの通話を録音しAI企業に販売、対価として報酬を支払うモデルで注目を集めています。2025年9月、米Apple App Storeでランキング2位に急上昇。手軽に収入を得られる一方、専門家はプライバシー侵害やデータ悪用のリスクに警鐘を鳴らしており、その手法が問われています。 Neonは、ユーザーが通話音声をAI学習データとして提供し報酬を得る仕組みです。例えばNeonユーザー間の通話では1分30セントが支払われます。AI開発に不可欠な音声データを、金銭的インセンティブを通じて効率的に集めることが目的です。このアプリは短期間でランキングを急上昇させました。この事実は、一部の消費者が少額の報酬と引き換えに自らのプライバシーを提供することに抵抗がなくなっている可能性を示唆します。AI技術の浸透が、データプライバシーに対する価値観を変えつつあるのかもしれません。専門家はNeonの手法に深刻な懸念を示します。片側の音声のみを録音する手法は、多くの州で違法となる「盗聴法」を回避する狙いがあると指摘。利用規約ではNeon社に広範なデータ利用権が与えられ、想定外の利用リスクがあります。 Neonは個人情報を削除すると主張しますが、声紋データ自体がリスクとなり得ます。収集された音声は、本人の声を模倣した「なりすまし詐欺」に悪用される恐れがあります。誰がデータを購入し、最終的にどう利用するのかが不透明な点も大きな問題です。 Neonは創業者名を「Alex」としか公開せず、データ販売先のAI企業も明らかにしていません。こうした運営の不透明性は、ユーザーがデータの使途を把握できないことを意味します。万が一データが漏洩した場合の影響は計り知れず、企業の透明性が改めて問われています。

出典：TechCrunch

Google、次期チップ「Tensor G5」でPixel 10のAI機能を大幅強化

2025年09月24日 Google 生産性エンジニア経営者半導体オンデバイスクラウドプライバシー音声エージェント

詳細を見る

Googleは9月24日、公式ポッドキャストで、次期スマートフォン「Pixel 10」シリーズに搭載する最新チップ「Tensor G5」の詳細を明らかにしました。同社のシリコンチーム担当者が解説し、Tensor G5がGoogle史上最大のアップグレードであり、デバイス上のAI機能を飛躍的に進化させることを強調しました。これにより、スマートフォンの利便性が新たな段階に入ることが期待されます。 Tensor G5は、AI処理能力の向上に特化した設計が特徴です。Googleのシリコンチーム担当者によれば、このチップは技術的なブレークスルーであり、これまでのチップから大幅な性能向上を実現したとのことです。スマートフォンの「頭脳」が進化することで、複雑なAIタスクをデバイス上で高速に処理できるようになります。新機能で特に注目されるのが、自分の声でリアルタイム翻訳を行う「Live Translate」です。従来の翻訳機能と異なり、まるで自分がその言語を話しているかのような自然なコミュニケーションを可能にします。Tensor G5の高度な音声処理能力が可能にするこの機能は、海外とのビジネスなどで大きな変革をもたらす可能性があります。さらに、ユーザーの意図を先読みしてアシストするエージェント機能「Magic Cue」や、Pixel 10 Proに搭載される「100x ProRes Zoom」もTensor G5の性能によって実現されます。これらの機能は、単なる操作の補助にとどまらず、ユーザーの生産性を高めるパートナーとしてのスマートフォンの役割を強化することを示唆しています。今回の発表は、AI処理がクラウドから個人のデバイス（エッジ）へ移行する流れを象徴します。デバイス上でAIが完結すれば、プライバシーと応答速度の向上が両立します。経営者やエンジニアにとって、この「エッジAI」の進化がもたらす新たなビジネスチャンスや生産性向上の可能性は、注視すべき重要なトレンドと言えるでしょう。

出典：Google公式

Google、AI音声・カメラ検索「Search Live」を米国で正式公開

2025年09月24日 Google Android iOS 検索アシスタント音声米国

詳細を見る

Googleは2025年9月24日、米国で新機能「Search Live」を正式に公開しました。AIと音声で対話しながらスマートフォンのカメラ映像を共有し、リアルタイムな情報検索を可能にします。これまで試験提供でしたが、今後はGoogleアプリ（Android/iOS）から誰でも利用でき、より直感的な検索体験を提供します。「Search Live」の最大の特徴は、音声と視覚情報を組み合わせた対話型検索です。ユーザーはGoogleアプリやレンズから「Live」アイコンをタップして起動。目の前の物について声で質問すると、AIがカメラ映像を認識し即座に応答します。関連ウェブリンクも提示し、深い情報収集を支援します。具体的な活用例として、旅行先で見かけた建造物についてカメラを向けて質問したり、新しい趣味である抹茶の道具の使い方を尋ねたりできます。ハンズフリーで対話できるため、作業をしながらでも手軽に情報を得られます。文字入力が不要になることで、検索のハードルが大きく下がると期待されます。ビジネスや教育の現場でも応用が期待されます。例えば、複雑なAV機器の配線で困った際、カメラで写しながら質問すればAIが視覚的に判断して指示します。子供の科学実験を一緒に見ながら、化学反応の原理をAIに解説させるなど、学習支援ツールとしても活用できるでしょう。「Search Live」の一般公開は、検索がテキスト入力から、より五感に近い体験へと進化していることを示しています。リアルタイムの視覚・音声情報を活用するAIアシスタントは、様々なサービスのUIに影響を与える可能性があります。企業は自社サービスとの連携を模索する必要があるでしょう。

出典：Google公式 | The Verge

Gemini搭載、Google Playストアがゲーム支援AIで進化

2025年09月23日 Google Gemini Android 検索エンジニアコンテンツ音声

詳細を見る

Googleが、AIモデル「Gemini」を統合したGoogle Playストアの大規模アップデートを発表しました。これにより、アプリの発見からゲームプレイまで、ユーザー体験が大きく変わろうとしています。特に注目されるのが、ゲーム内でのリアルタイムAI支援機能です。最大の目玉である新機能「Play Games Sidekick」は、ゲームのプレイ中に利用できるオーバーレイ機能です。ユーザーが行き詰まった際、Geminiに音声で質問すると、ゲーム画面をAIが認識し、攻略のヒントやアドバイスをリアルタイムで返します。ゲームを中断する必要がなくなります。ユーザーインターフェースも大幅に刷新されます。新たに導入される「You」タブは、ユーザーの興味関心に基づき、おすすめのコンテンツやサブスクリプション情報、リワードなどを一元的に表示します。これにより、ストアは個々に最適化されたコンテンツハブへと進化します。アプリの検索体験もAIで変わります。「Guided Search」と呼ばれる新機能では、具体的なアプリ名ではなく「家を探す」といった目的を入力するだけで、AIが関連アプリをカテゴリー分けして提示。ユーザーはより直感的に目的のアプリを見つけられるようになります。このほか、個人の実績やステータスを追跡できる新しいゲーマープロフィールの導入や、友人たちと競い合う「Play Games Leagues」も始まります。また、PCでAndroidゲームが遊べる「Google Play Games on PC」もベータ版を終了し、正式版として提供が開始されました。今回のアップデートは、AIを活用してユーザーエンゲージメントを高めるGoogleの明確な戦略を示しています。開発者や企業にとっては、AIとの連携を前提とした新しいアプリ体験の創出や、パーソナライズされたマーケティング機会の活用が今後の鍵となりそうです。

出典：The Verge | TechCrunch | Google公式

Googleフォト、対話型AI編集を全Androidユーザーに拡大

2025年09月23日 Google Gemini Android 画像生成クリエイティブコンテンツ画像音声米国

詳細を見る

Googleは2025年9月23日、米国でGoogleフォトの対話型AI編集機能を対象の全Androidユーザーに展開開始しました。音声やテキストで指示するだけで、同社のAI「Gemini」が写真を自動で編集します。これにより、専門知識がなくても高度な写真編集が可能となり、クリエイティブな表現の幅が広がります。この新機能は、アプリ内の「Help me edit」ボタンから利用できます。ユーザーは編集ツールやスライダーを直接操作する必要がありません。代わりに「もっと明るくして」「背景の人を消して」といった自然な言葉で指示を出すだけで、AIが意図を汲み取り、写真を編集します。この機能は、Googleの高性能AIモデル「Gemini」の能力を活用しています。当初は最新スマートフォン「Pixel 10」の利用者向けに限定公開されていましたが、今回、対象機種が大幅に拡大されました。これにより、より多くのユーザーが最先端のAI技術を手軽に体験できます。簡単な明るさ調整や不要物の除去はもちろん、古い写真の修復といった高度な編集も可能です。さらに「ペットのアルパカをハワイのワイキキに移動させて」のような、現実にはない創造的な画像生成にも対応し、写真編集の楽しみを広げます。一度の指示で終わりではありません。AIによる編集結果に対して「もう少しこうして」といった追加の指示を出すことで、対話しながら微調整を重ね、理想の仕上がりに近づけることができます。「make it better（もっと良くして）」といった曖昧な指示から始めることも可能です。現在の提供対象は、米国在住で18歳以上のユーザーに限定され、言語は英語のみです。また、GoogleはAIで生成・編集された画像であることを示す技術標準「C2PA」にも対応しており、コンテンツの信頼性確保にも配慮しています。

出典：Google公式 | TechCrunch

元Google社員、音声AIリサーチアプリ「Huxe」公開、460万ドル調達

2025年09月23日 Google Meta Android iOS NotebookLM チャットボットスケジュール調整エンジニア専門家投資家音声スタートアップ投資資金調達

詳細を見る

元GoogleのAIノートアプリ「NotebookLM」の開発者3名が、音声ファーストのAIリサーチアプリ「Huxe」を9月23日に公開しました。このアプリは、AIが生成するポッドキャスト形式でニュースやリサーチ情報を要約し、ユーザーの情報収集を支援します。同社はConvictionなどから460万ドル（約6.9億円）を調達。アプリはiOSとAndroidで利用可能です。 Huxeの最大の特徴は、複数のAIホストが特定のトピックについて議論する「ポッドキャスト」を自動生成する点です。ユーザーはAIホストと対話し、質問したり別の角度からの説明を求めたりできます。これは、元々開発に携わったNotebookLMの音声機能をさらに発展させたもので、情報収集のあり方を変える可能性を秘めています。このアプリは、ユーザーのメールやカレンダーと連携し、スケジュールに基づいたパーソナライズされた日次ブリーフィングを提供します。また、関心のあるトピックを「ライブステーション」として登録すると、関連ニュースを継続的に追跡し、最新情報を音声で更新してくれます。これにより、受動的かつ効率的な情報収集が実現します。開発チームは2024年12月にGoogleを退社後、当初はB2B向けのチャットボットを開発していました。しかし、音声生成機能へのユーザーの強い関心を捉え、消費者向け市場へ転換。スクリーンタイムが長く、情報過多に悩む知識労働者や専門家を主なターゲットとしてHuxeを開発しました。 Huxeはシードラウンドで460万ドルを調達しました。FigmaのCEOやGoogle Researchのジェフ・ディーン氏など著名投資家も名を連ねています。音声AI市場は成長が著しく、ElevenLabsやOboeといったスタートアップも参入。GoogleやMetaも類似機能を開発しており、競争が激化しています。

出典：TechCrunch

Google、AI「Gemini」をテレビに搭載、会話で操作可能に

2025年09月22日 Google Gemini 検索アシスタント動画音声

詳細を見る

Googleは2025年9月22日、AIアシスタント「Gemini」をGoogle TVに搭載すると発表しました。これにより、テレビ画面を通じて自然言語での自由な対話が可能になります。複雑な条件での番組検索や情報収集に対応し、家庭内でのテレビの役割を大きく変える可能性があります。まずはTCLの最新モデルから提供が開始されます。 Geminiの搭載で、番組探しはより直感的になります。例えば「私はドラマが好きだが妻はコメディが好き」といった複雑な要望にも応え、最適な作品を提案します。また、シリーズのあらすじを確認したり、タイトルを忘れた作品を説明から検索したりすることも可能で、視聴体験の質を高めるでしょう。テレビの用途はエンターテインメントに留まりません。Geminiは子供の宿題を手伝ったり、新しいスキルを学ぶためのガイド役も務めます。質問に対しては、関連するYouTube動画を提示することで、より深い理解を促します。家庭学習や自己啓発のツールとしての活用が期待されます。 Geminiの導入後も、従来のGoogle アシスタントで利用できた基本的な音声コマンドは引き続き使用可能です。照明の調整や簡単な質問など、既存の機能はそのままに、Geminiによる高度な対話機能が追加される形となります。ユーザーは利便性を損なうことなく、新しいAI体験を享受できます。 GeminiはまずTCLの最新テレビ「QM9K」シリーズで利用可能になります。年内にはGoogle TV StreamerやHisense、TCLの2025年モデルなどへも展開される予定です。Googleは将来的には3億台以上のデバイスへの搭載を目指しており、今後も機能は順次追加される見通しです。

出典：Google公式 | TechCrunch | The Verge

AGIの知能は測れるか？新指標「ARC」がAIの課題を映し出す

2025年09月22日 Google OpenAI DeepMind 専門家推論 AGI 画像音声ベンチマーク

詳細を見る

OpenAIやDeepMindなどの主要AIラボは、数年内にAGIが実現するとの見方を示しています。AGIの登場は経済や科学に計り知れない影響を及ぼす可能性があります。そのため、技術の進捗を客観的に追跡し、法規制やビジネスモデルを準備することが不可欠です。AGIの能力を測るベンチマークは、そのための羅針盤となります。 AIの知能測定はなぜ難しいのでしょうか。それは、AIの強みや弱みが人間とは根本的に異なるためです。人間のIQテストは、記憶力や論理的思考など複数の能力を総合的に測りますが、AIにはそのまま適用できません。学習データにない未知の状況に対応する「流動性知能」の評価が、特に大きな課題となっています。かつてAIの知能を測るとされたチェスやチューリングテストは、もはや有効ではありません。1997年にチェス王者を破ったIBMのDeep Blueは、汎用的な知能を持ちませんでした。近年の大規模言語モデル（LLM）は人間のように対話できますが、簡単な論理問題で誤りを犯すこともあり、その能力は限定的です。こうした中、Googleのフランソワ・ショレ氏が2019年に開発した「ARCベンチマーク」が注目されています。これは、いくつかの図形パズルの例題からルールを抽出し、新しい問題に応用する能力を測るテストです。大量の知識ではなく、未知の課題を解決する思考力（流動性知能）に焦点を当てている点が特徴です。 ARCベンチマークでは、人間が容易に解ける問題にAIは今なお苦戦しています。2025年には、より複雑な新バージョン「ARC-AGI-2」が導入されました。人間の平均正答率が60%であるのに対し、最高のAIモデルでも約16%にとどまっています。AIが人間レベルの思考力を獲得するには、まだ大きな隔たりがあるようです。専門家はARCを、AIのアルゴリズム機能を解明する優れた理論的ベンチマークだと評価しています。しかし、その形式は限定的であり、社会的推論など現実世界の複雑なタスクを評価できないという限界も指摘されています。AGIの進捗を知る有力な指標の一つですが、それだけでAGIの全てを測れるわけではありません。 ARC以外にも、多様なAGI ベンチマークの開発が進んでいます。仮想世界でのタスク実行能力を測るGoogle DeepMindの「Dreamer」や、テキスト、画像、音声など5種類の情報を扱う「General-Bench」などがその例です。究極的には、現実世界で物理的なタスクをこなす能力が試金石になるとの見方もあります。結局のところ、「AGIとは何か」という定義自体が専門家の間でも定まっていません。「既に実現した」という意見から「決して実現しない」という意見まで様々です。そのため、「AGI」という言葉は、それが何を指し、どのベンチマークで評価されているのかを明確にしない限り、実用的な意味を持ちにくいのが現状と言えるでしょう。

出典：spectrum.ieee.org | spectrum.ieee.org

YouTube、AI新機能でクリエイターの制作・収益化を大幅強化

2025年09月20日 Google Veo Veo 3 アシスタント広告クリエイターコンテンツ動画音声米国ブランド提携

詳細を見る

YouTubeが年次イベント「Made on YouTube」で、クリエイターのコンテンツ制作と収益化を支援する多数の新機能を発表しました。生成AIを活用した動画制作ツールや新たな収益化プログラムの導入により、プラットフォーム全体の活性化を目指します。特に、動画管理ツール「YouTube Studio」やショート動画制作機能が大幅に強化されます。動画管理ツール「Studio」には、AIがアカウントに関する質問に答えるアシスタント「Ask Studio」が導入されます。また、本人の顔が無断で使用された動画を検知・管理する機能もベータ版として公開。クリエイターは自身のブランド保護とチャンネル管理をより効率的に行えるようになります。これにより、どのような効果が期待できるのでしょうか。ショート動画向けには、Googleのテキストtoビデオ生成AIモデル「Veo 3 Fast」のカスタム版が導入されます。簡単なテキスト指示で動画内にオブジェクトを追加したり、スタイルを変更したりすることが可能に。AIの活用でコンテンツ制作のハードルを下げ、クリエイターの表現の幅を広げます。ライブ配信機能「YouTube Live」もアップデートされます。AIが配信中の盛り上がった場面を自動で選び、共有しやすいショート動画としてハイライトを作成する機能が追加されます。また、配信を中断しない新しい広告フォーマットも導入され、視聴体験と収益性の両立を図ります。収益化の選択肢も広がります。クリエイターが動画内で紹介した商品をタグ付けできるショッピングプログラムを強化。AIが商品に言及した最適なタイミングを特定し、自動で商品タグを表示する機能も追加され、ブランドとの提携や物販による収益機会を拡大します。ポッドキャスト制作者向けにもAIツールが提供されます。米国では、AIが動画からクリップ作成を提案する機能が利用可能になります。来年には、音声ポッドキャストを動画形式に変換する機能も展開予定で、コンテンツの多角的な活用を支援します。

出典：TechCrunch

YouTube、生成AIで動画制作を革新創造性の拡張目指す

2025年09月19日 Google Veo Veo 3 AI活用 AI導入リスクコンテンツ動画音声音楽

詳細を見る

YouTubeは、動画制作に生成AIツールを本格導入する新機能を発表しました。テキストから動画を生成するGoogleの技術などを活用し、誰でも簡単に動画を作れる環境を目指します。ニール・モハンCEOはこれを「創造の民主化」を加速させる一手と位置づけ、プラットフォームの次なる飛躍に繋げたい考えです。新機能を使えば「月面で踊る100人のダンサー」といったテキストから即座に動画を生成できます。また、ポッドキャストの音声から関連映像を自動で作り出すことも可能です。これにより、誰もが簡単に質の高い動画コンテンツを制作できるようになります。モハンCEOはAI導入を、創業以来の「テクノロジーで人々の声を届ける」という理念の延長線上にあると説明します。彼はAIをデジタル音楽のシンセサイザーに例え、ツールは人間の独創性や創造性を引き出す新たな機会になるとの考えを示しました。一方で、AIによるコンテンツ制作の容易さは、プラットフォームの強みである「真正性」を損なうリスクも指摘されます。人間の創造性がどこまで介在するのかという根本的な問いと共に、AI生成物と人間による制作物の境界が曖昧になることへの懸念が浮上しています。 YouTubeは対策として、AI生成動画にはラベルを表示する方針です。しかし、視聴者がAIコンテンツを除外するフィルター機能は提供されません。モハンCEOは今後AIツールの影響はさらに拡大すると予測しており、YouTubeが常に最先端であり続けることが重要だと強調します。

出典：WIRED

OpenAI、AIハードウェア開発か元Appleデザイナーと協業

2025年09月19日 OpenAI Apple デザインネットワークデザイナーハードウェアスマートグラス音声サム・アルトマン提携

詳細を見る

OpenAIが、元Appleのチーフデザインオフィサーであるジョニー・アイブ氏と提携し、複数のAIハードウェア開発を検討していると報じられました。関係者の話として、すでにAppleの製品組立業者であるLuxshareと契約を結んだとされています。開発が噂されるデバイスは多岐にわたります。最も有力なのは「ディスプレイのないスマートスピーカー」に似た製品です。この他にも、スマートグラスやデジタル音声レコーダー、身につけられるピン型デバイスなどが候補に挙がっている模様です。この動きは、OpenAIのサム・アルトマンCEOが以前から語っていた「デバイスファミリー」構想を具体化するものと言えるでしょう。最初の製品は2026年後半から2027年初頭の発売が目標とされており、ソフトウェア中心だった同社の大きな戦略転換となりそうです。生産体制の構築も進んでいます。iPhoneやAirPodsの生産を担うLuxshareやGoertekなど、Appleのサプライチェーンネットワークを活用する動きが報じられました。これにより、高品質な製品の安定供給を目指す狙いがあると考えられます。ハードウェア開発は人材獲得競争にも発展しています。元Appleの製品デザイン責任者がOpenAIのハードウェア責任者に就任するなど、Appleからの人材流出が顕著です。これは、巨大テック企業間の新たな競争の火種となる可能性を秘めています。

出典：The Verge

AppleのオンデバイスAI、iOS 26アプリで実用化進む

2025年09月19日 OpenAI Apple iOS 生産性エコシステムクリエイティブエンジニア推論オンデバイスプライバシー音声プロンプト

詳細を見る

サードパーティの開発者らが、Appleの最新OS「iOS 26」の公開に伴い、同社のオンデバイスAIモデルを自社アプリに組み込み始めています。この動きは、Appleが開発者向け会議（WWDC）で発表したAIフレームワーク「Foundation Models」を活用したものです。開発者は推論コストを気にすることなく、支出分析やタスク管理の自動化といった機能を実装できます。これにより、ユーザー体験の向上が期待されます。 Appleの「Foundation Models」は、デバイス上でAI処理を完結させるのが特徴です。これにより開発者は推論コストを負担せず、ユーザーのプライバシーも保護できます。OpenAIなどの大規模モデルとは異なり、既存アプリの利便性を高める「生活の質（QoL）」向上に主眼が置かれています。生産性向上アプリでの活用が目立ちます。タスク管理アプリ「Tasks」は、入力内容からタグを自動提案したり、音声内容を個別のタスクに分解したりします。日記アプリ「Day One」では、エントリーの要約やタイトルをAIが提案し、より深い記述を促すプロンプトを生成します。専門分野や学習アプリでも導入が進んでいます。家計簿アプリ「MoneyCoach」は、支出が平均より多いかを分析して提示します。単語学習アプリ「LookUp」では、単語を使った例文をAIが自動生成したり、その語源を地図上に表示したりするユニークな機能が追加されました。活用範囲は多岐にわたります。子供向けアプリ「Lil Artist」では、キャラクターとテーマを選ぶとAIが物語を創作。レシピアプリ「Crouton」はテキストから調理手順を自動分割します。電子署名アプリ「SignEasy」は契約書の要点を抽出し、利用者に要約を提示します。これらの事例は、AppleのオンデバイスAIが大規模生成AIとは異なる形でユーザー体験を向上させる可能性を示します。プライバシーとコストの課題をクリアしたことで、今後多くの開発者が追随するでしょう。身近なアプリがより賢くなることで、iPhoneエコシステム全体の魅力が一層高まりそうです。

出典：TechCrunch

MS、ゲーム用AI「Copilot」をWindows 11に全世界展開

2025年09月18日マイクロソフト Apple Copilot Android Windows アシスタント AI活用音声中国

詳細を見る

米マイクロソフトは2025年9月18日（現地時間）、ゲーム用AIアシスタント「Gaming Copilot」をWindows 11搭載PC向けに全世界で展開開始しました。中国本土を除く全地域で、今後数週間かけて段階的に提供されます。ゲーム体験を向上させるこの新機能は、ゲームバーに統合され、プレイヤーを多角的に支援します。ゲーム業界におけるAI活用は新たな局面を迎えるのでしょうか。 Gaming Copilotは、Windows 11のゲームバー内でウィジェットとして利用できます。最大の特長は、ゲームを中断することなく利用できる点です。音声モードを使えば、ゲームプレイを続けながらAIアシスタントと対話でき、プレイヤーは集中力を維持したまま、必要な情報を即座に入手可能になります。さらに、ゲームのスクリーンショットをAIが解析し、質問に答える機能も備えています。例えば、攻略に詰まったボスキャラクターについて、画面を見せるだけでアドバイスを求めることができます。その他、おすすめのゲームを提案したり、直近の実績リストを表示したりする機能も搭載しています。マイクロソフトはこの機能をPC以外にも展開します。2025年10月には、AppleおよびAndroid向けのXboxモバイルアプリにもGaming Copilotを搭載予定です。これにより、スマートフォンをセカンドスクリーンとして活用し、ゲームプレイを妨げることなくAIの支援を受けられるようになります。将来的には、開発中のXbox携帯型デバイス向けに最適化を進めるほか、Xboxコンソールへの導入も「近い将来」に予定しています。同社はGaming Copilotを、単なる情報提供ツールから、プレイヤーのスキル向上を助ける「AIゲーミングコーチ」へと進化させる長期的なビジョンを掲げています。

出典：The Verge

Zoom、フォトリアルAIアバターを導入リアルタイム翻訳も実現

2025年09月17日 Google マイクロソフト生産性アシスタントスケジュール調整デジタルツインエンジニアセキュリティ倫理認証画像音声日本エージェント

新時代の会議体験

カメラオフでもプロ仕様の分身（アバター）

写真からAIが本人そっくりに生成

リアルタイムでの動作追跡と同期

不正利用を防ぐライブカメラ認証

デジタルツイン実現への一歩

生産性向上の新機軸

リアルタイムでの音声翻訳機能

9言語対応でグローバル会議を円滑化

AIアシスタントが他社プラットフォームでもメモ作成

詳細を見る

米Zoomは9月17日、ビデオ会議サービス「Zoom」に革新的なAI機能を導入すると発表しました。特に注目されるのは、フォトリアリスティックなAIアバターとリアルタイム音声翻訳機能です。これらの機能は12月以降、順次提供が開始されます。経営層やエンジニアは、国際的なコミュニケーションの円滑化と、リモートワークにおける生産性向上を直ちに享受できる見込みです。

AIアバター機能は、ユーザーがカメラに映る準備ができていない場合でも、プロフェッショナルな見た目をAIが生成し、会議に出席できるようにします。ユーザーは自身の写真をもとに分身を作成し、AIが実際の動きや発言をリアルタイムで追跡します。これにより、場所を選ばず、常に高いクオリティで会議に参加することが可能となります。

なりすましや不正利用の懸念に対し、Zoomは万全の対策を講じます。アップロードされた画像が本人であることを確認するため、ライブカメラ認証を実施する方針です。また、会議参加者には、その参加者がAIアバターを利用している旨の通知が明示されます。セキュリティと倫理的な配慮を両立させる仕組みです。

もう一つの重要なアップデートが、リアルタイム音声翻訳です。AIが話者の発言を即座に翻訳し、参加者は自らが選択した言語で音声を聞くことができます。現時点で日本語を含む9言語に対応しており、グローバルなチーム間での言語の壁を事実上撤廃し、シームレスなコミュニケーションを実現します。

さらに、AIアシスタント機能も大きく進化します。会議のスケジュール調整などに加え、アシスタントをMicrosoft TeamsやGoogle Meetといった他社プラットフォームでの対面会議に「同行」させ、自動でメモを取らせることが可能となります。これは、Zoomが単なる会議ツールを超え、統合的な生産性エージェントへと進化していることを示します。

出典：The Verge

Stability AI、AI安全対策を強化。年次透明性レポート公開

2025年09月17日ファインチューニングリスクコンテンツポリシーコンテンツフィルタ画像動画音声

安全設計と実績値

学習データからの有害コンテンツ排除

モデル・APIの多層的な悪用防止

全生成AIモデル（100%）のリスク評価

学習データからのCSAM検出は0%

NCMECへの不正利用報告は計13件

透明性とガバナンス

API生成コンテンツへのC2PAメタデータ付与

リリース前におけるレッドチーミングの継続実施

業界団体や法執行機関との連携強化

詳細を見る

Stability AIは2025年9月、2024年4月から2025年4月までの期間を対象とした年次「インテグリティ透明性レポート」を公開しました。同社は、責任ある生成AI開発の取り組みとして、児童性的虐待素材（CSAM）の防止に重点を置き、具体的な安全対策と実績値を開示しています。透明性を通じて信頼を構築し、ガバナンス強化を目指す方針です。

同社の安全対策は、「データ」「モデル」「プラットフォーム」の三層で構成されています。特に学習データについては、社内開発およびオープンソースのNSFW分類器に加え、業界団体のCSAMハッシュリストを適用し、有害コンテンツを徹底的に排除しています。報告期間中、学習データからのCSAM検出は0%でした。

モデルのリリース前には、厳格なリスク評価手法である「レッドチーミング」を実施しています。Stable Diffusion 3を含む全生成AIモデル（100%）がCSAM/CSEM生成能力に関してストレス評価を受けました。有害な生成能力が特定された場合、リリース前に概念を除去するセーフティ・ファインチューニングが施されます。

プラットフォームAPIレベルでは、入力と出力の両方に対し、リアルタイムでのコンテンツフィルターを適用しています。既知のCSAMを検出・ブロック・報告するためのハッシュシステムも統合されています。これにより、AUP（許容利用ポリシー）違反の入出力を即座に阻止する多層的な防御を実現しています。

AIコンテンツの真正性を担保するため、Stability AIはAPIを通じて生成された画像や動画、音声にC2PAメタデータを付与しています。このメタデータにはモデル名やバージョン番号が含まれ、AI生成物であることを特定可能にし、コンテンツの透明性向上に貢献します。

悪用防止のため、自動検出ツールと人間による審査を組み合わせたコンテンツモデレーション体制を敷いています。実際にCSAMに関連する試行が検出された場合、NCMEC（行方不明・搾取児童センター）へ迅速に報告を実施。報告期間中のNCMECへの報告総数は13件でした。

出典：Stability AI

StreamlabsがAI配信助手発表、RTXで制作作業を劇的に簡素化

2025年09月17日 NVIDIA 生産性アシスタント AI活用専門家 GPU 音声コーディングエージェント

主要な役割と機能

共同ホストとして会話の停滞を防ぐ

3Dアバターが質問に即時応答しゲームに集中

プロデューサー機能によるシーン自動切替

技術的なトラブルシューティングを代行

RTXによる高性能化

NVIDIA RTX GPUでローカル処理し低遅延を実現

ユーザー定義のトリガーで制作を自動化

リアルタイムビジョンモデルでゲーム状況把握

詳細を見る

Streamlabsは先日、NVIDIA RTX技術によって加速される「Intelligent Streaming Agent」を発表しました。このAIアシスタントは、ライブストリーマーが抱える「エンターテイナー、プロデューサー、ゲーマー」という多重業務の負担を軽減し、視聴者とのコミュニケーションというコアな活動に集中することを目的としています。この技術は、エージェントAIがリアルタイムで高度なタスクを代行する、生産性向上ソリューションの新たな事例として注目されます。

エージェントは主に3つの役割を果たします。第一に共同ホスト（Co-host）として、チャットが静かな際に3Dアバターが会話を繋いだり、視聴者の質問に答えたりします。これにより配信者はゲーム画面から離れる必要がありません。第二にプロデューサーとして、シーンの自動切替や音声・映像キューの実行を担い、複雑な制作作業をカスタマイズ可能なトリガーに基づいて自動化します。

さらに、このAIエージェントは技術アシスタントとしての役割も兼ね備え、ユーザーが直面するトラブルシューティングを支援します。特筆すべきは、NVIDIA GeForce RTX GPUによって加速されるリアルタイムビジョンモデルを活用している点です。これにより、ゲーム内での勝敗や体力低下などのイベントを瞬時に検出し、すべてをローカルで処理することで、極めて低遅延な応答性とシームレスな操作性を実現しています。

Streamlabsは長年、NVIDIAとともにエンコーディング技術やBroadcastアプリなどを通じて配信の敷居を下げてきました。今回のインテリジェント・エージェントは、その進化の集大成です。特に新人ストリーマーにとって、複雑な制作知識や高価な機材なしにプロフェッショナルな品質の配信が可能となります。このAI活用事例は、あらゆる分野で専門家レベルの業務代行が可能になるエージェントAI時代の到来を強く示唆しています。

出典：NVIDIA公式

Meta、画面付きAIグラスとEMG制御バンドを発表

2025年09月17日 Google Meta Instagram エコシステムデザインエンジニアハードウェアスマートグラスウェアラブル音声

AIグラスの新旗艦モデル

フラッグシップ機「Meta Ray-Ban Display」投入

片目レンズにアプリ表示用ディスプレイを搭載

通知や地図をスマホなしで確認可能

革新的な操作インターフェース

微細な手の動きを検知する「Meta Neural Band」

筋電図（EMG）技術を用いた非接触制御

リストバンドでアプリ操作やナビゲーション

エコシステムとVR/AR強化

開発者向けウェアラブルアクセスツールキット公開

アスリート向け「Oakley Meta Vanguard」発表

詳細を見る

Metaは年次イベント「Meta Connect 2025」で、AIとウェアラブル戦略の核となる新製品を発表しました。目玉はディスプレイを搭載したスマートグラス「Meta Ray-Ban Display」と、微細なジェスチャーで操作可能な「Meta Neural Band」です。これはスマートフォンへの依存を減らし、AIを活用したハンズフリー体験を浸透させるための重要な一手となります。

新製品のMeta Ray-Ban Display（799ドル）は、片方のレンズに埋め込まれたポップアップ式の画面を持ちます。これにより、ユーザーは携帯電話を取り出すことなく、メッセージや地図、InstagramのReelsなどを視界に表示できます。これはかつてGoogle Glassが目指した体験に最も近い製品だと評価されています。

このスマートグラスの操作を支えるのが、Meta Neural Bandです。EMG（筋電図）技術により、脳から手に送られる微細な信号を検知し、小さな指の動きでアプリのナビゲーションを可能にします。Metaは、このEMGインターフェースがデバイス制御の新しい標準になると賭けています。

また、スマートグラスのラインアップを大幅に拡充しました。アスリート向けに耐水性とラップアラウンドデザインを採用した「Oakley Meta Vanguard」（499ドル）や、バッテリー寿命を従来の2倍（8時間）に改善した「Ray-Ban Meta Gen 2」も発表しています。

ハードウェアだけでなく、エコシステム強化も進められています。開発者向けには「Wearable Device Access Toolkit」が公開され、サードパーティのアプリがスマートグラスの視覚・音声機能を利用可能になります。これにより、AIグラスのユースケース拡大が期待されます。

創業以来のテーマであるメタバース関連の発表もありました。Questヘッドセット向けには、現実空間をVR上にフォトリアルに再現する技術「Hyperscape」のベータ版が提供されます。また、VRプラットフォーム「Horizon Worlds」のグラフィックエンジンも刷新されています。

出典：The Verge | TechCrunch | The Verge

ボイスAIが市場調査を刷新、Keplarが340万ドル調達し高速分析を実現

2025年09月17日 Google PowerPoint アシスタント CRM エンジニア創業者音声スタートアップ資金調達ベンチャーキャピタル

資金調達と事業基盤

シードラウンドで340万ドルを調達

Kleiner Perkinsなど著名VCが出資

Google出身のAIエンジニアが設立

ボイスAIが変える調査手法

従来比で大幅な低コスト化を実現

調査設定を数分で完了する高速性

ボイスAIによる顧客との詳細な会話

高度な会話能力

LLM進化で自然な応答を実現

参加者がAIを名前で呼ぶほどのリアルさ

詳細を見る

ボイスAIを活用した市場調査スタートアップKeplarは、シードラウンドで340万ドルの資金調達を発表しました。Kleiner Perkinsが主導したこの調達は、高コストで数週間かかる従来の市場調査を、AIの力で高速かつ低コストに代替する同社の潜在能力を評価したものです。AIは顧客インサイト収集のあり方を根本的に変革し始めています。

Keplarのプラットフォームは、企業が数分で調査を設定し、質問をインタビューガイドに変換します。AIボイスアシスタントが直接顧客に接触し、製品の好みや不満点について掘り下げた質問（プローブ質問）を行います。この迅速な自動化により、従来の調査プロセスと比較し、費用と時間の両面で大きな優位性を実現しています。

このサービスが成立するのは、大規模言語モデル（LLM）の進化によるものです。KeplarのボイスAIは、非常に自然な会話を実現しており、参加者の中にはAIを「Ellie」や「Ryan」といった名前で呼ぶ人もいるほどです。この人間と区別がつかないほどの対話能力が、質の高い生の顧客の声を引き出す鍵となっています。

クライアント企業がCRMへのアクセスを許可すれば、AIリサーチャーは既存顧客へリーチし、パーソナライズされたインタビューを実施できます。AIによる会話結果は、従来の人間による調査と同様に、レポートやPowerPoint形式で分析結果として提供されます。これにより、企業の意思決定者はすぐにインサイトを活用可能です。

Keplarの創業者は元Googleの音声AIエンジニアであり、確固たる技術基盤を持っています。ただし、顧客リサーチ市場の変革を目指す企業は他にも存在し、OutsetやListen Labsといった大規模な資金調達を実施した競合もいます。ボイスAIによる市場調査は、今後競争が激化するフロンティアとなるでしょう。

出典：TechCrunch

Amazon、出品者向けAIエージェント拡充在庫管理から広告生成まで自動化

Agentic AI「Seller Assistant」進化

アカウント状態と在庫レベルを常時監視

売れ行き不振商品の価格変更や削除を推奨

需要パターンに基づき出荷を自動提案

新製品安全規制などコンプライアンスを自動チェック

AI広告チャットボットの導入

テキストプロンプトで静止画・動画広告を生成

ブランドガイドラインを反映したクリエイティブの自動作成

タグライン、スクリプト、ボイスオーバーの生成

Amazon外のメディア（Prime Video等）への広告展開

詳細を見る

Amazonは2025年9月、プラットフォーム上のサードパーティ出品者向けに、自律的に業務を代行するエージェントAI機能の導入・拡張を発表しました。既存の「Seller Assistant」を強化し、さらにAI広告作成チャットボットを提供します。これにより、在庫管理、コンプライアンス遵守、広告クリエイティブ制作などの広範な業務が自動化され、出品者の生産性と収益性の最大化を図ります。

拡張されたSeller Assistantは「常時稼働」のAIエージェントとして機能します。これは単なるツールではなく、セラーに代わってプロアクティブに働きかけることを目的としています。ルーティン業務から複雑なビジネス戦略までを自動で処理し、出品者は商品開発や事業成長といったコア業務に集中できる体制を構築します。

特に注目されるのが在庫管理の最適化機能です。エージェントは在庫レベルを継続的に監視し、売れ行きの遅い商品を自動的に特定します。これにより、長期保管料が発生する前に価格の引き下げや商品の削除を推奨。また、需要パターンを分析し、最適な出荷計画を立てるサポートも行います。

複雑化する規制への対応も自動化します。Seller Assistantは、出品リストが最新の製品安全性ポリシーに違反していないかをスキャンするほか、各国で販売する際のコンプライアンス要件への適合を自動で確保します。これはグローバル展開を志向するセラーにとって大きなリスク低減となります。

同時に導入されたAI広告チャットボットは、クリエイティブ制作の時間とコストを大幅に削減します。出品者が求める広告の概要をテキストで入力するだけで、AIがブランドガイドラインや商品詳細に基づき、静止画や動画のコンセプトを自動で生成します。

このチャットボットは、タグラインや画像だけでなく、スクリプト作成、音楽追加、ボイスオーバー、絵コンテのレイアウトまでを完結できます。生成された広告は、Amazonのマーケットプレイス内だけでなく、Prime VideoやKindle、TwitchといったAmazonの広範なプロパティに展開され、露出を最大化します。

これらの新機能は、Amazon独自の基盤モデルであるNova AI、およびAnthropicのClaudeを活用しています。今回の発表は、AIが商取引を主体的に推進する「エージェント主導型コマース」の流れを加速させています。Googleなども同様にエージェントによる決済プロトコルを公開しており、AIによる業務代行競争が本格化しています。

出典：The Verge | TechCrunch

YouTube、クリエイター向けAIを全面強化 Veo 3 Fastやリップシンク導入

2025年09月16日 Google Veo Veo 3 生産性チャットボット動画生成クリエイターリスクコンテンツ著作権動画音声音楽ブランドプロンプト

<span class='highlight'>Veo</span>連携と動画編集

テキストから動画生成「Veo 3 Fast」統合

会話から楽曲自動生成「Speech to Song」

生素材から初稿を自動編集「Edit with AI」

チャンネル成長支援

AIチャットボット「Ask Studio」でインサイト分析

タイトル/サムネイルの最大3種A/Bテスト

無断利用された顔を検出・削除（YPP向け）

ポッドキャスト/多言語対応

多言語吹き替えにリップシンクを導入

音声コンテンツからプロモーション動画生成

詳細を見る

YouTubeは「Made on YouTube 2025」にて、クリエイターの生産性向上と収益拡大を目的とした大規模なAIツール群を発表しました。Shorts制作効率化のほか、チャンネル運営分析、著作権保護、そして多言語展開を支援する機能が焦点です。これにより、クリエイターはコンテンツ制作における高い生産性とグローバルな収益機会を得られると期待されます。

特に注目すべきは、ショート動画（Shorts）向けにGoogleの動画生成モデル「Veo 3 Fast」が統合された点です。これは低遅延の480p動画をテキストプロンプトから生成でき、静止画に動画の動きを適用する機能も搭載されます。クリエイターはアイデアを即座に映像化でき、トレンドへの対応速度が飛躍的に向上します。

編集作業の負担も大幅に軽減されます。「Edit with AI」は、カメラロールの生素材から最適な場面を抽出し、音楽やトランジション、ボイスオーバーを自動で付与し、初稿を生成します。また、会話の内容をキャッチーな楽曲に変換する「Speech to Song」も導入され、より手軽なリミックス文化を推進します。

チャンネル運営の効率化のため、YouTube StudioにはAIチャットボット「Ask Studio」が導入されます。これはチャンネルのパフォーマンス分析や視聴者の反応に関する実用的なインサイトを提供し、収益化戦略を支援します。タイトルやサムネイルのA/Bテストも最大3パターンまで比較可能となり、最適化を促進します。

グローバル展開とブランド保護も重要なテーマです。自動吹き替え機能はさらに進化し、翻訳された音声に合わせたリップシンク技術（口の動きの同期）をテストすることで、翻訳動画のリアリティを大幅に高めます。視聴者が違和感なく視聴できる環境を提供します。

さらに、YouTubeパートナープログラム（YPP）参加者向けには、自身の顔の無断利用を検知し、削除を管理できる「肖像検出」機能がオープンベータ展開されます。これはクリエイターが自身のイメージや評判を守り、デジタル著作権を管理する上で重要なリスク管理ツールとなります。

ポッドキャスト領域への注力も見逃せません。AIは既存のビデオポッドキャストからプロモーション用のShortsやクリップを自動で提案・生成します。また、音声のみのポッドキャストに対しても、カスタマイズ可能な映像を自動で生成可能となり、オーディオクリエイターの新規開拓と視聴時間増に貢献します。

出典：Google公式 | TechCrunch | TechCrunch | TechCrunch

NVIDIAが英国の「AIメーカー」戦略を加速物理AI・創薬・ロボティクス分野で広範に連携

英国の国家AI戦略を支援

英国のAI機会行動計画を後押し

世界クラスの計算基盤への投資

AI採用を全経済分野で推進

AIユーザーでなくAIメーカーを目指す

重点分野での協業事例

スパコン「Isambard-AI」で基盤構築

ロボティクス：自律走行、製造、ヒューマノイド開発

ライフサイエンス：AI創薬、デジタルツインを活用

エージェントAI：金融、音声、カスタマーサポートを自動化

詳細を見る

NVIDIAは英国のAIエコシステムとの広範なパートナーシップを強調し、英国の国家戦略である「AIメーカー」としての地位確立を強力に支援しています。ジェンスン・ファンCEOの英国訪問に際し、物理AI、ロボティクス、ライフサイエンス、エージェントAIなど最先端領域における具体的な協業事例が公表されました。

英国のAI基盤強化の核となるのは、NVIDIA Grace Hopper Superchipsを搭載した国内最速のAIスーパーコンピューター「Isambard-AI」です。これにより、公的サービスの改善を目指す独自の多言語LLM（UK-LLM）や、早期診断・個別化医療に向けた医療用基盤モデル（Nightingale AI）など、重要な国家プロジェクトが推進されています。

特に物理AIとロボティクス分野での応用が加速しています。Extend Roboticsは製造業向けに安全なロボット遠隔操作システムを開発。Humanoid社は倉庫や小売店向けの汎用ヒューマノイドロボットを開発しており、いずれもNVIDIAのJetsonやIsaacプラットフォームが活用されています。

ライフサイエンス分野では、AIによる創薬の加速が目覚ましいです。Isomorphic LabsはAI創薬エンジンを構築し、英国CEiRSIはNVIDIA技術を用いて複雑な患者のデジタルツインを作成。これにより、大規模かつ多様な患者集団に対する新しい治療法のテストを可能にしています。

エージェントAIおよび生成AIのイノベーションも活発です。Aveniは金融サービスに特化したLLMを開発し、コンプライアンスを確保しながら顧客対応やリスク助言を行うエージェントフレームワークを構築しました。ElevenLabsやPolyAIは、超リアルな音声生成や、大規模な顧客サポート自動化を実現しています。

また、AIスキルギャップ解消への取り組みも重要です。技術ソリューションプロバイダーのSCANは、NVIDIA Deep Learning Instituteと連携し、コミュニティ主導型のトレーニングプログラムを展開しています。これにより、英国全土でAIや専門的なワークロードに対応できる人材育成が進められています。

出典：NVIDIA公式

Google、生成AI「LearnLM」で学習効果11%向上へ

2025年09月16日 Google Gemini 生産性検索 AI活用コンテンツ音声インド基盤モデル

学習効果を高めるAI基盤

独自AIモデル「LearnLM」を活用

教育学に基づきコンテンツを再構築

最新のGemini 2.5 Proに統合

静的な教科書を対話型ガイドに変換

個々人に合わせた学習体験

学習者のレベルや興味に応じて内容を適応

マインドマップや音声レッスンを生成

リアルタイムフィードバック付きの対話型クイズ

長期記憶テストで11%のスコア向上

詳細を見る

Googleは、教育分野における生成AI活用実験「Learn Your Way」を発表しました。独自AIモデル「LearnLM」を基盤とし、静的な教科書を学習者の興味やレベルに合わせた対話型コンテンツに変革します。学習科学に基づいて設計されたこのツールは、従来のデジタル教材利用者と比較して長期記憶テストで11%のスコア向上を実現しました。

Learn Your Wayの中核となるのは、教育学（ペダゴジー）が注入された特化型モデルLearnLMです。これは現在、Googleの高性能基盤モデルGemini 2.5 Proに直接統合されています。単なる情報検索ではなく、学習プロセス全体にAIを深く関与させ、指導のエッセンスを組み込むことが特徴です。

具体的な機能として、AIは元の教材に基づき、マインドマップ、オーディオレッスン、そしてリアルタイムフィードバック付きのインタラクティブなクイズなどを生成します。これにより、学習者が自身のペースやスタイルで能動的に学びを進められる、自己主導的な学習環境を提供します。

この実証実験で示された11パーセントポイントという記憶定着率の向上は、企業研修や高度な専門知識の習得において、極めて重要な意味を持ちます。生産性向上を目指す経営層やリーダーにとって、特化型AIが教育・トレーニングにもたらす革新性を示す明確な事例として注目されます。

出典：Google公式

音声（マルチモーダル）に関するニュース一覧

音声（マルチモーダル）に関するニュース一覧

革新的な音声分離モデル

事業拡大と有力企業との連携

AI『Gemini』の現地化

当局連携で高める安全性

利便性を高める新機能

AIによる金融調査の新時代

予測と決算分析を強化

新感覚のソーシャル音声ガイド

利用シーンと今後の展開

映画との連携機能

利用方法と提供範囲

驚異的な成長スピード

生産性を高める新機能群

市民参加でAI生態系保全

「耳」でAIを訓練し貢献

運転中の会話型操作

より直感的なルート案内

周辺情報のAI検索

思考を捉える新体験

多機能なスマートデバイス

製品概要と価格

年10億ドルの大型契約

圧倒的な性能と狙い

今後の展望

独自モデル「MAI-Image-1」

OpenAI依存脱却への布石か

AI活用の新ナビ機能

Polestar 4から提供

AIが可能にする3つの変革

普及を加速する3つの提言

動画編集を革新するAI

静止画と音声も新次元へ

未来のクリエイティブ機能

提携の目的

開発されるツールの特徴

声で探す新しい買い物体験

技術と今後の展開

AI音声モデルの現状

AI音声の未来予測

ElevenLabsの長期戦略

声の感情をテキストで修正

音声トラックをAIで分離

AIによる効果音の自動生成

豪華登壇者が語る未来

AIとスタートアップの今

Geminiへの進化点

2つの対話モード

高度機能は有料プラン

Fireflyが大幅進化

AIアシスタント登場

音声・動画生成も強化

AI兵器開発の最前線

大手テックの参入と課題

加速するアクセント矯正

社会的背景と是非

個人の選択とアイデンティティ

カシオ製AIペットの正体

AIがもたらす愛着と課題

本物のペットとの決定的差

新ツールの概要

開発と競合状況

AI開発の本番運用を支援

統合プラットフォームの3本柱

豊富なモデルと柔軟な展開

新AIアバター「Mico」

パラソーシャル関係の懸念

動画とプレゼン作成を自動化

日常業務と家庭での活用

OpenAIの方針大転換

新たなAIとの関係性

浮上するリスクと課題

より人間らしく対話

チームと個人の生産性向上

AI教育推進へ資金提供

自社ツールの機能強化

学習障害への理解促進

新OSとAIの融合

広がるXRの活用法