Pixel(プロダクト)に関するニュース一覧

Claude Code利用量の物理ダッシュボードが開発者に人気

デバイスの仕組み

ESP32搭載の小型AMOLEDディスプレイ使用
Bluetooth経由でノートPCと接続
OAuthトークンでAPI呼び出しし利用量取得
利用率に応じたピクセルアートアニメーション表示

開発者の反響

公開4日でGitHubスター800超・フォーク50件
組込み未経験でもClaudeの支援で数日で完成
OSSとして自由にカスタマイズ可能

背景のトレンド

AIトークン消費量を生産性指標とする風潮

アイスランドのソフトウェア開発者Hermann Haraldsson氏が、Claude Codeの利用統計をリアルタイムで表示する小型ハードウェアダッシュボード「Clawdmeter」をオープンソースで公開しました。Waveshare製のESP32-S3搭載AMOLEDディスプレイとリチウムイオンバッテリーで構成され、Bluetooth経由でノートPCと接続してトークン使用量を物理デバイスで可視化します。

デバイスの画面には、利用率に応じて動きが変わるピクセルアートのClawdアニメーションが表示されます。中央ボタンを押すとセッション単位・週単位の利用データがチャートで確認でき、サイドボタンからはClaude Code音声モードやモード切替のショートカットも送信できます。利用量データはClaude CodeのOAuthトークンを使ってAPIを呼び出し、レスポンスヘッダーから取得しています。

Haraldsson氏は組込み開発の経験がなかったものの、Claude自身の支援を受けてわずか数日でプロジェクトを完成させたと語っています。「プログラミングへのアクセスが民主化された」と同氏は述べ、開発時間の大半はフォントや配色、アニメーションといったデザイン面の調整に費やしたといいます。

5月10日の公開からわずか4日でGitHubスターが800を超え、50人がフォークするなど開発者コミュニティで大きな反響を呼んでいます。Redditでは「Anthropicがこれを無料で送ってくれるべき」「コンテキストウィンドウ用のハードウェアたまごっち」といったコメントが寄せられました。AIトークン消費量を最大化する「トークンマクシング」トレンドの象徴として注目されています。

このプロジェクトは、Claude Code開発者コミュニティにどれほど浸透しているかを物語る一例です。ターミナルのコマンドや外部ツールで利用状況を確認できるにもかかわらず、あえて物理デバイスで可視化するという遊び心が支持を集めています。OSSとして公開されているため、誰でもフォークして独自のアニメーションや画面、機能を追加できます。

OSSローグライク10選、コミュニティ駆動の進化史

40年続く開発文化

NetHack 5.0が38年目に公開
Angband、再ライセンスでOSS化
Pixel Dungeon完成宣言後も派生が増殖
フォークと改変が進化の原動力

コミュニティの力学

7DRL挑戦やRoguelike Celebrationが創作を刺激
公開サーバでのリアルタイム観戦文化
PRで栄養学や物理法則を議論する深さ
ターミナル技術の革新とも共鳴

GitHub Blogが、コミュニティの手で数十年にわたり開発・維持されてきたオープンソースのローグライクゲーム10作品を特集しました。1987年リリースのNetHackから2010年代のPixel Dungeonまで、いずれも開発終了を宣言されながらもフォークや派生版によって生き続けています。

記事が注目するのは、これらのゲームを支えるコミュニティ駆動型の開発モデルです。NetHackはインターネット普及前からネットワーク越しの協働で開発され、Angbandは2009年に数十年分の貢献者の同意を得てOSSライセンスへ移行しました。Pixel Dungeonは作者が「完成」と宣言した翌年から数十のフォークが生まれ、その一つShattered Pixel Dungeonは数百万ダウンロードを記録しています。

技術的には、Cataclysm: Dark Days Aheadのように栄養学や物理法則をプルリクエストで議論するほどシミュレーションの精度を追求するプロジェクトや、HyperRogueのように双曲幾何学を応用した研究的ゲームも紹介されています。Angbandではブランチモデルの導入が「生産性の爆発」を生み、ほぼ毎晩新バージョンがリリースされる体制を実現しました。

記事は、ローグライクの長寿の要因をタイトなフィードバックループ、可視化されたシステム、離散しないコミュニティの3点に集約しています。7DRL(7日間ローグライク開発チャレンジ)やRoguelike Celebrationといったイベントが創作を刺激し、GhosttyやRatatuiなどターミナル技術の革新とも共鳴する文化圏を形成していると指摘しています。

Perceptron Mk1、動画解析AIを大手比80〜90%安で提供開始

圧倒的な低コスト戦略

入力100万トークンあたり0.15ドル
GPT-5Gemini 3.1 Proの80〜90%安
フロンティアモデル級の性能を低価格帯で実現

動画理解の技術的優位性

最大2FPS・32Kトークンの連続動画処理
物理法則を理解した時空間推論能力
ピクセル精度の物体追跡とカウント

産業応用と事業展開

スポーツ・製造・ロボティクス分野で実導入開始
オープンウェイトのIsaacシリーズも並行展開

スタートアップPerceptronは2026年5月12日、独自開発の動画解析推論モデルMk1」を発表しました。入力100万トークンあたり0.15ドル、出力100万トークンあたり1.50ドルという価格設定で、AnthropicClaude Sonnet 4.5、OpenAIGPT-5GoogleGemini 3.1 Proと比較して80〜90%低いコストで利用できます。

Mk1の最大の特徴は、動画を静止画の連続ではなく時間的連続性を保って処理する点にあります。最大2FPSで32Kトークンのコンテキストウィンドウを活用し、遮蔽物越しでも物体の同一性を維持できます。空間推論ベンチマークのEmbSpatialBenchでは85.1を記録し、GoogleのRobotics-ER 1.5(78.4)を上回りました。

同モデルは物理推論を強みとしており、物体の動きや相互作用を時空間的に理解できます。バスケットボールのシュートがブザーの前か後かを判定するといった、因果関係の把握が求められるタスクにも対応します。アナログ計器の読み取りや、密集シーンでの数百単位のカウントも高精度で実行可能です。

創業者Armen Aghajanyan CEOとAkshat Shrivastavaは、いずれもMeta FAIRの出身です。2024年11月にワシントン州ベルビューでPerceptronを設立し、Metaで手掛けたマルチモーダル基盤モデルの研究を物理AIの領域へと発展させました。16カ月の開発期間を経て今回のリリースに至っています。

すでにスポーツ中継のハイライト自動切り出しや、製造ラインでの品質検査、ロボティクスの訓練データ生成といった実運用が始まっています。エッジ向けにはオープンウェイトのIsaacシリーズ(最新は0.2-2bプレビュー)も提供しており、200ミリ秒未満の応答速度でリアルタイム処理に対応します。APIとオープンウェイトの二本立てで、企業用途からコミュニティまで幅広い展開を狙います。

GoogleがAndroidにGemini Intelligence導入、AIエージェント機能を大幅強化

Gemini Intelligenceの全容

アプリ横断の自動タスク実行
Chrome自動ブラウズがAndroidに対応
個人情報活用のAIフォーム自動入力
音声をテキスト化するRambler搭載

ウィジェットと新ハードウェア

自然言語でカスタムウィジェット生成
Googlebooks新ラップトップ発表
Wear OSにもウィジェット展開

Android 17とAuto刷新

3D絵文字全4000種を刷新
Android Autoで動画再生に初対応

Googleは2026年5月12日、開発者会議I/Oに先立つ「Android Show: I/O Edition」で、Gemini Intelligenceと総称するAI新機能群を発表しました。Geminiの最先端モデルをAndroidデバイスに統合し、ユーザーの意図を理解して能動的にタスクを実行する「エージェント型AI」の本格展開を打ち出しています。対応デバイスはまずSamsung Galaxy S26とGoogle Pixel 10から今夏提供開始され、年内にウォッチ、車載、グラス、ノートPCへ順次拡大する計画です。

目玉機能の一つがアプリ横断のタスク自動化です。従来はフードデリバリーや配車アプリに限定されていたGeminiのアプリ操作が、より広範なアプリに拡大されます。たとえばメモアプリの買い物リストを読み取り、ショッピングアプリで自動的にカートに追加するといったマルチステップ処理が可能になります。画面上のコンテンツや写真もコンテキストとして活用でき、最終確認はユーザーが行う設計です。

Chrome向けには自動ブラウズ機能がAndroidに展開されます。6月下旬からGemini in Chromeとしてウェブページの要約・質問応答に加え、予約などのタスクをAIが代行します。さらにGboardにはRamblerと呼ばれる新機能が搭載され、「えーと」「あのー」といったフィラーワードを除去し、話した内容を簡潔な文章に自動整形します。多言語の混在にも対応し、複数言語を切り替えながら話しても適切にテキスト化できます。

ウィジェット分野では「Create My Widget」が注目を集めています。自然言語でウィジェットの機能を記述すると、Geminiがカスタムウィジェットを生成する仕組みで、Googleはこれを「生成的UI」への第一歩と位置づけています。たとえば「毎週高タンパク質のレシピを3つ提案して」と入力すれば、ホーム画面に専用ダッシュボードが作られます。Wear OSにも対応し、スマートウォッチでも利用可能です。

ハードウェア面では、Gemini Intelligenceをネイティブ搭載する新カテゴリのノートPC「Googlebooks」を発表しました。Acer、ASUS、Dell、HP、Lenovoと提携し、今秋発売予定です。AI内蔵カーソル「Magic Pointer」やAndroidアプリとの連携機能を備えます。Android Autoも全面刷新され、Material 3 Expressiveデザインの採用、あらゆる画面形状への対応、そしてBMWやメルセデスなど11メーカーの車両で動画再生に初めて対応します。

Android 17自体の新機能としては、全4000種の絵文字の3Dリデザイン、気が散るアプリの起動前に10秒の冷却期間を設ける「Pause Point」、盗難時のPIN試行回数制限強化、セッション単位の位置情報共有などが含まれます。またQuick ShareのAirDrop互換がXiaomiやHonorなど幅広いメーカーに拡大され、iPhoneからAndroidへの移行ツールも年内に提供されます。

Google、自然言語でウィジェット自作できる新機能を発表

機能の概要

自然言語指示でAndroidウィジェット生成
Geminiがコード自動生成・配置
Gmail・カレンダー等と連携可能
今夏Galaxy・Pixel先行提供

狙いと位置づけ

生成AIによるパーソナライズ強化
開発者にもカスタマイズを開放
Gemini Intelligenceの一環として発表

Googleは2026年5月12日、Androidの新機能「Create My Widget」を発表しました。ユーザーが自然言語で欲しいウィジェットを説明するだけで、Geminiがカスタムウィジェットを自動生成します。今夏、最新のSamsung GalaxyおよびGoogle Pixelから提供を開始する予定です。

たとえば「毎週3つの高タンパク質レシピを提案して」と指示すれば、専用のダッシュボードウィジェットがホーム画面に作られます。サイクリストなら風速と降雨だけを表示する天気ウィジェットも作成可能です。用途に応じた自由なカスタマイズが非開発者でも実現できる点が特徴です。

さらにGeminiはウェブ情報の取得に加え、GmailGoogleカレンダーなどのアプリと連携し、複数の情報を一つのダッシュボードに統合できます。旅行計画であればフライト・ホテル・レストラン予約をまとめて表示し、カウントダウンまで追加する使い方も想定されています。

Googleの担当ディレクターは「パーソナルアシスタントに質問して、答えを繰り返し届けてもらうようなもの」と説明しました。世界の情報とユーザーの個人データの両方を活用することで、膨大なユースケースが生まれると期待を示しています。

本機能は同日発表された「Gemini Intelligence」の一部です。高度なオートフィルやAI音声入力など、生成AIをAndroid体験の深部に組み込むGoogleの戦略が一段と鮮明になりました。テック各社がカスタマイズツールの民主化を競う中、Googleはウィジェットという日常的な接点で差別化を図ります。

Google、Gboardに音声入力AI「Rambler」搭載

Ramblerの主要機能

Gemini基盤の多言語対応音声入力
フィラー語の自動除去と文中訂正理解
コードスイッチングで言語切替に対応
音声データ非保存のプライバシー設計

市場への影響

Gboardの数億人規模の配布網が武器
Wispr FlowやTypelessなど新興勢力に打撃
Galaxy・Pixel限定で夏に提供開始
スタートアップは差別化が急務に

Googleは2026年5月12日、Android向けキーボードアプリGboardに、Geminiベースの音声入力機能「Rambler」を搭載すると発表しました。Android Show: I/O Edition 2026で披露されたこの機能は、「えーと」「あー」などのフィラー語を自動除去し、文中での時刻訂正なども自然に処理します。

Ramblerの大きな特徴は、Geminiベースの多言語モデルによるコードスイッチング対応です。英語からヒンディー語など、文の途中で言語を切り替えても文脈を維持したまま正確に書き起こせます。これは多言語話者の実際のコミュニケーションを反映した機能であり、欧米の音声入力アプリが対応に遅れていた領域です。

プライバシー面では、音声録音を保存せず、オンデバイスクラウドハイブリッド処理を採用しています。Android Core ExperiencesディレクターのBen Greenwood氏は、安全性とプライバシーへの長年の投資を強調し、サードパーティアプリとの差別化を図りました。

市場への影響は大きいと見られます。Wispr Flow、Typeless、Superwhisperなど音声入力スタートアップはデスクトップやiOSで成長してきましたが、Android市場は未開拓でした。Gboardは大多数のAndroid端末にプリインストールされており、Ramblerは数億人規模のユーザーに一気にリーチします。まずSamsung GalaxyとGoogle Pixel向けに夏から提供が始まり、その後他のAndroid端末にも拡大予定です。

プラットフォーム企業がOS層で参入する場合、独立系アプリはより高い精度や独自機能、強固なプライバシー保証といった明確な優位性がなければ生き残りが困難になります。音声入力スタートアップにとって、「良いものを作れるか」ではなく「ユーザーがわざわざ探してまで使いたいものを作れるか」が問われる局面に入りました。

Google、Android向け3D絵文字「Noto 3D」を発表

Noto 3Dの概要

立体的な質感の新絵文字
Pixelスマートフォンから順次提供
年内にGoogle製品全体へ展開
オープンソースのNotoファミリーの新版

デジタル表現の進化

2010年代のblob絵文字から大幅刷新
感情の重みを立体で表現
テキストだけでは伝わらない存在感を補完

Googleは2026年5月12日、Android向けの新しい3D絵文字コレクション「Noto 3D」を発表しました。従来の平面的なデザインから一新し、奥行きや質感を持たせた立体的な絵文字で、デジタルコミュニケーションにおける感情表現を豊かにすることを目指しています。

Noto 3Dは、Googleが長年開発してきたオープンソースフォントプロジェクト「Noto」の最新版に位置づけられます。2010年代に人気を博した丸みのあるblob絵文字から進化し、よりリアルで物理的な存在感を持つデザインへと生まれ変わりました。

Googleの絵文字デザインを率いるJennifer Daniel氏は、「私たちの感情には重みがあるのに、オンラインでは平面的になりがちだ」と説明しています。3D絵文字は、メッセージが単に受信されるだけでなく、送り手の存在が感じられるような体験を提供することを狙いとしています。

提供時期について、Noto 3Dは2026年後半にPixelスマートフォンを皮切りにGoogle製品全体へ順次展開される予定です。Androidユーザーのデジタルコミュニケーションに新たな表現手段が加わることになります。

AndroidがAirDrop互換とRCS暗号化を一斉導入

共有機能の刷新

Quick ShareがAirDropと互換に
Pixel先行、Samsung等に年内拡大
QRコード経由でiOSとも共有可能
WhatsApp等アプリ内統合も予定

乗り換えとセキュリティ

Apple協力でiOSAndroid移行を刷新
パスワード・写真・eSIMも無線移行
RCSの端末間暗号化を展開
AndroidiOS間でも暗号化適用

Googleは2026年5月12日、Androidの共有・乗り換え・セキュリティに関する大型アップデートを発表しました。目玉はQuick ShareのAirDrop互換対応で、AndroidiOSの間でファイルを簡単にやり取りできるようになります。まずPixelで対応し、Samsung、OPPO、OnePlus、Vivo、Xiaomi、HONORへ年内に拡大予定です。

AirDrop互換に対応していない端末でも、Quick ShareからQRコードを生成し、クラウド経由でiOSデバイスへ即座にファイルを送信できます。この機能は本日から全Android端末で順次展開され、1か月以内に完全提供される見通しです。さらにWhatsAppなどの人気アプリ内からもQuick Shareが利用可能になる計画です。

iOSからAndroidへの端末移行プロセスも大幅に改善されます。GoogleAppleと協力し、パスワード、写真、メッセージ、お気に入りアプリ、連絡先、ホーム画面のレイアウトまで無線で移行できる仕組みを構築しました。eSIM転送にも対応し、Samsung GalaxyとGoogle Pixelから年内に提供開始となります。

セキュリティ面では、1日あたり25億通が送受信されているRCSメッセージに端末間暗号化(E2EE)を導入します。AndroidiOSの両プラットフォーム間で暗号化が適用されるため、異なるOS間のチャットでもプライバシーが保護されます。これらのアップデートにより、Androidはクロスプラットフォームの利便性とセキュリティの両立を大きく前進させました。

Android 17がクリエイター向け新機能を大幅強化

Instagram連携の進化

Ultra HDR撮影・再生に対応
動画手ブレ補正を内蔵
撮影から投稿まで画質劣化を抑制
Androidタブレットに最適化

AI編集と動画制作の高度化

ワンタップで写真・動画AI高画質化
音声分離で不要ノイズを除去
Adobe PremiereAndroid対応へ
プロ向け動画形式APVを新搭載

Googleは2026年5月12日、Android 17クリエイター向けの大規模アップデートを発表しました。SNS連携の強化やAI編集ツールの導入により、コンテンツ制作の効率を大幅に引き上げる狙いです。撮影から編集・投稿までをスマートフォン上で完結させ、クリエイターが制作そのものに集中できる環境を整えます。

目玉機能の一つがScreen Reactionsです。グリーンスクリーンやアプリ切り替えなしに、画面録画と自撮りを同時に行い、リアクション動画を手軽に作成できます。Pixelデバイスから今夏提供開始予定です。

Metaとの協業により、Instagramとの連携も大幅に深まりました。Ultra HDR撮影・再生、動画手ブレ補正、ナイトサイト統合に加え、撮影から投稿までのパイプラインを最適化。Googleの検証では、Androidフラグシップ端末からInstagramにアップロードした動画品質は競合と同等以上のスコアを記録しています。

InstagramEditsアプリにはAndroid限定の新機能が追加されます。ワンタップでAIによる高画質化を行う「Smart enhance」と、風や雑音など不要な音を自動分離・除去する「Sound separation」により、撮り直しの手間を削減します。

プロ向けにはAdobe PremiereアプリのAndroid対応が予告され、YouTube Shorts向けテンプレートも提供されます。さらにSamsungと共同開発した高効率プロ動画形式APVがGalaxy S26 Ultraなどで利用可能になり、Androidがモバイル動画制作のワークステーションとしての地位を固めつつあります。

Google、FitbitアプリをGoogle Healthに刷新しAIコーチ公開

アプリ統合と新ブランド

FitbitアプリがGoogle Healthアプリに改称
ウェアラブル医療記録・他社アプリのデータを一元管理
Google Fitユーザーも年内に移行予定

AIヘルスコーチの一般提供

Gemini搭載のAIコーチが5月19日に正式公開
運動・睡眠・栄養・生理周期を横断的に個別最適化
月額9.99ドル、Google AI Pro/Ultra会員は追加費用なし

新デバイスFitbit Air

画面なし・12gの超小型トラッカーを99ドルで発売
ステファン・カリー共同デザインの特別版は129ドル

Googleは2026年5月7日、FitbitアプリをGoogle Healthアプリへリブランドし、GeminiベースのAIヘルスコーチの一般提供と、新型スクリーンレストラッカーFitbit Airの発売を同時に発表しました。5月19日からの展開で、既存Fitbitユーザーのアプリは自動更新されます。Googleウェアラブル・健康データ・AI指導を統合し、パーソナライズされたヘルスケア体験を打ち出します。

Google Healthアプリは、Fitbitデバイス、Pixel Watch、Health Connect、Apple Healthに加え、米国では医療記録も統合できる包括的な健康プラットフォームです。Today・Fitness・Sleep・Healthの4タブ構成に刷新され、PelotonやMyFitnessPalなど数百の外部アプリとも連携します。将来的にはGarminやWhoop、Ouraなどサードパーティウェアラブルにも対応予定です。

Google Health CoachGeminiモデルを基盤とし、フィットネス・睡眠・栄養・メンタルヘルスを横断的に分析して24時間対応のパーソナルコーチングを提供します。昨年10月のパブリックプレビューには約50万人が参加し、100万件超のフィードバックを反映して改良されました。月額9.99ドルまたは年額99ドルのGoogle Health Premium(旧Fitbit Premium)に含まれ、Google AI ProおよびUltraの加入者は追加費用なしで利用可能です。

新デバイスのFitbit Airは、わずか5.2g(本体のみ)の画面なしトラッカーで、心拍数・血中酸素・皮膚温度など主要センサーを搭載します。バッテリーは約1週間持続し、5分の急速充電で1日分の電力を確保できます。Pixel Watchとの同時ペアリングにも対応し、日中はスマートウォッチ、夜間はAirという使い分けが可能です。

NBA4度の優勝を誇るステファン・カリーGoogleのパフォーマンスアドバイザーとしてAIコーチの開発に参画し、特別版バンドを共同デザインしました。特別版は129.99ドルで5月26日に店頭発売されます。GoogleはFitbitの健康データを広告に利用しないとの方針を維持しつつ、Whoop・Apple Watchなど競合がひしめくAIヘルス市場でプラットフォーム統合を武器に差別化を図ります。

OpenAI、ChatGPT広告にセルフサーブとCPC課金を導入

セルフサーブ広告管理

Ads Managerのベータ提供開始
米国広告主が直接出稿可能に
中小企業からグローバル企業まで対応

CPC課金と計測強化

CPC入札をCPMに追加
クリック課金で費用対効果を向上
コンバージョンAPIとピクセル計測を実装

パートナー連携の拡大

電通・Omnicomなど大手代理店と提携
AdobeやCriteoなど技術連携も拡充

OpenAIは2026年5月5日、ChatGPT広告プラットフォームを大幅に拡充すると発表しました。新たにベータ版のセルフサーブ型Ads Manager米国で提供開始し、広告主がパートナーを介さずに直接キャンペーンを作成・管理できるようになります。中小企業スタートアップからグローバルブランドまで、あらゆる規模の企業が参加可能です。

課金モデルにはこれまでのCPM(インプレッション課金)に加え、新たにCPC(クリック課金)入札を導入しました。ChatGPTでの会話は情報収集や比較検討といった能動的な行動が多いため、クリックが広告の関連性を示す有効なシグナルになるとOpenAIは説明しています。広告主はクリックが発生した場合にのみ課金されます。

計測機能も強化され、Conversions APIピクセルベースの計測ツールが追加されました。広告接触後の購入やリード獲得といったアクションを把握でき、個別の会話内容は広告主に共有されない設計です。集約されたパフォーマンスデータにより、広告の質とマッチング精度の向上を目指します。

パートナーエコシステムも拡大しています。電通、Omnicom、Publicis、WPPといった大手広告代理店との協業に加え、Adobe、Criteo、Kargo、Pacvue、StackAdaptなどの技術パートナーとも連携しています。広告主は既存のツールやワークフローを通じてChatGPT広告を利用できます。

OpenAI広告事業の基本方針として、ChatGPTの回答は広告から独立し、会話のプライバシーを保護し、ユーザーが体験を制御できることを掲げています。今後も新しい広告フォーマットや最適化機能を段階的に追加し、広告プラットフォームの進化を続ける方針です。

Planet Labs、衛星上AIで航空機を数秒検出

軌道上AI処理の実現

Pelican衛星でAI画像認識
1画像0.5秒で処理完了
撮影から数分でユーザーへ配信
従来は地上転送に6〜12時間

次世代衛星網の構想

Owl衛星群で毎日1m解像度
自律的に異常検知し高解像度撮影
将来はLLMを宇宙で稼働
Googleと2027年に試験衛星打上げ

米Planet Labsは、同社の高解像度衛星Pelican-4に搭載したAIモデルで、オーストラリアのアリススプリングス空港の航空機を自動検出することに成功したと発表しました。衛星上で画像認識アルゴリズムを実行し、16,000ピクセル画像を0.5秒で処理できます。これにより、撮影から数分以内に分析結果をユーザーに届けることが可能になりました。

従来の地球観測では、衛星が取得した膨大なデータを地上に転送し、クラウドで処理するまでに6〜12時間を要していました。同社エンジニアリング担当副社長のKiruthika Devaraj氏は「過去を見ているのと同じだった」と指摘します。山火事など一刻を争う事態では、この遅延が被害拡大につながるリスクがありました。

AI処理にはNVIDIA Jetson ORIN GPUモジュールが使われており、18カ月の開発期間を経て検出精度80%を達成しました。次世代アルゴリズムでは95%超を目標としています。今後6〜9カ月以内にリアルタイムAI検出サービスを顧客に提供する計画です。

さらにPlanet Labsは、次世代のOwl衛星群により「惑星知能」の実現を目指しています。Owl群が地球を常時監視し、異常を自律的に検知して高解像度のPelican衛星に再撮影を指示する仕組みです。将来的にはJetson Thorプロセッサへの移行や、宇宙空間でのLLM稼働も視野に入れています。

同社はGoogleとSuncatcherプロジェクトで協業しており、2027年にプロトタイプ衛星2基の打上げを予定しています。宇宙空間でのデータ処理インフラ構築には、SpaceXAmazonも関心を示しており、太陽光発電と自然冷却を活用できる利点がある一方、打上げコストの課題も残されています。

OpenAI個人情報保護モデルで3つのアプリを構築

モデルの特徴と性能

15億パラメータ、活性50Mの軽量設計
Apache 2.0の寛容ライセンス
128Kトークンの長文一括処理
PII検出ベンチマーク最高精度達成

3種のデモアプリ構成

PDF等の個人情報を自動強調表示
画像内の個人情報を黒塗り処理
貼り付けテキストの秘匿共有機能
gradio.Serverで統一的に構築

OpenAIが公開した個人情報保護モデル「Privacy Filter」を活用し、Hugging Face開発者3名が実用的なWebアプリ3本を構築しました。Privacy Filterは15億パラメータのモデルで、活性パラメータは5000万、Apache 2.0ライセンスで提供されています。128Kトークンのコンテキストに対応し、PII検出ベンチマークで最高精度を達成しています。

1つ目の「Document Privacy Explorer」は、PDFやDOCXファイルをアップロードすると、個人名・メールアドレス・電話番号などの個人情報を自動検出してカテゴリ別にハイライト表示するアプリです。128Kコンテキストを活かし、文書全体を一括処理するためチャンク分割が不要です。

2つ目の「Image Anonymizer」は、スクリーンショットや画像内の個人情報を黒塗りで自動秘匿するツールです。Tesseract OCRで文字領域を抽出した後にPrivacy Filterで検出し、ピクセル座標の矩形として返します。ブラウザ上でバーの表示切替やドラッグ移動、手動追加も可能です。

3つ目の「SmartRedact Paste」は、テキストを貼り付けると秘匿済みの公開URLと、原文を確認できるトークン付き非公開URLの2つを生成するプライバシー対応ペーストビンです。多言語テキストにも対応しています。

3つのアプリはすべてgradio.Server上に構築されています。モデル推論は@server.apiデコレータでGradioのキューに載せ、ZeroGPU割り当てやプログレス通知を活用します。静的ページの配信にはFastAPIのルートを使い、モデル呼び出しとUI提供を明確に分離する設計パターンが共通しています。

Google、AI試着やAIモード活用の買い物機能を強化

AI搭載の買い物支援機能

Circle to Searchで画面上の服を即検索
AIモードで商品のレビュー比較が可能に
バーチャル試着が数十億点に対応
自分の写真1枚で着用イメージを確認
Samsung Galaxy S26やPixel 10で利用可能
コーラルリップの色味比較などにも対応

2026年春のトレンド動向

クロップドパンツ検索が過去最高に
キトゥンヒールの検索も史上最多
ポルカドットやレースの人気が急上昇
バレエフラットの検索が5年ぶり高水準
ブルーマスカラの検索が過去最高を記録
チャンキーネックレスなど大ぶりアクセ人気

Googleは2026年4月23日、春のファッションショッピングを支援する3つの機能を紹介しました。動画やSNSを見ながら気になる服を即座に検索できる「Circle to Search」、複数商品の違いをレビューに基づき比較できる「AIモード」、そして自分の写真をアップロードして衣服の着用イメージを確認できる「バーチャル試着」の3機能です。いずれもAI技術を活用し、オンラインショッピングの意思決定を効率化する狙いがあります。

Circle to Searchは、Samsung Galaxy S26やPixel 10などの対応デバイスでホームボタンを長押しし、画面上の服をなぞるだけで類似商品を検索できます。AIモードはGoogle検索上で商品比較を行い、レビューから抽出したインサイトを提示します。たとえばコーラルリップを選ぶ際、肌色との相性や持続力の違いなどを比較できます。

バーチャル試着機能は、数十億点のアパレル商品に対応し、ユーザーが自分の写真1枚をアップロードするだけで着用イメージを確認できます。オンラインでの衣服購入における「サイズ感がわからない」という課題を解消することが目的です。

同日公開されたGoogle検索トレンドのデータによると、2026年春はノスタルジーがキーワードです。クロップドパンツの検索は過去最高を記録し、キトゥンヒールも史上最多の検索数に達しました。2000年代初頭のファッションが回帰する傾向が鮮明になっています。

ビューティー分野では、ブルーマスカラの検索が史上最高を記録し、コーラルリップスティックが直近1カ月で最もトレンドの春のリップカラーとなりました。ポルカドットネイルは10年ぶりの高水準に達し、フレンチチップ検索も毎年春に急上昇して今年は過去最高を更新しています。ファッションとビューティーの両面で、Google検索データが消費者トレンドの指標として存在感を高めています。

天文学のAI分析がGPU需要を加速、NASAローマン望遠鏡も前倒し

爆発する天文データ量

ローマン望遠鏡、8カ月前倒しの2026年9月打上げ
生涯で2万TBのデータ取得見込み
JWST、毎日57GB画像を地上へ送信
ルービン天文台、毎晩20TBのデータ生成予定
ハッブルの日量1〜2GBと桁違いの規模
人手による分析は不可能な水準に到達

GPU駆動のAI解析基盤

深層学習モデルMorpheusで銀河を自動分類
ピクセル単位の意味的分割で構造を識別
初期宇宙に予想外の円盤銀河を発見
CNNからTransformerへのアーキテクチャ移行を推進
DLSS類似技術で地上望遠鏡の大気歪みを補正
GalaxyFriendsで約9万銀河を類似性で整理
NSF助成で構築したGPUクラスタが基盤に

GPU確保の課題

世界的なGPU需要増で研究用確保が困難に
トランプ政権がNSF予算50%削減を提案
大学の限られた資源では最新設備の維持が難航
研究者には起業家的姿勢が必要と指摘

NASAはナンシー・グレース・ローマン宇宙望遠鏡を当初予定より8カ月早い2026年9月に打ち上げると発表しました。同望遠鏡は運用期間中に2万テラバイトものデータを天文学者に届ける見通しです。すでにジェイムズ・ウェッブ宇宙望遠鏡は毎日57ギガバイトの画像を送信しており、チリのヴェラ・C・ルービン天文台も年内に観測を開始して毎晩20テラバイトを生成する予定です。かつてのハッブル望遠鏡の日量1〜2ギガバイトとは桁違いの規模であり、天文学は本格的なビッグデータ時代に突入しています。

カリフォルニア大学サンタクルーズ校の天体物理学者ブラント・ロバートソン教授は、NVIDIAと15年にわたり協力してGPUを天文学に応用してきました。同教授の研究室が開発した深層学習モデル「Morpheus」は、自動運転車と同じ意味的分割手法を用いてピクセル単位で銀河を分類します。JWSTデータへの適用により、初期宇宙に存在するはずがないとされていた回転円盤銀河を多数発見し、宇宙の進化理論に新たな知見をもたらしました。この発見は当初懐疑的に受け止められましたが、その後独立した複数の研究で確認されています。

ロバートソン教授はMorpheusのアーキテクチャを畳み込みニューラルネットワークからTransformerに移行する作業を進めており、分析可能な領域が数倍に拡大する見込みです。また、NVIDIADLSSに概念的に近い手法を用い、宇宙望遠鏡のデータで訓練したモデルを地上望遠鏡の画像に適用することで、大気による歪みを除去して宇宙望遠鏡に近い鮮明さを実現しています。さらに大学院生が開発した「GalaxyFriends」というツールにより、約9万個の銀河を類似性に基づいて整理し、パターンの発見や異常検出を効率化しています。

一方で研究を支えるGPUインフラの確保は深刻な課題となっています。ロバートソン教授はNSFの助成金でサンタクルーズ校にGPUクラスタを構築しましたが、設備は陳腐化しつつあり、AI手法を使いたい研究者は増える一方です。さらにトランプ政権がNSF予算の50%削減を提案しており、研究基盤の維持が一層困難になる懸念があります。ロバートソン教授は「大学はリソースの制約からリスク回避的になる。研究者は起業家的に行動し、この分野の進む方向を示す必要がある」と述べています。

Anthropic、最上位モデルClaude Opus 4.7を一般公開

性能と主要ベンチマーク

GDPVal-AAでElo 1753を記録
SWE-bench Proで64.3%達成
GPT-5.4やGemini 3.1 Proを上回る成績
画像解像度が3倍以上に向上

安全対策と提供形態

サイバーセキュリティ用自動検知を搭載
正規セキュリティ専門家向け認証制度を新設
価格は据え置きで主要クラウドに対応
新たにxhigh思考レベルを追加

Anthropicは2026年4月16日、大規模言語モデルの最新版Claude Opus 4.7を一般公開しました。同社によると、前世代のOpus 4.6から高度なソフトウェアエンジニアリング能力が大幅に向上し、複雑で長時間にわたるタスクを高い精度で自律的に処理できるようになっています。価格はOpus 4.6と同じ入力100万トークンあたり5ドル、出力100万トークンあたり25ドルで、APIのほかAmazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで利用可能です。

主要ベンチマークでは、知識労働を評価するGDPVal-AAでEloスコア1753を記録し、OpenAIGPT-5.4(1674)やGoogleGemini 3.1 Pro(1314)を上回りました。エージェントコーディング評価のSWE-bench Proでは64.3%のタスクを解決し、Opus 4.6の53.4%から大きく改善しています。ただし、エージェント検索やマルチリンガルQAなど一部の領域ではGPT-5.4がなお優位であり、全分野で圧倒する結果ではありません。

視覚処理面では、画像の最大解像度が長辺2,576ピクセル(約375万画素)まで拡大され、従来比3倍以上の高解像度入力に対応しました。XBOWの視覚精度ベンチマークでは成功率が54.5%から98.5%に跳ね上がり、画面操作エージェントや複雑な図面からのデータ抽出といった用途の実用性が大きく高まっています。また、自身の出力を検証してから報告する「自己検証」行動が確認されており、ハルシネーションの抑制にも寄与しています。

安全面では、同社が先日発表した高性能モデルMythos Previewセキュリティ上の理由で限定提供のままですが、Opus 4.7にはサイバー攻撃に関する高リスクな要求を自動検知・ブロックする仕組みが組み込まれました。脆弱性調査やペネトレーションテストなど正当な目的で利用したいセキュリティ専門家向けには、新たに「Cyber Verification Program」が設けられています。

開発者向けの新機能も複数追加されています。思考の深さを調整する「effort」パラメータにxhighレベルが加わり、性能とレイテンシのバランスをより細かく制御できます。APIではタスクバジェット機能がパブリックベータとして提供され、トークン消費量に上限を設定できるようになりました。早期テスターのIntuit、ReplitNotionCursorなど多数の企業が、コード品質やワークフロー効率の改善を報告しています。

Adobe、全アプリ横断のAIアシスタントを発表

対話型エージェントの全容

約100種のツールを自動選択
自然言語で複数アプリの操作を指示
ユーザーの好みを学習し個別最適化
PSD等ネイティブ形式で出力

動画・画像編集の新機能

Kling 3.0含む30超のモデル搭載
Premiere Proに新色補正モード

収益化と競争環境

既存サブスク+クレジット消費モデル
AI単体ARR1.25億ドルに到達

Adobeは2026年4月15日、Creative Cloudの全アプリを対話形式で横断操作できるFirefly AIアシスタントを発表しました。2025年秋のMAXカンファレンスで「Project Moonlight」として披露された研究プロトタイプを製品化したもので、数週間以内にパブリックベータとして公開される予定です。

このAIアシスタントは、Photoshop、Premiere Pro、Illustrator、Lightroom、Expressなど主要アプリにまたがる約100種のツールとスキルを備えています。ユーザーが自然言語で「この画像をレタッチして」「SNS用にリサイズして」と指示するだけで、エージェントが適切なアプリとツールを自動選択し、複数ステップのワークフローを実行します。出力はPSD、AI、PRPROJなどネイティブ形式のため、いつでもピクセル単位の手動編集に切り替えられるのが特長です。

利便性を高める仕組みも充実しています。ポートレートレタッチやSNSアセット作成など、あらかじめ用意された「Creative Skills」テンプレートをワンプロンプトで実行可能です。さらにアシスタントはユーザーの好みのツールやワークフロー、美的嗜好を時間とともに学習し、提案を個別最適化していきます。AnthropicClaudeなど外部LLMとの連携も予定されています。

同時に発表された新機能も注目に値します。Firefly Video Editorには中国Kuaishou社のKling 3.0および3.0 Omniモデルが追加され、搭載モデル数は30を超えました。Premiere Proには編集者向けに設計されたカラーグレーディング専用モード「Color Mode」がベータ公開されたほか、Frame.io Driveではクラウドメディアをローカルファイルのように扱える仮想ファイルシステムが導入されています。

収益面では、AIアシスタントの利用には対象アプリを含む既存サブスクリプションが必要で、生成機能はクレジットを消費する方式です。Adobeの直近四半期決算では売上高が前年比10%増の64億ドルに達し、AI関連の年間経常収益は1.25億ドルに成長しました。CanvaFigmaRunwayなどAIネイティブの競合が台頭するなか、Adobeはプロ向けツール群の統合力を最大の競争優位と位置づけています。

SynthID透かし解析の主張、Google側は否定

解析手法と限界

画像200枚から透かしパターン抽出
信号処理のみでNN不使用
完全除去は不可、デコーダ混乱が限界
悪用コスト引上げの設計を開発者も評価

Googleの反論

Google広報が体系的除去は不可能と否定
画像生成時にピクセル単位で埋込
全AI製品に広範適用
実用的脅威の段階には未到達

ソフトウェア開発者のAloshdenny氏が、Google DeepMindのSynthID電子透かしシステムをリバースエンジニアリングしたと主張し、その手法をGitHubでオープンソース公開しました。Geminiで生成した200枚の純黒画像のコントラストと彩度を強調してノイズ除去することで、透かしパターンを可視化できたといいます。ニューラルネットワークGoogleへの特別なアクセスは一切使用していません。

SynthIDは、GoogleAI生成コンテンツに埋め込まれるほぼ不可視の電子透かしシステムです。画像生成の段階でピクセルに直接組み込まれる設計で、画質を劣化させずに除去することが困難になっています。GeminiNano BananaVeo 3などGoogleのAI製品全般で使用されており、YouTubeのAI生成アバターにも適用されています。

ただし、Aloshdenny氏自身も完全な除去には成功していません。実現できたのはSynthIDのデコーダを混乱させるレベルにとどまり、透かし自体の削除ではありませんでした。同氏は「デコーダを諦めさせることしかできなかった事実が、設計の優秀さを物語っている」と述べ、SynthIDが完璧ではないものの悪用のコストを十分に引き上げていると評価しています。

Google広報のMyriam Khan氏はThe Vergeに対し、「このツールがSynthIDの透かしを体系的に除去できるという主張は誤りである」と明確に否定しました。現時点では、誰でもダウンロードして透かしを除去・追加できるツールには至っておらず、AI検知システムを欺く実用的な脅威にはなっていないと見られます。

AIエージェント同士の交流から恋愛マッチングへ

仕組みと背景

AIエージェントが仮想空間で自律交流
公開情報と自己申告データでデジタルツイン生成
UCLハッカソンで誕生しAnthropicが受賞
スワイプ型アプリの不平等を解消する狙い

課題と展望

相性予測の学術的根拠は乏しい
データ量の非対称性やコスト面の懸念
ソーシャルプラットフォーム化を計画
収益モデルは未確定の段階

ロンドンの開発者3人が立ち上げたPixel Societiesは、ユーザーごとにカスタマイズされたAIエージェントを仮想空間内で自律的に交流させ、現実世界での友人・同僚・恋愛パートナー候補を発見するプロジェクトです。各エージェントはLLMをベースに、公開SNSデータや性格診断の回答などを学習した「デジタルツイン」として振る舞います。

このプロジェクトは2026年3月、ロンドン大学で開催されたNvidia・HPE・Anthropic共催のハッカソンで2日間に開発されました。Anthropicから最優秀エージェントツール活用賞を受賞しています。開発者らはOpenClawの「ソウルファイル」概念に着想を得て、エージェントに個性を持たせる仕組みを実装しました。

既存のマッチングアプリは外見偏重で「容姿の格差」を生むと批判されていますが、Pixel Societiesはエージェント同士の会話から「繊細な相性」を見出せると主張しています。一方、UC Davisの心理学者Paul Eastwick氏はスピードデーティング研究を引用し、趣味・価値観・職業などの自己申告情報では相性をほぼ予測できないと指摘しています。

開発チームはプロトタイプを数百人に試用させており、最も多いリクエストは恋愛マッチングだといいます。今後はクローズドなシミュレーターからオープンなソーシャルプラットフォームへの転換を目指しています。ただし、シミュレーションのコスト、データ量の非対称性、長期関係を求めるユーザーと継続利用を前提とするプラットフォームのインセンティブ不整合など、事業化には多くの課題が残ります。

AIエージェント監視用リモートデスクトップ登場

Workbenchの特徴

AIエージェント監視に特化
iPad・iPhoneから遠隔操作
高精細な独自プロトコル採用

事業展開と背景

Mac Mini需要急増が追い風
月額10ドルのサブスク提供
Windows・Linux対応も予定
10万超の既存顧客基盤を活用

Astropad社は、AIエージェントの監視・操作に特化したリモートデスクトップ製品「Workbench」を発表しました。Mac Miniを使ったAIエージェント運用が急速に広まるなか、エージェントの稼働状況を手軽に確認できる手段への需要が高まっていることが背景にあります。同製品はiPadやiPhoneから利用でき、ログ確認やタスク再起動などの操作が可能です。

Workbenchは同社独自の低遅延ディスプレイプロトコル「LIQUID」を採用しており、Retina解像度でもぼやけやピクセル化のない高精細な映像を実現しています。また、Apple音声モデルを活用し、マイクボタンを押して声でAIエージェントに指示を出す機能も備えています。従来のリモートデスクトップがIT管理向けに設計されていたのに対し、AI時代の新しいワークフローに最適化した点が差別化のポイントです。

CEOのMatt Ronge氏は、社内でAIエージェントを長時間稼働させる際に既存ツールでは不十分だった経験が開発のきっかけだと述べています。同社はiPadアプリ開発で10年の実績があり、その知見を本製品に活かしています。

料金は1日20分まで無料、無制限利用は月額10ドルまたは年額50ドルです。今後はWindows・Linux対応やiPhoneアプリの改良を予定しており、AI活用が進む企業向けにも展開を見込んでいます。Astropadはブートストラップ経営で黒字を維持しており、10万人超の顧客基盤を持つ安定した事業基盤が強みです。

GoogleがChromeOS Flex導入キットを約3ドルで発売

導入支援の概要

Back Market提携しUSBキット販売
価格は約3ドル(約3ユーロ)
動画・ガイド付きで初心者にも対応
公式サイトから無料ダウンロードも可能

環境・延命効果

Windows 10サポート終了PCを再活用
製造時CO2排出の回避に貢献
消費電力が他OSより平均19%低減
USBドライブは再利用可能でe-waste削減

Googleは2026年4月、リファービッシュ大手Back Market提携し、古いPCやMacにChromeOS Flexを簡単に導入できるUSBキットの販売を開始しました。価格は約3ドルで、インストール手順のガイドや動画チュートリアルも提供されます。

背景には、2025年10月にWindows 10のサポートが終了し、数億台のPCがセキュリティリスクにさらされている問題があります。ユーザーは高額な新端末の購入か、脆弱なまま使い続けるかの二択を迫られていました。

Googleは自社でもChromebookのアップデート期間を10年、Pixelスマートフォンを7年に延長するなど、ハードウェアの長寿命化に取り組んでいます。今回のキットはその延長線上にある持続可能性への新たな施策です。

環境面では、ノートPC製造時のCO2排出が大きな割合を占めるため、既存端末の延命は廃棄物削減と排出回避に直結します。さらにChromeOSは他の同等システムと比較して平均19%少ないエネルギーで動作するとされています。

Closing the Loopとの連携によりe-wasteの最小化も図られています。USBドライブは繰り返し使用可能で、対応端末はGoogleの認定モデルリストで確認できます。企業のIT部門にとっても、低コストで既存資産を活用できる選択肢となりそうです。

Galaxy S26のAI写真編集、自然言語で指示も精度に課題

自然言語で写真を加工

Galaxy S26に自然言語プロンプト対応のAI編集機能
背景変更や人物追加などGoogle Photosと同等の機能
不適切な画像生成へのガードレールは比較的堅固

編集精度と品質の限界

生成画像光沢感や歪みが残り偽物と判別可能
指示外の部分まで変更される過剰編集の傾向
人物追加で別人が生成される不整合も発生

写真の定義が揺らぐ時代

Samsung幹部が写真はコミュニケーションと定義
AI透かしとコンテンツ認証情報を付与も確認困難

Samsungは2026年2月のUnpackedイベントで、Galaxy S26のギャラリーアプリに搭載するAI写真編集ツール「Photo Assist」に自然言語プロンプト対応を追加すると発表しました。服の変更やペットの合成など、写真を自由に加工できる機能です。

安全面では、「死体」「火」などの危険なキーワードや、過去にGoogle Pixel 9で使われた回避手法がブロックされており、衣服の除去や犯罪シーンの生成もできません。ガードレールは比較的しっかり機能していると評価されています。

一方で編集精度には明確な限界があります。生成された部分には独特の光沢感があり、画像全体の画質も劣化する傾向が見られます。プロンプトと無関係な部分まで変更される過剰編集や、人物追加で別の被写体が複製されるなどの不具合も報告されています。

背景の除去や料理写真の補正など、比較的単純な編集では高い実用性を発揮します。子どもの写真の背景を宇宙空間に変えるといった遊び心のある加工も、一定の品質で実現できています。ただしAI透かしはトリミングで簡単に除去でき、コンテンツ認証情報の確認にも手間がかかります。

Samsungのカメラ部門責任者Sungdae Joshua Cho副社長は「写真とはコミュニケーションである」と述べ、AI編集を表現手段の拡張と位置づけています。写真の定義が揺らぐ中、どこまでがAI加工として許容されるかは、今後ユーザー個々の判断基準に委ねられることになりそうです。

Midjourney技術者がWeb設計を革新するOSSライブラリPretext公開

Pretextの技術革新

DOM迂回でテキスト計測を高速化
15KBのゼロ依存TypeScriptライブラリ
300〜600倍の描画性能向上を実現
モバイルでも120fps動作可能

開発手法と反響

48時間でGitHub星1.4万獲得
X上で1900万回閲覧を記録

企業への示唆

生成AIのUI構築に即時導入推奨
アクセシビリティ管理は自社責任に

MidjourneyエンジニアCheng Lou氏が2026年3月27日、Webテキストレイアウトを根本から変えるオSSライブラリPretextMITライセンスで公開しました。15KBのゼロ依存TypeScriptライブラリで、ブラウザのDOM操作を迂回し、テキストの計測と配置を高速に行います。

従来のWeb開発では、テキストの高さや位置を取得するたびにブラウザがレイアウトリフローと呼ばれる再計算を実行し、深刻なパフォーマンス低下を招いていました。PretextはブラウザのCanvasフォントメトリクスと純粋な算術演算を組み合わせ、DOMに一切触れずに文字・単語・行の配置を予測します。

ベンチマークによると、Pretextのlayout関数は500種類のテキストを約0.09ミリ秒で処理でき、従来のDOM読み取りと比較して300〜600倍の性能向上を達成しています。この速度により、ウィンドウリサイズや物理演算中でもリアルタイムにテキスト再配置が可能になりました。

開発にはAnthropicClaudeOpenAICodexなどAIコーディングツールが活用されました。多言語データセットや小説全文を用いてブラウザ実装とのピクセル単位の整合性を反復検証し、WebAssemblyやフォント解析ライブラリなしで高精度を実現しています。

公開から48時間でGitHubスター1万4000超、X上で1900万回閲覧を記録しました。コミュニティでは雑誌レイアウト、物理演算テキスト、ディスレクシア向けフォント調整など多彩なデモが登場し、Web表現の可能性が大きく広がっています。

企業にとっては、生成AI UIや高頻度データダッシュボードを構築する場合に即時導入が推奨されます。ただしレイアウトをユーザーランドに移すことで、ブラウザが担っていたアクセシビリティや標準準拠の責任を自社で管理する必要がある点には留意が必要です。

Armが自社初のデータセンター向けCPUを発表、Metaが初期顧客に

自社チップ参入の衝撃

Arm AGI CPUを正式発表
初の自社シリコン製品で歴史的転換
Metaが最初の顧客に決定
SK Hynix・Cisco・SAP等も採用予定

技術と市場戦略

世界最高の電力効率を実現
エージェントAI処理に最適化
TSMCで製造、サーバー参照設計も提供
Intel・AMDのx86市場を直接侵食

Armは、同社初となる自社設計・製造のデータセンター向けCPU「Arm AGI CPU」を発表しました。これまで設計ライセンス事業に徹してきた同社にとって、自社シリコンへの参入は創業以来最大の戦略転換となります。初期顧客としてMetaが採用を決定しています。

CEO のルネ・ハース氏は、ArmがIP企業から「コンピュートプラットフォーム企業」に進化したと説明しました。MicrosoftがSurfaceでWindowsエコシステムを強化し、GooglePixelAndroidを推進するのと同様に、Armも自社チップエコシステム全体を底上げする狙いがあると述べています。

新CPUの最大の強みは電力効率です。モバイルチップで培った省電力設計のDNAを活かし、AI時代のデータセンターが直面するエネルギー問題に対応します。さらに、エージェントAIの実行にはGPUではなくCPUが不可欠であり、この需要拡大がArm参入の追い風となっています。

製造はTSMCが担当し、Super MicroやFoxconnと協力してサーバー参照設計も提供します。ハース氏は約2,000人エンジニアを関連部門に増員したと明かしました。既存のコンピュートサブシステムで実績があるため、初号機から高い完成度を自信を持って見込んでいます。

この動きはIntelAMDのx86勢にとって直接的な脅威となります。一方、NvidiaのVera CPUもArm ベースであるため、Armエコシステムの拡大はNvidiaにもプラスに働くとハース氏は主張。ソフトバンク孫正義会長とは日常的に連携しており、今回の決断もパートナーとしての議論を経て進めたと語りました。

GDC会場にAI技術が溢れるもゲーム開発者は採用を拒否

開発者の強い拒絶

インディー開発者の大半がAI不使用を表明
GDC調査で52%が業界に悪影響と回答
Finji共同創業者絶対に使わない」と断言
BigModeは応募時にAI不使用の誓約を要求

法的・品質面の懸念

AI生成物の著作権保護が未確立
AI制作物は「安っぽく見える」との批判
人材育成への悪影響を懸念

職人技への誇り

手作りの工程が優れたゲーム設計を生む
人間の物語を届ける使命感

2026年3月に開催されたGDC(ゲーム開発者会議)では、生成AIツールを売り込むベンダーが会場を埋め尽くしました。テンセントのAI生成ピクセルアートやGoogle DeepMindの満員セッションなど、AI展示が目立つ一方、実際のゲーム開発者の反応は冷ややかでした。

取材に応じた開発者のほぼ全員が、自身のプロジェクトでのAI活用を否定しました。インディーゲームパブリッシャーFinjiの共同創業者アダム・ソルツマン氏は「絶対に使わない」と断言し、作品には特定の人間の指紋が刻まれていることが価値だと語りました。

GDCの最新調査によると、回答者の52%が生成AIはゲーム業界に悪影響を及ぼしていると回答しています。この数字は2025年の30%、2024年の18%から急増しており、NvidiaDLSS 5が既存キャラクターにAI特有の不自然な顔を付加した問題も、開発者の不信感を強めています。

法的な課題も深刻です。AI生成アートは著作権保護の対象外とする判例があり、生成AIの出力物を商品として販売するための法的枠組みが整っていません。Panic社やBigMode社など複数のパブリッシャーが、AI使用ゲームの受付を拒否する方針を明確にしています。

開発者たちが最も強調したのは、AI導入ゲーム制作の職人技を奪うという点です。Black Tabby Gamesのトニー・ハワード=アリアス氏は「集中的なキャリアの積み重ねでしか技術は向上しない」と述べ、AI代替が進めば将来の人材確保が困難になると警鐘を鳴らしました。

一方で、映画業界のように制作支援用のカスタムAIモデルが将来的にゲーム開発にも応用される可能性を認める声もあります。しかし現時点では、開発者の多くが「100%手作り」にこだわり、人間同士のつながりを生む体験の提供こそが自分たちの使命だと語っています。

Google Geminiがスマホ操作自動化を実現、実用化へ第一歩

自動化機能の実力

Uber Eats注文を自動操作
夕食注文に約9分を要す
バックグラウンドで自律動作
確認画面で人間が最終承認

将来性と課題

カレンダー連携で配車予約に成功
自然言語で曖昧な指示に対応
MCPやアプリ関数が本命技術
人間向けUIの操作に構造的限界

Googleは、Pixel 10 ProおよびGalaxy S26 Ultraにおいて、Geminiがアプリを直接操作するタスク自動化機能のベータ版を公開しました。フードデリバリーや配車サービスなど限られたアプリに対応しています。

実際のテストでは、Uber Eatsでの夕食注文に約9分を要しました。Geminiはメニューの半量オプションを正しく認識して鶏肉を2つ追加するなど、推論能力を発揮しましたが、画面上の項目を見つけるのに時間がかかる場面もありました。

特に印象的だったのは、カレンダーに登録されたフライト情報を参照し、空港到着に適した時間を逆算してUberの予約を約3分で設定した事例です。「予約」という用語を使わず「乗車をスケジュール」と指示しても正しく処理できました。

この機能は注文や予約の最終確認の直前で停止し、ユーザーが内容を確認してから完了する設計です。テスト期間中に勝手に注文が完了することはなく、精度も高いため修正はほとんど不要でした。

ただし、人間向けに設計された現行アプリのUIをAIが操作する方式には構造的な限界があります。GoogleMCP(Model Context Protocol)Androidのアプリ関数など、AI向けの効率的な接続方式への移行を見据えており、現在の自動化は過渡期の技術と位置づけられています。

世界モデル3方式が物理AI基盤として急浮上

3つのアーキテクチャ

JEPAがリアルタイム推論に特化
ガウシアンスプラットで3D空間生成
エンドツーエンド生成で合成データ量産
AMI Labsが10.3億ドルシード調達

LLMの物理的限界

物理的因果関係の理解が欠如
リチャード・サットンが模倣の限界指摘
ハサビスが不均一な知性と批判

産業応用と今後

WaymoがGenie 3で自動運転訓練
AutodeskがWorld Labs支援で設計応用

大規模言語モデル(LLM)がロボティクスや自動運転など物理世界の理解を要する領域で限界に直面しており、投資家の関心が「世界モデル」へ急速にシフトしています。AMI Labsが10.3億ドル、World Labsが10億ドルのシード資金を相次いで調達しました。

チューリング賞受賞者のリチャード・サットン氏はLLMが人間の発言を模倣するだけで世界をモデル化していないと警告しました。Google DeepMindデミス・ハサビスCEOも、現在のAIは数学五輪を解けるのに基本的な物理で失敗する「不均一な知性」を抱えていると指摘しています。

第1のアプローチ「JEPA」は、ピクセルレベルの予測ではなく潜在的な抽象表現を学習する手法です。人間が車の軌道と速度を追跡し背景の細部を無視するように、核心的な物理法則のみを捉えます。計算効率が高くリアルタイム推論に適しており、AMIは医療企業Nablaと提携してヘルスケア分野での活用を進めています。

第2のアプローチはWorld Labsが採用する「ガウシアンスプラット」で、画像やテキストから完全な3D空間環境を生成します。Unreal Engineなどに直接インポートでき、Autodeskが産業設計への統合を目的に同社を強力に支援しています。第3のアプローチはDeepMindGenie 3NvidiaCosmosに代表されるエンドツーエンド生成で、モデル自体が物理エンジンとして機能します。

今後は各アプローチの長所を組み合わせたハイブリッドアーキテクチャの台頭が見込まれます。サイバーセキュリティ企業DeepTempoはLLMとJEPAを統合した「LogLM」でログ異常検知を実現しており、LLMが推論・対話層を担い世界モデルが物理・空間データ基盤となる構図が形成されつつあります。

Google、確定申告シーズンの詐欺対策5機能を強化

端末側の防御機能

PixelのCall Screenでスパム電話70%減
AI搭載詐欺検知が通話中に警告
Circle to Searchで不審メッセージ判定
Safe Browsingが偽サイトをリアルタイム遮断

Gmail・広告の安全策

Gmailスパム99.9%をブロック
警告バナーでフィッシングを可視化
パスキー・2段階認証の導入推奨
広告出稿者情報を透明化

Googleは2026年の確定申告シーズンに合わせ、詐欺から利用者を守るための5つの対策機能を発表しました。金融業界では詐欺未遂が67%増加しており、税金還付を装った手口が急増していることが背景にあります。

Pixelスマートフォンでは、Call Screen機能によりスパム電話を平均70%削減しています。さらにオプトイン方式のリアルタイム詐欺検知機能では、端末上のAIが通話中の会話パターンを分析し、緊急送金要求などの詐欺の兆候を検出すると通知・音・振動で警告します。

不審なテキストメッセージへの対策として、Circle to SearchGoogle Lensを活用した詐欺判定機能を提供しています。Android端末でホームボタンを長押しし、怪しいメッセージを囲むだけでAIが詐欺の可能性を評価し、次のステップを提示します。iOSでもGoogle Lensから同様の確認が可能です。

WebブラウジングではGoogle Safe Browsingが偽の税務サービスサイトをリアルタイムで検出し、アクセス前に警告を表示します。Gmailでもスパム・マルウェアの99.9%をブロックし、不審な送信元やリンクには赤・黄色の警告バナーを表示してフィッシングを防止しています。

Googleはさらにパスキーや2段階認証の設定を推奨し、セキュリティチェックアップ機能を提供しています。広告の透明性ツールでは、検索広告の横にある三点アイコンから広告主の名称・所在地・認証状況を確認でき、信頼性の判断に役立てることができます。

Luma AIがマルチモーダル統合モデルで創作エージェント公開

統合知能モデルの特徴

Uni-1モデルで画像動画音声を統合処理
テキストから映像まで一貫した推論が可能
自己批評ループで出力品質を自動改善

広告業界での実績

Publicisやアディダス等が既に導入
1500万ドル規模の広告40時間・2万ドルで制作
複数国向けローカライズ広告を自動生成

従来ツールとの違い

100種のモデルを個別操作する非効率を解消
会話型で方向性を指示し大量バリエーション生成

Luma AIは2026年3月、テキスト・画像動画音声を横断して創作業務を一気通貫で担うLuma Agentsを公開しました。同社独自の統合知能モデル「Uni-1」を基盤とし、広告代理店やマーケティングチーム、デザインスタジオ向けに提供されます。

Uni-1モデルは音声動画画像・言語・空間推論単一のマルチモーダル推論システムで学習しています。CEOのAmit Jain氏は「言語で思考し、ピクセルで想像・描画する」と表現し、この能力をピクセルの知能と呼んでいます。今後のリリースで音声動画の出力にも対応予定です。

Luma Agentsの最大の強みは、アセットや協力者、クリエイティブの反復にわたって持続的なコンテキストを維持できる点です。自己批評による反復改善ループを備え、コーディングエージェントと同様に自らの成果物を評価・修正する能力を持ちます。

実際の導入事例では、あるブランド1500万ドル規模・1年がかりの広告キャンペーンを、複数国向けのローカライズ広告として40時間・2万ドル未満で制作し、社内品質管理を通過しました。200語のブリーフと製品画像1枚から、ロケーション・モデル・配色の多様なアイデアを自動生成するデモも披露されています。

Luma AgentsはAPI経由で一般公開されていますが、ワークフローの安定性を確保するため段階的にアクセスを拡大する方針です。Google Veo 3ElevenLabs音声モデルなど外部AIモデルとも連携し、エンドツーエンドの創作ワークフローを実現します。

Photoroom、画像生成モデルを24時間・約22万円で訓練する手法を公開

訓練レシピの全体像

H200 32台で24時間の速習訓練
総コスト約1500ドルに抑制
ピクセル空間で直接訓練しVAE不要に
TREADトークンルーティングで計算削減

品質向上の技術要素

LPIPSとDINOの知覚損失を併用
REPAでDINOv3と表現整合
オプティマイザにMuonを採用
コードとレシピをOSS公開

Photoroomは2026年3月3日、テキストから画像を生成する拡散モデルを24時間・約1500ドル(約22万円)の計算予算で訓練する手法「PRX Part 3」を公開しました。H200 GPU 32台を使用し、コードもGitHubでオープンソース化しています。

最大の特徴はピクセル空間での直接訓練です。従来必要だったVAE(変分オートエンコーダ)を排除し、パッチサイズ32と256次元のボトルネック層で系列長を制御します。512pxで訓練を開始し、1024pxへファインチューニングする2段階方式を採用しています。

品質向上のため知覚損失を2種類導入しています。LPIPSは低レベルの知覚的類似性を、DINOv2ベースの損失は意味的な信号を捉えます。プール済み画像全体に適用し、全ノイズレベルで計算する独自の工夫が加えられています。

計算効率の面ではTREADによるトークンルーティングを採用し、50%のトークンをTransformerブロックの大部分でスキップさせます。またREPAでDINOv3教師モデルとの表現整合を行い、収束を加速させています。オプティマイザにはMuonを使用しAdamを上回る性能を確認しています。

訓練データは合成データセット3種(計約870万枚)を使用し、Gemini 1.5でキャプションを再生成しています。生成品質にはまだ改善余地があるものの、プロンプト追従性や美的一貫性は高く、構造的な欠陥ではなくデータ多様性の不足が主な課題と分析しています。

Google、Pixel最新アップデートでGeminiによる代行操作を提供開始

Geminiの新エージェント機能

Geminiがアプリ内タスクを代行実行
UberやGrubhubでの注文・配車に対応
バックグラウンド動作で監視・中断も可能
Magic Cueがレストラン提案を自動化

Circle to Searchの進化

画像内の複数オブジェクトを同時認識
コーディネート全体から個別アイテムを検索
バーチャル試着機能を新搭載

Android全体の新機能追加

Find Hubで紛失荷物の位置を航空会社と共有
Google Messagesにリアルタイム位置共有を追加

Googleは2026年3月のPixel Dropアップデートを公開し、AIアシスタントGeminiエージェント機能を追加しました。Pixel 10シリーズのユーザーは、食料品の注文や配車予約などの日常タスクをGeminiに任せることが可能になります。

新たなエージェント機能では、UberGrubhub、DoorDashなどの対応アプリ内でGeminiがバックグラウンドで作業を実行します。ユーザーはいつでもタスクの進捗を確認したり中断したりでき、Samsung S26シリーズでも同機能が利用可能です。

Circle to Searchにも大幅な機能強化が施されました。画面上の画像から複数のオブジェクトを同時に認識できるようになり、ファッションコーディネート全体を囲むだけで個別アイテムの検索が可能です。さらにバーチャル試着機能も追加され、購入前に着用イメージを確認できます。

Android全体の新機能として、Find Hubが紛失荷物対策を強化しています。トラッカータグの位置情報を安全なリンクで航空会社と共有でき、ルフトハンザグループやエア・インディアなど10社以上の主要航空会社が対応しています。Samsoniteとの提携によりスーツケースへの技術組み込みも進んでいます。

そのほか、Google Messagesでのリアルタイム位置共有、Now Playingの単独アプリ化、AI生成カスタムアイコン、Pixel Watchの地震アラートや衛星SOSのカナダ・欧州展開など、多岐にわたる機能追加が実施されました。日本では詐欺電話検出機能も新たに利用可能になっています。

Google、MWCでAndroid AI新機能を多数披露

AI体験デモの目玉

Veo音声付き動画を生成
XRヘッドセットで都市探索
プロトタイプARグラスも展示

検索とデバイスの進化

Circle to Searchが服の試着対応
見つけた服を直接バーチャル試着
Gemini最新機能をデバイスで体験
新端末Pixel 10aを披露

Googleは2026年2月末のMWCバルセロナにおいて、Androidエコシステム全体にわたるAI活用の最新成果を発表しました。来場者向けにハンズオンデモを多数用意し、AI技術の実用性を訴求しています。

注目の体験として、Nano Bananaを使い80年代雑誌の表紙風に自分を再現できる画像生成デモや、Veoによる音声付き没入型動画の生成機能が紹介されました。生成AIの創造的な活用例として注目を集めています。

XRヘッドセットとプロトタイプグラスを用いた都市のバーチャル探索も出展されました。周囲の環境に合わせた音楽再生機能も搭載され、空間コンピューティング分野への本格参入を示しています。

Circle to Searchには新機能が追加され、見つけた服装から直接衣類を検索バーチャル試着できるようになりました。視覚的な検索体験がショッピング領域へ大きく拡張されています。

さらにPixel 10aをはじめとする最新デバイスでGeminiの新機能を体験できるブースも設置されました。会場のAndroid Avenueでは20社のパートナー企業も出展し、エコシステムの広がりを印象づけています。

Galaxy S26にGemini独占機能が搭載

Galaxy S26の主要機能

Gemini AI機能を独占搭載
プライバシーディスプレイを新搭載
Android最高峰の性能と位置づけ

AI機能の詳細

Uber配車・DoorDash注文の自動化
自然言語でマルチステップタスク実行
Pixel 10との差別化を競う

SamsungはGalaxy S26ラインナップを正式に発表しました。今回の最大の特徴はGoogle Geminiとの深い統合であり、UberやDoorDashを自然言語で操作するなどのマルチステップタスク自動化機能がAndroid搭載端末の中で最初に搭載されます。

新たに搭載されたプライバシーディスプレイは、横から見えない角度特性を持ち、公共の場でのプライバシーを保護します。AIとプライバシーへの関心の高まりを受けたタイムリーな機能追加です。

Androidの旗艦端末市場でSamsungの独占的地位は依然揺るぎませんが、Pixel 10との差別化においてGemini機能の独占展開がどこまで有効かが焦点となります。

GeminiがAndroidでUber注文を自動化

新自動化機能の詳細

Uber配車をGeminiが自律実行
DoorDashフードデリバリーも対応
自然言語で複数アプリをまたいだ操作

スマートフォンAIの新次元

AndroidがAIオペレーティングシステムに進化
Galaxy S26・Pixel 10に最初に展開
Siri・Cortanaとの比較で圧倒的優位

GoogleAndroidGeminiを使ったマルチステップタスクの自動化機能を発表しました。ユーザーが「今夜の夕食をDoorDashで注文して」と言うだけで、GeminiがアプリをまたいでUI操作を自律実行します。

これは従来のAI音声アシスタントとは根本的に異なるパラダイムシフトです。単純なコマンド実行ではなく、意図を理解して複数アプリを操作する能力は、スマートフォンをAIエージェントが動作する基盤として再定義します。

Samsung Galaxy S26とGoogle Pixel 10に先行展開されるこの機能は、Android端末の価値提案を根本から変える可能性があります。Siriが限定的な操作に留まるのとは対照的で、Androidエコシステム優位性が高まります。

VercelがGeist Pixelフォント公開とSanityマーケットプレイス統合を発表

プロダクトアップデート

Geist Pixelフォントを公開
Sanity CMSVercelマーケットプレイスに
Sandboxファイル取得を簡素化
開発者体験(DX)の継続改善
Vercel公式ブログで複数発表
AIアプリ開発向けツール充実

フロントエンド開発への影響

デザインシステムの選択肢拡大
CMS統合のサーバーレス化
開発速度向上への貢献

Vercelは2026年2月6日、複数のプロダクトアップデートを発表した。新しいGeist Pixelフォントピクセルアート風のデザインを活かしたウェブフォントで、ユニークなビジュアルアイデンティティを求める開発者向けだ。

ヘッドレスCMSの「Sanity」がVercel Marketplaceに登場し、Vercelプロジェクトと即座に連携できる体制が整った。コンテンツ管理とデプロイの統合が容易になる。

Vercel Sandboxのファイル取得APIの簡素化により、AI開発環境でのファイル操作が効率化され、エージェント型アプリのデバッグが容易になった。

Vercelの継続的なアップデートはフロントエンド開発のワンストップ化戦略を反映しており、デプロイ・CMS・AI・フォント・マーケットプレイスを統合する構想が鮮明だ。

次世代Webアプリ開発におけるプラットフォーム戦争Vercel、Netlify、AWS Amplifyなどの間で激化しており、エコシステムの豊かさが選定の鍵となっている。

Google年間収益4000億ドル超え、GeminiMAU7.5億人に到達

Q4業績と成長指標

Alphabet年間収益が4000億ドル超え
GeminiアプリMAU7.5億人突破
Gemini 3のローンチ成果を強調
クラウドとAIが成長を牽引
広告収益とAI収益の両輪成長
2025年Q4が記録的四半期と発表

AI戦略の方向性

1月のAIニュース成果総括発表
競合優位確立への自信表明

Alphabetは2026年2月4日のQ4 2025決算発表で、年間収益が初めて4000億ドルを突破したと発表した。AIへの大規模投資が実を結びつつある。

Google CEO Sundar Pichai氏はGemini 3のローンチを「主要マイルストーン」と称し、検索クラウドPixelなど全製品にAIが深く統合されている現状を説明した。

GeminiアプリはMAU(月間アクティブユーザー)が7億5000万人を超え、急速なユーザー獲得を続けている。競合のChatGPTに対し確固たる地位を確立しつつある。

クラウド部門であるGoogle Cloudは引き続き高成長を維持しており、AI需要の増大データセンター投資と相互に好循環を生み出している。

今回の決算はAI投資財務的リターンを初めて明確に示したもので、他のテック大手にもAI収益化モデルの基準を提供することになる。

オープンソースAIが独自モデルに挑む三つの新展開

動画理解・視覚AIの前進

Ai2がオープンソース動画モデル「Molmo 2」を公開
8B・4B・7Bの3バリアントを提供
動画グラウンディングとトラッキングでGemini 3 Proを上回る性能
マルチ画像動画クリップの入力に対応
ピクセルレベルの物体追跡が可能
小規模モデルで企業導入のコストを大幅に削減

エージェントメモリとAIコード開発の革新

HindsightがRAGの限界を超える4層メモリアーキテクチャを実現
LongMemEvalで91.4%の精度を達成し既存システムを凌駕
世界・経験・意見・観察の4ネットワークで知識を構造化
ZencoderがマルチモデルAIオーケストレーション「Zenflow」を無料公開
ClaudeOpenAIモデルが互いのコードをクロスレビュー
構造化ワークフローバイブコーディングを卒業しコード品質20%向上

Ai2(アレン人工知能研究所)は2025年12月16日、オープンソースの動画理解モデル「Molmo 2」を公開しました。8B・4B・7Bの3種類を揃え、動画グラウンディングや複数画像推論においてGoogleGemini 3 Proを上回るベンチマーク結果を示しています。

Molmo 2の最大の特徴は「グラウンディング」能力の強化です。ピクセルレベルでの物体追跡や時間的な理解を可能にし、これまで大型独自モデルが独占してきた動画分析領域に本格参入しています。企業が動画理解をオープンモデルで賄える現実的な選択肢となりました。

一方、Vectorize.ioはVirginia Tech・ワシントン・ポストと共同でオープンソースのエージェントメモリシステム「Hindsight」を発表しました。従来のRAGが抱えていた「情報の均一処理」という根本問題に対し、4種類のネットワークで知識を分離する新アーキテクチャを採用しています。

HindsightはLongMemEvalベンチマークで91.4%という最高精度を達成しました。マルチセッション問題の正答率が21.1%から79.7%に、時間的推論が31.6%から79.7%へと大幅に向上しており、エージェントが長期的な文脈を保持する能力が飛躍的に改善されています。

このシステムは単一のDockerコンテナとして動作し、既存のLLM API呼び出しをラップするだけで導入できます。すでにRAGインフラを構築したものの期待通りの性能が得られていない企業にとって、実用的なアップグレードパスとなります。

ZencoderはAIコーディング向けのマルチエージェントオーケストレーションツール「Zenflow」を無料のデスクトップアプリとして公開しました。計画・実装・テスト・レビューを構造化ワークフローで処理し、AnthropicClaudeOpenAIのモデルが互いのコードを検証し合う仕組みを採用しています。

Zencoder CEOのFilev氏は「チャットUIはコパイロット向けには十分だったが、スケールしようとすると崩壊する」と述べています。複数のAIエージェントを並列実行し、モデル間のクロスレビューによってコード品質を約20%向上させるとしており、ビジョンは「プロンプトルーレット」から「エンジニアリング組み立てライン」への転換です。

3つの発表に共通するのは、オープンソースや無料ツールが独自クローズドモデルと競合できる水準に達しつつあるという潮流です。動画理解・長期メモリ・コード品質という異なる課題に対し、それぞれ構造的なアプローチで解決を試みており、エンタープライズAI活用の選択肢を広げています。

AIが人間の言語分析能力に初めて到達

言語理解の壁を越えたAI

UCバークレーがo1の言語解析能力を実証
構文木・再帰・音韻論で大学院生と同等の成績
人間固有とされたメタ言語能力をAIが初めて示す

画像生成の新潮流:あえて劣化

GoogleNano Bananaスマホカメラ風の質感を再現
意図的な「不完全さ」がリアリティ向上に貢献
C2PAのコンテンツ証明でAI画像の識別へ前進

2025年12月、AIが人間の専門家と同レベルで言語を分析できることが初めて実証され、同時期に画像生成AIが意図的な劣化表現でリアリティを高めるという新潮流が注目を集めた。誰が、何を、いつ、どこで、なぜ示したのか——UCバークレーの研究チームがOpenAIのo1モデルを対象に行った実験と、GoogleNano Bananaをはじめとする画像生成モデルの進化を通じて、AIの能力が新たな段階へ入りつつあることが明らかになりました。

UCバークレーの言語学者Gašper Beguš氏らは、既存の知識を流用できないよう独自設計した構文・音韻のテストをo1に課しました。その結果、o1は複雑な再帰構文の解析、文の曖昧性の識別、さらには30種の人工言語の音韻規則の推定まで、言語学の大学院生と同等以上の精度で実施できることが確認されました。

最も注目されたのは『メタ言語能力』——言語を使うだけでなく言語そのものについて考える力——をo1が示した点です。ノーム・チョムスキーらが主張してきた『大量データの学習だけでは正しい言語分析は不可能』という見解に対し、今回の研究は強い反証を突きつけました。

一方、画像生成の分野ではGoogleNano Banana Proが逆説的なアプローチで現実感を追求しています。スマートフォンカメラ特有のコントラスト不足や過剰なシャープネス処理をあえて再現することで、人間が日常的に見慣れた'スマホ写真らしさ'を演出し、不気味の谷を回避する手法が注目されています。

Adobe FireflyやMetaのAI生成ツールも同様に、過度に滑らかな'AI的な美しさ'を抑制するスタイル調整機能を搭載しています。OpenAISora 2やGoogleVeo 3では、監視カメラ風の低解像度映像を意図的に生成してリアリティを演出する動きも見られます。

AI生成画像の急速な進化に対応するため、C2PAのコンテンツ証明規格の普及が急務となっています。GooglePixel 10シリーズでは全撮影画像に暗号署名が付与されるようになり、Google Photosもコンテンツ証明の表示に対応しました。ただし、ハードウェアメーカーやプラットフォーム全体への普及にはまだ時間を要する状況です。

AIが人間の言語能力を分析・解析する段階に達したことは、自然言語処理の研究や教育分野に大きな変革をもたらす可能性があります。同時に、リアルと生成物の境界が曖昧になる画像動画領域においては、技術の進化と真偽確認の仕組みの整備が並行して求められています。

Gemini搭載のリアルタイム翻訳、全イヤホン対応へ

全ヘッドフォンで使える翻訳

Pixel Buds不要に、全イヤホン対応
Android版でベータ提供開始
米国・メキシコ・インドで展開
70以上の言語をサポート

Geminiによる翻訳精度向上

イディオム・スラングの自然な翻訳
話者の声のトーンや抑揚を保持
英語と約20言語で精度強化
テキスト翻訳も検索連携で高精度化

語学学習機能も拡充

20カ国に学習機能を拡大
Duolingo風の連続学習ストリーク追加
独・葡・印など複数言語に新対応

Googleは2025年12月12日、Geminiを活用したリアルタイム音声翻訳機能をGoogle Translateアプリ(Android版)でベータ公開した。米国・メキシコ・インドを対象に展開が始まり、70以上の言語に対応。従来はPixel Buds専用だったライブ翻訳機能が、あらゆるヘッドフォン・イヤホンで利用できるようになった。

新機能は、Geminiのネイティブ音声間翻訳能力を基盤としており、話者のトーン、強調、テンポを保ちながらリアルタイムで自然な翻訳音声を耳元で届ける。会話、海外での講演・講義視聴、外国語映画・テレビ番組の視聴など、幅広いシーンでの活用が想定されている。

テキスト翻訳面でもGeminiによる強化が施された。イディオムや地域特有の表現、スラングなど文脈依存の慣用表現を、従来の逐語翻訳ではなく意味を捉えた自然な翻訳で提供する。英語と約20言語(スペイン語・ヒンディー語・中国語・日本語・ドイツ語など)を対象にアプリ(AndroidiOS)およびWeb版で展開開始。

ライブ翻訳のiOS対応および追加国への展開は2026年を予定している。Appleも同様のライブ翻訳機能をiOS 18で提供しているが、AirPods必須であるのに対し、GoogleAndroid版はあらゆるヘッドフォンで動作する点が差別化ポイントとなっている。

語学学習ツールも大幅に拡充された。ドイツインド・スウェーデン・台湾を含む約20カ国で新たに利用可能となり、英語話者向けのドイツ語・ポルトガル語学習、およびベンガル語・中国語(簡体字)・オランダ語・ドイツ語・ヒンディー語・イタリア語・ルーマニア語・スウェーデン語話者向けの英語学習が追加された。

Duolingoを意識した連続学習日数(ストリーク)のトラッキング機能も導入され、学習継続の可視化と習慣化を後押しする。スピーキング練習に基づくフィードバックの精度も向上し、実践的な語学力向上を支援する仕組みが整えられた。

今回の一連のアップデートは、GeminiモデルをGoogleの主力サービスに深く組み込む戦略の一環であり、同日発表されたGemini音声モデル強化とも連動している。AI翻訳の品質と即時性が実用水準に達しつつあることを示す重要な節目と言える。

Zhipu AI、視覚入力でツール直結のVLM公開 商用可

視覚情報をツールへ直結

画像を直接ツールの引数に指定
テキスト変換の情報ロスを排除

用途に応じた2モデル展開

106B版は複雑な推論に特化
Flash版は利用無料で高速

実務を変える高い応用力

画面からコードを自動生成
MITライセンスで商用利用可

中国のAIスタートアップZhipu AIは2025年12月8日、視覚言語モデル「GLM-4.6V」シリーズを公開しました。画像をテキスト変換せず直接ツールで処理するネイティブ機能を搭載し、MITライセンスにより商用利用も完全に自由です。

最大の特徴は、視覚情報を直接ツールの引数として渡せる点です。従来必要だった「画像からテキストへの変換」という中間プロセスを排除することで情報の損失を防ぎ、画像の切り抜きや検索といった高度な自動化を効率的に実行できます。

ラインナップは、複雑な推論に強い1060億パラメータの「106B」と、低遅延な90億パラメータの「Flash」の2種です。特にFlash版は利用料が無料であり、エッジデバイスやリアルタイム処理が必要なアプリ開発に最適です。

開発現場での実用性も高く、UIのスクリーンショットからピクセル単位で正確なHTMLやCSSを生成できます。12万8000トークンの長大なコンテキストに対応し、長時間の動画解析や大量のドキュメント処理も一度の推論で完結します。

本モデルはOpenAIGPT-4Vなどと競合する性能を持ちながら、オープンソースとして公開されました。自社インフラでの運用やコンプライアンス順守が求められる企業にとって、柔軟かつ低コストAI導入の有力な選択肢となるでしょう。

Meta新AIが動画で物理法則を習得、汎用ロボットへの道

「ピクセル」から「意味」の学習へ

従来のAIは細部に囚われ非効率
潜在表現で本質のみを学習
不要な情報を捨て効率的に処理

物理的直感と「驚き」の獲得

物理法則に反する現象を検知
テストで98%の高精度を記録
幼児のような物体恒常性を習得

ロボティクスへの展開と課題

少量データでロボット動作を計画
記憶保持時間の短さが課題

Metaが開発した新AIモデル「V-JEPA」は、動画視聴のみで物理世界の法則を直感的に理解します。従来のAIが苦手としたノイズ処理を克服し、自律型ロボットなどへの応用が期待される画期的な技術です。幼児が経験を通じて世界を学ぶように成長する、その革新的な学習メカニズムと、実用化に向けた今後の展望を解説します。

従来のAIはピクセル単位の処理により、背景の些細な動きなど本質的でない情報に惑わされがちでした。対してV-JEPAは、映像を抽象化した潜在表現を用いることで、重要な情報のみを効率的に抽出する仕組みを採用し、この課題を克服しています。

具体的には、映像の一部を隠し、その欠損部分の「意味」を予測させることで学習を進めます。単なる画素の復元ではなく、文脈や物体の動きといった高次元の情報を捉える訓練を行うため、より人間に近い形での状況理解が可能になります。

その実力は「IntPhys」と呼ばれる物理的直感テストで証明されました。重力や物体の永続性に反する映像を見せると、AIは予測エラーという形で驚きを示し、その正答率は約98%に達しました。これは幼児が世界を学ぶプロセスに酷似しています。

最新版の「V-JEPA 2」は、わずか60時間分のデータでロボットの動作計画を学習するなど、実用化に向け進歩しています。一方で、記憶できる時間が短く「金魚並み」であるといった課題も残されており、長期的な因果関係の理解が次の技術的焦点です。

Google「Gemini 3」発表:視覚推論と自律エージェントで生産性革命

行動するAIへの進化

マルチモーダル理解とAgentic機能が大幅強化
自然言語でアプリを生成するVibe Codingを実現
検索結果で動的ツールを作成するAI Mode

視覚・空間認識の飛躍

Gemini 3 Pro Visionが文書や画面を精密に構造化
動画の因果関係を理解しピクセル単位の操作が可能
医療・法務・教育など専門分野での応用深化

新開発基盤とエコシステム

ツールを横断して自律遂行するGoogle Antigravity
Nano Banana Pro画像生成もプロ品質へ
GoogleマップやAndroid Autoへも全面展開

Googleは12月5日、次世代AIモデル「Gemini 3」およびエージェント開発プラットフォーム「Google Antigravity」を発表しました。新モデルは、テキスト・画像動画・コードを統合的に理解するマルチモーダル性能で世界最高峰を記録。特に「視覚・空間推論」能力の飛躍的な向上と、自律的にタスクを遂行する「Agentic(エージェンティック)」な機能強化が特徴です。ビジネスの現場における自動化と生産性の定義を塗り替える可能性があります。

Gemini 3の最大の特徴は、ユーザーの意図を汲み取り、複雑な工程を自律的に実行する能力です。これを象徴するのが「Vibe Coding」と呼ばれる開発体験です。自然言語の指示だけで、インタラクティブなWeb UIやツールを即座に生成・実行します。Google検索に統合された「AI Mode」では、検索クエリに応じて動的にローン計算機や科学シミュレーションを作成し、ユーザーに提示します。単に情報を返すだけでなく、「使える道具」をその場で作り出す点が画期的です。

同時に発表された「Gemini 3 Pro Vision」は、AIの「眼」を再定義します。従来のOCR(文字認識)を超え、複雑な文書、手書きのメモ、グラフを構造化されたコード(HTMLやLaTeX)に復元する「Derendering」機能を搭載しました。さらに、PCやスマホの画面上のUIを正確に理解して操作する能力や、1秒間に10フレーム以上の動画を処理してゴルフスイングの微細な動きや因果関係を分析する能力も備えています。これにより、医療画像の診断支援や法務文書の分析、ソフトウェアのQAテストなど、高度な専門業務の自動化が加速します。

開発者向けには、新たなエージェント開発プラットフォーム「Google Antigravity」が登場しました。これは、エディタ、ターミナル、ブラウザを横断して動作するインテリジェントなエージェントを構築・管理するための基盤です。AIが単なるコード補完ツールから、現実世界で機能するコードを生成し、自律的にデバッグデプロイを行う「パートナー」へと進化します。Google AI Proなどのサブスクリプションで優先アクセスが提供され、エンジニア生産性を劇的に高めることが期待されます。

クリエイティブ領域では、Gemini 3をベースにした画像生成モデル「Nano Banana Pro」が、インフォグラフィックやスタジオ品質のビジュアル生成を実現しました。また、GoogleマップやAndroid AutoへのGemini統合も進み、運転中のナビゲーションやタスク処理が対話形式で完結するようになります。Googleはテキサス州への400億ドルのインフラ投資を含め、AIエコシステムの拡大を全方位で推進しており、ビジネスリーダーにとってAI活用の新たなフェーズが始まったと言えるでしょう。

Android 16、AIで通知整理し生産性と安全性を大幅強化

AIが「集中」を守る

長い通知をAIが自動要約
低優先度通知を自動で整理・静音化

セキュリティと詐欺対策

画面囲って詐欺メッセージを判定
不審なグループ招待を警告

OS更新とアクセシビリティ

Geminiカメラ映像を詳細解説
OS更新頻度増で最新機能を即提供
字幕に感情や環境音を表示
補聴器との接続設定を簡素化

Googleは2025年12月2日、Android 16のプレビュー版および12月の機能アップデートを発表しました。今回の更新はPixel端末へ先行配信され、AIを活用した「通知の要約・整理」機能や、高度な「詐欺検知」ツールが目玉です。経営者やリーダーにとって、情報のノイズを減らし、セキュリティリスクを低減する実用的なアップデートといえます。

ビジネスパーソンの生産性を高めるのが、AIによる通知管理機能です。長いチャットやメッセージをAIが瞬時に要約して表示するため、内容を一目で把握できます。また、ニュースや販促などの優先度が低い通知は「Notification Organizer」が自動でグループ化し、通知音を消去。重要な連絡を見逃さず、集中力を維持できる環境を提供します。

セキュリティ面では、検索機能「かこって検索(Circle to Search)」が進化しました。不審なメッセージや画像を受け取った際、その部分を囲むだけでAIが詐欺の可能性を判定します。Web上の情報と照合し、リスクが高い場合は警告と対処法を提示するため、巧妙化するフィッシング詐欺への強力な防御策となります。

アクセシビリティ機能もGeminiモデルの統合により強化されています。カメラアプリの「Guided Frame」は、被写体を単に顔として認識するだけでなく、「黄色いTシャツの少女がソファに座っている」といった詳細な状況説明音声で行います。また、動画の字幕に「喜び」や「悲しみ」といった感情タグを表示する機能も追加され、情報伝達の質が向上しました。

今回のリリースは、Androidの更新サイクル変更を象徴する動きでもあります。従来の年1回の大型更新から、より頻繁なリリースへと移行することで、最新技術やAPIを迅速に市場投入する狙いです。企業はOSの進化に合わせたアプリ対応やセキュリティ対策を、よりアジャイルに進める必要が出てくるでしょう。

MSのPC操作AI「Fara-7B」 端末完結でGPT-4o凌駕

端末完結でGPT-4o超え

70億パラメータの軽量モデルでPC動作
WebVoyagerで勝率73.5%を達成
視覚情報のみでマウス・キー操作

高度なプライバシーと安全設計

データが外部に出ないピクセル主権
重要操作前に停止する安全機構

革新的な学習手法と入手性

合成データによる効率的な学習
MITライセンスで商用利用も可能

マイクロソフトは2025年11月24日、PC操作に特化した新しい小規模言語モデル(SLM)「Fara-7B」を発表しました。わずか70億パラメーターながら、GPT-4oベースのエージェントを凌駕する性能を記録。データが外部に出ないオンデバイス実行を実現し、プライバシー保護と低遅延を両立させています。

最大の特徴は、人間と同じように画面の視覚情報だけを頼りに操作を行う点です。HTMLコード等の裏側情報を必要とせず、スクリーンショットからボタン位置などを認識してマウスやキーボードを操作します。Web操作のベンチマーク「WebVoyager」では、GPT-4o(65.1%)を上回る73.5%のタスク成功率を達成しました。

ビジネス利用で重要なのがセキュリティです。Fara-7Bはローカル環境で動作するため、機密情報がクラウドに送信されるリスクを排除する「ピクセル主権」を確立しています。また、送金やメール送信などの不可逆的な操作の直前には、必ずユーザーの同意を求める「クリティカルポイント」機能が組み込まれています。

開発には「知識の蒸留」という高度な手法が用いられました。マルチエージェントシステム「Magentic-One」が生成した14万件以上の高品質な合成データを学習させることで、小型モデルながら複雑な推論能力を獲得しています。ベースモデルには視覚処理に優れたQwen2.5-VL-7Bが採用されました。

本モデルは現在、Hugging Face等を通じてMITライセンスで公開されており、商用利用を含む試験運用が可能です。Windows 11搭載のCopilot+ PCでも動作確認済みで、企業は自社のセキュリティ要件に合わせたPC操作自動化エージェントの開発を、低コストかつ安全に開始できます。

Google最新AIが「買物代行」を実現、年末の時短を加速

自律型AIによる買物革命

指定予算内でGoogle自動決済を代行
AIが店舗に電話し在庫状況を確認
曖昧な要望から最適ギフトを提案

移動と計画の最適化

マップ上で経由地や駐車場を自然に相談
Gemini 3が視覚的な旅程を作成

管理とクリエイティブ

新モデルNano Bananaで高度画像編集
Gmailで購入品や配送を一元管理

Googleは2025年11月21日、ブラックフライデーやホリデーシーズンに向け、GeminiPixelを活用してタスクを効率化する最新AI機能を発表しました。これらは単なる情報検索の枠を超え、AIがユーザーの代理として購入手続きや店舗への在庫確認を行う「エージェント型」への進化を象徴しており、多忙なビジネスパーソンの生産性を劇的に向上させる可能性を秘めています。

最大の注目点は、AIが実務を代行する「エージェント機能」の実装です。新たに導入されたAgentic Checkoutでは、商品の価格を追跡し、指定した予算を下回った瞬間にGoogleが自動で購入を完了させることが可能です。また、オンライン在庫が不明な商品については、AIが近隣店舗へ直接電話をかけて在庫を確認し、結果を報告してくれるため、商品探しや決済に費やす時間を大幅に削減できます。

移動や計画立案における意思決定支援も強化されました。GoogleマップにはGeminiが統合され、助手席の友人のように「途中で花を買える場所は?」「目的地の駐車場は?」といった質問に即答します。さらに、最新のGemini 3モデルを活用した旅行計画機能では、対話を通じて視覚的でインタラクティブな旅程表を生成できるため、複雑なスケジューリングが瞬時に完了します。

クリエイティブと情報管理の面でも進化が見られます。画像生成・編集モデルNano Banana Proを使えば、写真の角度変更や照明調整、集合写真の表情修正などがプロレベルで行えます。また、Gmailには購入履歴や配送状況を一元管理するタブが新設され、スプレッドシートでの予算管理機能と合わせ、年末の煩雑な事務作業をスマートに処理できるようになります。

Google、インドでAI詐欺対策強化も機種と言語に課題

AIによる通話詐欺検知

Gemini Nanoで解析
Pixel 9以降かつ英語のみ

画面共有の悪用防止

金融アプリ利用時に警告
ワンタップで共有停止

普及への高いハードル

Pixelシェア1%未満
偽アプリ根絶に至らず

Googleは20日、インドにおけるデジタル詐欺対策として、AIを活用した新たな保護機能を発表しました。Pixel 9シリーズ向けのリアルタイム詐欺検出や、主要な金融アプリでの画面共有警告などが導入されます。インドではデジタル決済の普及に伴い詐欺被害が急増しており、2025年だけで数億ドル規模の損失が発生している深刻な状況に対応する狙いです。

目玉となるのは、同社の軽量AIモデルGemini Nanoを活用した通話分析機能です。デバイス上で処理が完結するため、通話内容がGoogleのサーバーに送信されることはありません。未知の番号からの通話中に詐欺の兆候を検知すると、ユーザーに警告音と通知で知らせる仕組みですが、現状は英語のみの対応となっています。

この機能の普及には大きな壁が存在します。インドのスマートフォン市場でAndroidは96%を占めますが、対応するPixel端末のシェアは1%未満に過ぎません。また、多言語国家であるインドにおいて、英語話者のみを対象とした機能展開では、最も脆弱な層を保護しきれないという指摘もあります。

一方で、より広範なユーザーに向けた対策も講じられています。PaytmやGoogle Payなどの金融アプリと連携し、通話中に画面共有を求められた際に警告を表示する機能を試験導入しました。詐欺師がワンタイムパスワード等を盗み見る手口を防ぐもので、こちらは将来的にインドの現地言語にも対応する予定です。

Googleは他にも、サイドローディングによる危険なアプリのインストールを1億回以上ブロックするなど対策を強化しています。しかし、公式ストアであるGoogle Play上でも依然として偽アプリが散見されるなど、巨大なエコシステムの健全化には依然として課題が残されています。

MIT、人間のようにCAD操るAI開発 スケッチから3D生成

独自データで操作学習

4万件超のVideoCAD構築
UI操作を詳細に学習
2Dから3Dへ自動変換
クリック単位で模倣

設計プロセスの革新

CADコパイロットへの道
初心者の参入障壁低下
NeurIPSで発表予定

MITの研究チームは、人間のようにCADソフトウェアを操作し、2Dスケッチから3Dモデルを作成するAIエージェントを開発しました。4万1000件以上の操作手順を含む独自データセット「VideoCAD」を活用し、ボタン操作やマウス移動まで詳細に学習させています。

従来のAIは高レベルなコマンド指示に留まりがちでしたが、本システムは具体的なUI操作まで理解します。「線を引く」という指示を、特定のピクセル位置へのカーソル移動やクリック動作に変換し、実用的な操作を自律的に実行可能です。

研究チームは、このAIを設計者の「コパイロット」として機能させることを目指しています。退屈な反復作業を自動化することで、熟練エンジニア生産性を高めるだけでなく、初心者がCADを習得するハードルを大幅に下げることが期待されます。

この成果は12月のNeurIPS会議で発表される予定です。将来的には、さらに複雑な形状や複数のCADシステムに対応できるよう学習を進め、製造業や建築業など幅広い分野での設計プロセス革新に貢献する見込みです。

Google、AI天気予報を刷新 8倍高速・高精度化

性能が飛躍的に向上

予測生成が8倍高速化
TPU1分未満の予測完了
最大15日先、1時間単位の予報
新技術で複数シナリオを生成

ビジネス・研究利用を加速

Google主要サービスに順次統合
エネルギーや物流業界などへ提供
Vertex AIで早期アクセス開始
研究者向けに予測データも公開

Googleは2025年11月17日、AIを活用した最新の天気予報モデル「WeatherNext 2」を発表しました。この新モデルは、従来比で予測生成速度が8倍に向上し、精度も大幅に改善されています。Google検索Pixelスマートフォンなどの自社製品に統合されるほか、企業向けにも提供が開始され、AIによる気象予測が本格的な実用段階に入ります。

「WeatherNext 2」の最大の特徴は、その圧倒的な処理速度と精度です。GoogleTPUチップ1つで1分未満に予測を完了でき、これは従来の物理ベースモデルがスーパーコンピュータで数時間を要した処理に相当します。気温や風速など、観測される変数の99.9%において、既存の最先端モデルを上回る精度を達成しています。

この飛躍的な性能向上を支えるのが、「Functional Generative Network (FGN)」と呼ばれる新しいAIモデリング手法です。モデルに意図的に「ノイズ」を注入することで、単一の入力から物理的に矛盾のない数百通りの予測シナリオを一度に生成できます。これにより、起こりうる最悪のケースなども含めた、より網羅的な気象予測が可能になりました。

Googleは「WeatherNext 2」を、検索GeminiPixelGoogleマップといった主要サービスに順次統合し、一般ユーザーの利便性を高めます。さらに、エネルギー、農業、運輸、物流といった気象情報が事業に直結する業界向けにも、高解像度な1時間単位の予測を提供し、企業の精密な意思決定を支援します。

企業や開発者向けには、Google CloudのVertex AIプラットフォーム上で早期アクセスプログラムを開始。Earth EngineやBigQueryといったサービスを通じて予測データも公開します。これは、AI天気予報が「研究室から実世界へ」移行したことを示す象徴的な動きであり、今後、様々な産業での活用が期待されます。

Pixel大型更新、AIが通知要約し生産性を劇的改善

AIで業務効率を最大化

長文会話をAIが自動で要約
通話内容を自動で文字起こし・要約
AIが詐欺の可能性をチャットで警告
重要連絡先(VIP)の通知を自動で優先

Geminiで創造性を解放

メッセージ内で写真をAIが再構成
集合写真の表情や装飾をAIが修正

利便性と安全性の向上

詐欺電話検知を多国で展開
マップに電力モードを追加

Googleは2025年11月、同社のスマートフォン「Pixel」シリーズ向けに、AI機能を大幅に強化するソフトウェアアップデート「Pixel Drop」を発表しました。AIモデルGeminiを活用し、通知の自動要約や高度な詐欺検知、写真編集など多岐にわたる新機能を提供。ビジネスユーザーの生産性向上とセキュリティ強化を両立させるアップデートとなっています。

今回のアップデートの目玉は、AIによる通知の自動要約機能です。長文のメッセージや活発なグループチャットの内容を通知画面で簡潔にまとめてくれるため、重要な情報を素早く把握できます。情報過多になりがちな現代において、ビジネスパーソンが集中力を維持し、効率的にコミュニケーションを取る上で強力なツールとなるでしょう。

セキュリティ面も大幅に強化されました。チャットメッセージの通知段階で、AIが詐欺の可能性を検知し「Likely scam」と警告を表示する新機能を追加。従来の通話中の詐欺検知機能も、イギリスやカナダなど提供地域を拡大し、巧妙化するオンライン詐欺からユーザーを保護する体制をグローバルに広げています。

Googleの最新AIモデルGemini Nanoオンデバイスで活用される点も注目です。メッセージアプリ内で写真を再構成する「Remix」機能や、通話内容を文字起こし・要約する「Call Notes」機能(日本でも利用可能に)が実装され、創造性と業務効率の両面でAIの力をより身近に体感できるようになりました。

Googleフォトでは、AIによる写真編集機能がさらに進化。「Help me edit」機能を使えば、「サングラスを外して」「笑顔にして」といった自然言語の指示で、集合写真の細部を簡単に修正できます。個人の写真ライブラリから最適な画像を基に編集するため、極めて自然な仕上がりが特徴です。

このほか、重要な連絡先からの通知を優先するVIP機能の強化や、Googleマップ運転中のバッテリー消費を抑える省電力モードも追加されました。今回のアップデートは、AIをあらゆる場面で活用し、ユーザー体験を向上させるGoogleの強い意志を示すものと言えます。

Google、新AI基盤でプライバシーと高性能を両立

プライバシーとAI性能の両立

高度なAI処理をクラウドで実現
AppleのPCCに類似した仕組み

堅牢なセキュリティ技術

専用チップTPUで処理を高速化
技術TEEでデータを隔離・暗号化
Googleさえアクセス不可能な設計

身近な機能の高度化

Pixel 10の新機能「Magic Cue」強化
Recorderアプリの多言語要約

Googleは11日、ユーザーデータのプライバシーを保護しながら、クラウド上で高度なAIモデル「Gemini」を実行できる新基盤「Private AI Compute」を発表しました。オンデバイス処理と同等のセキュリティを保ちつつ、より複雑なAIタスクを可能にします。これはAppleの「Private Cloud Compute」に追随する動きです。

AI機能が高度化するにつれ、スマートフォンなどのデバイス上での処理には計算能力の限界が見えてきました。そこでGoogleは、プライバシーを保護したままクラウドの膨大な計算資源を活用するハイブリッドなアプローチとして、この新基盤を開発しました。利便性と安全性の両立を目指します。

新基盤の中核は、Google独自のAIチップTPU(Tensor Processing Units)と、データを隔離・暗号化するTEE(信頼できる実行環境)です。これにより、ユーザーデータはクラウド上で処理される際にも保護され、Google自身でさえ内容を閲覧することは不可能だと説明しています。

この動きは、Appleが先に発表した「Private Cloud Compute」と酷似しており、大手IT企業間でAIのプライバシー保護が重要な競争軸となっていることを示しています。ユーザーは、利便性とプライバシーの両方を高いレベルで享受できる時代を迎えつつあるのではないでしょうか。

具体的な応用例として、次期スマートフォン「Pixel 10」に搭載されるAI機能「Magic Cue」の提案精度が向上するほか、録音アプリ「Recorder」での文字起こし要約がより多くの言語で利用可能になります。身近な機能がより賢く、便利になることが期待されます。

Googleは、このシステムの安全性を客観的に示すため、セキュリティ企業NCC Groupによる独立した分析を受けたことも公表しています。厳格なプライバシーガイドラインを満たしていることが確認されており、技術的な透明性の確保に努める姿勢を見せています。

今回の発表は始まりに過ぎないとGoogleは述べています。今後、オンデバイスクラウドの長所を融合させたプライベートAI技術が、検索Gmailなど、より広範なサービスに展開される可能性があります。企業のAI活用においても重要な選択肢となるでしょう。

Pixel 10 Pro、AI支援でカメラ性能が飛躍的向上

AIによる撮影支援

Gemini搭載AIコーチが助言
最適な構図やモードを自動提案

プロ級の描写力

50MPポートレートモード搭載
最大100倍のPro Res Zoom
遠くの被写体も鮮明に描写

暗所でも鮮明な撮影

夜景を捉えるナイトサイト機能
長時間露光で幻想的な一枚も可能

Googleは2025年10月31日、メキシコシティで開催された「死者の日」の祭りで撮影した写真を公開し、新型スマートフォン「Pixel 10 Pro」のカメラ性能を披露しました。最大の特長は、AIが撮影を支援する新機能です。これにより、専門的な知識がなくても誰でも簡単にプロ並みの写真を撮影できる可能性が示されました。

注目すべきは、AIモデル「Gemini」を搭載した「カメラコーチ」機能です。これは、ユーザーがカメラを構えると、AIが構図やアングル、最適なカメラモードなどをリアルタイムで提案するものです。AIが人間のクリエイティビティを拡張する好例と言えるでしょう。

描写力も大幅に進化しました。更新されたポートレートモードは50メガピクセルでの撮影に対応し、被写体の細かなディテールまで驚くほど鮮明に捉えます。さらに、「Pro Res Zoom」機能により、最大100倍まで劣化を抑えてズームでき、遠くの被写体もクリアに撮影可能です。

Pixelシリーズの強みである夜間撮影も健在です。進化した「ナイトサイト」機能は、光の少ない夜の祭りでも、被写体を明るく色鮮やかに捉えました。長時間露光といった機能も備え、多様な撮影シーンでその実力を発揮します。

Pixel 10 Proの進化は、単なるスペック向上に留まりません。AIを活用してユーザー体験そのものを向上させ、「誰もがクリエイターになれる」という思想を具現化しています。これは、AIを自社製品やサービスにどう組み込むかを考える経営者エンジニアにとって、示唆に富む事例ではないでしょうか。

Pixel Watch 4、手首を上げてGeminiを起動

新機能「Raise to Talk」

Pixel Watch 4向け新機能
手首を口元に近づけ会話開始
「Hey Google」不要の操作
Geminiへのシームレスなアクセス

設定と使い方

初期設定ではオフ
時計本体やアプリから有効化
作動中は画面下部の青いライト点灯
数インチの距離で認識

グーグルは2025年10月29日、新型スマートウォッチ「Pixel Watch 4」向けに、AIアシスタントGemini」をハンズフリーで利用できる新機能「Raise to Talk」を発表しました。この機能により、ユーザーは手首を口元に近づけるだけでGeminiを起動でき、「Hey Google」といったウェイクワード(起動ワード)を言う必要がなくなります。日常の様々な場面で、より直感的かつシームレスなAI体験を提供することが狙いです。

「Raise to Talk」の使い方は非常にシンプルです。機能を有効にした後、時計を装着した手首を口元から数インチ(数センチ)の距離まで上げるだけで、Geminiが即座に起動します。従来のようにボタンを押したり、特定のフレーズを唱えたりする必要はありません。これにより、手がふさがっている状況や、素早く情報を得たい場面での利便性が格段に向上します。

ユーザーが安心して利用できるよう、細やかな配慮もなされています。Geminiがユーザーの言葉を聞き取っている間、時計のディスプレイ下部には青いライトが微かに点滅します。これにより、意図せずAIが起動していないか、あるいは正しく作動しているかを視覚的に確認できます。プライバシーと操作性の両立を目指した設計と言えるでしょう。

この便利な機能ですが、初期設定ではオフになっています。利用するには、ユーザー自身による設定が必要です。設定は、スマートフォンの「Pixel Watch」アプリ、またはPixel Watch 4本体の設定画面から簡単に行うことができます。プライバシーへの配慮から、ユーザーが意図して有効化する「オプトイン方式」を採用しています。

「Raise to Talk」は、ウェアラブルデバイスにおけるAI活用の新たな一歩を示すものです。日常の動作にAIアシスタントを自然に統合することで、生産性向上や情報アクセスの高速化が期待されます。テクノロジーリーダーにとって、このような直感的なインターフェースの進化は、自社のサービスや製品開発を考える上で重要な示唆を与えてくれるのではないでしょうか。

Adobe、画像・音声生成AIを全方位で強化

Fireflyが大幅進化

新モデルFirefly Image 5登場
プロンプトレイヤー編集が可能に
独自スタイルでカスタムモデル作成

AIアシスタント登場

PhotoshopとExpressに搭載
自然言語で複雑な編集を自動化
複数アプリを統括するMoonlight

音声・動画生成も強化

動画に合わせたBGMを自動生成
テキストから高品質なナレーション生成

アドビは2025年10月28日、年次カンファレンス「Adobe Max 2025」で、生成AI機能群の大幅なアップデートを発表しました。中核となる画像生成AI「Firefly」の新モデルや、Photoshopなどに搭載されるAIアシスタント、BGMやナレーションを自動生成する音声ツールを公開。クリエイティブ制作の生産性と表現力を飛躍的に高めることを目指します。

画像生成AIの最新版「Firefly Image 5」は、性能が大きく向上しました。ネイティブで最大4メガピクセルの高解像度画像に対応するほか、オブジェクトを個別に認識しプロンプトで編集できるレイヤー機能を搭載。クリエイター自身の作品を学習させ、独自の画風を持つカスタムモデルを作成することも可能になります。

「Photoshop」と「Express」には、新たにAIアシスタントが導入されます。これにより、ユーザーは「背景を削除して」といった自然言語の指示で、複雑な編集作業を自動化できます。専門的なツール操作を覚える必要がなくなり、あらゆるスキルレベルのユーザーが、より直感的にアイデアを形にできるようになるでしょう。

動画制作者にとって画期的な音声生成機能も追加されました。「Generate Soundtrack」はアップロードされた動画の内容を解析し、最適なBGMを自動生成します。「Generate Speech」はテキストから自然なナレーションを作成。これらは商用利用も可能で、コンテンツ制作の効率を劇的に改善します。

将来構想として、複数アプリを統括するAIエージェント「Project Moonlight」も発表。このAIはCreative CloudやSNSアカウントと連携し、ユーザーの作風やブランド戦略を学習。一貫性のあるコンテンツの企画から制作、投稿戦略の立案までを支援する、まさに「クリエイティブディレクター」のような役割を担います。

アドビは自社モデルだけでなく、GoogleGeminiなどサードパーティ製AIモデルの採用も進めています。今回の発表は、クリエイティブの全工程にAIを深く統合し、制作プロセスそのものを変革しようとする同社の強い意志を示すものです。クリエイター生産性向上と、新たな表現の可能性が大きく広がりそうです。

Pixel Watch 4の新機能、AIでスマホから解放

手首を上げるだけのAI起動

Hey Google不要音声操作
ハンズフリーで即座にタスク実行
移動中や運動中でもシームレス連携

気の利くパーソナルアシスタント

アイデアや情報を音声でメモ
メールや地図と連携し状況を把握
個人情報を記憶させタスクを自動化
カレンダー登録やリマインダー設定

Googleは、最新スマートウォッチ「Pixel Watch 4」に搭載されたAI「Gemini」の活用事例を公開しました。新機能「Raise to Talk」は、手首を上げて話すだけでAIを起動でき、スマートフォンを取り出すことなく、スケジュール管理や情報検索、メッセージ送信などをシームレスに実行します。多忙なビジネスパーソンが、いかにしてAIを日常業務に取り入れ、生産性を向上させられるかを示す好例と言えるでしょう。

新機能の最大の特長は、「Hey Google」というウェイクワードが不要な点です。ユーザーはただ手首を口元に近づけて話すだけで、即座にGeminiとの対話を開始できます。これにより、会議中や移動中、両手がふさがっている状況でも、思考を中断することなくタスクを実行したり、アイデアをメモしたりすることが可能になります。まさに「思考の速度で動くAI」と言えるでしょう。

記事では、交通渋滞に巻き込まれた際に、Geminiがメールから目的地の住所を検索し、Googleマップの交通情報と連携して到着予定時刻をリアルタイムで算出した事例が紹介されています。さらに、遅刻を伝えるメッセージの作成・送信までを音声操作だけで完結。このような機能は、分刻みで動くビジネスパーソンの強力な武器となり得ます。

Geminiは、ユーザーの個人的な情報や好みを記憶する「パーソナルコンテキスト」機能を活用します。ホテルの部屋番号のような一時的な情報を記憶させたり、「お気に入りのバレエダンサーが出演する公演をカレンダーに登録して」といった曖昧な指示を理解し、実行することが可能です。パーソナライズが進むことで、より一層、気の利く秘書のような存在になります。

Pixel Watch 4とGeminiの組み合わせが示すのは、「スマートフォンからの解放」という新しいワークスタイルです。情報を得るため、あるいはタスクをこなすために、いちいちデバイスを手に取る必要がなくなるのです。ウェアラブルデバイスが真のパーソナルアシスタントとして機能する未来が、すぐそこまで来ていることを感じさせます。

Google Pixel 10、AIで一歩先の体験を

AIが写真・動画を強化

AIが全員のベストショットを合成
撮影者をAIが自動で写真に追加
AIコーチが最適な構図を提案
Gemini画像動画を自在に生成

日常を便利にする新機能

AIが録音に最適なBGMを自動生成
日の出を再現する目覚まし機能
思い出の写真でウォッチを彩る

Googleは2025年10月17日、「Pixel 10」シリーズ向けにAIを活用した新機能を発表しました。写真撮影や音声編集、日常生活の利便性を向上させる6つの機能が、ハロウィンの活用例と共に紹介されています。ユーザーの創造性を刺激し、体験を豊かにすることを目指します。

特に注目されるのが生成AIによる写真・動画編集機能です。Geminiで既存写真を動画に変換したり、AIが表情を合成して全員が笑顔の集合写真を作る「Auto Best Take」など、専門スキルなしで高品質なコンテンツ制作が可能になります。

撮影プロセスそのものもAIが支援します。「Camera Coach」機能は、被写体や目的に応じて最適な構図や設定を提案。また、撮影者自身を集合写真に自然に追加する「Add Me」機能など、誰もが簡単にプロ並みの写真を撮れるようサポートする機能が充実しています。

AIの活用は音声分野にも及びます。標準搭載の「レコーダー」アプリでは、録音した音声AIがムードに合わせたBGMを自動生成して追加できるようになりました。これにより、音声メモや簡単なポッドキャスト制作のハードルが大きく下がることが期待されます。

日常生活に溶け込む機能も強化されています。「Pixel Watch」では、Googleフォトからお気に入りの写真を最大30枚選び、文字盤として表示可能に。また、日の出のように画面が徐々に明るくなる「Sunrise Alarm」は、体内リズムを整えるのに役立ちます。

今回発表された新機能群は、GoogleがAI技術をデバイスに深く統合し、ユーザーの日常的なタスクや創造的活動をシームレスに支援する方向性を明確に示しています。単なる機能追加に留まらず、AIがいかに生活を豊かにできるかを示す好例と言えるでしょう。

Google Play、ゲームで顧客エンゲージメント強化

人気ミニゲームが復活

ダイヤモンド集めで景品獲得
ゲーム内ゲームでボーナス
チームでの挑戦も可能に
ゴールド会員は先行アクセス

実物景品とグローバル展開

Pixel Watchなど豪華景品
ポイントボーナスも提供
10月23日から米国で一般公開
英国ブラジルにも初展開

Googleは10月16日、Google Playの人気ミニゲーム「Diamond Valley」の復活を発表しました。ユーザーはゲーム内でダイヤモンドを集めることで、Google Pixel Watchなどの実物景品やポイントボーナスを獲得できます。この施策は、ゲーム要素(ゲーミフィケーション)を通じてプラットフォーム上のユーザーエンゲージメントとロイヤルティを高めることが狙いです。

今回の復活にあたり、ゲームは大幅にアップデートされました。改善されたゲームプレイや新しいクエストに加え、ボーナスダイヤモンドを獲得できるゲーム内ゲーム「Diamond Hero」を導入。さらに、チームを結成して課題に挑むソーシャル機能も追加され、ユーザー間の交流を促す設計となっています。

景品の魅力もエンゲージメントを高める重要な要素です。目玉となるのは、Google Pixel Watchや最新のゲーミング機器といった物理的な賞品です。これらに加え、Google Playポイントのボーナスも用意されており、ゲームへの参加がプラットフォーム内での消費に直接つながるエコシステムを強化しています。

提供スケジュールは、ユーザー層に応じて段階的に設定されています。ゴールド会員以上は10月22日まで先行アクセスが可能で、特典としてボーナスダイヤモンドや限定コンテンツが与えられます。米国での一般公開は10月23日から11月9日まで。この階層的アプローチは、優良顧客を優遇し、特別感を醸成するマーケティング戦略の一環です。

さらに特筆すべきは、グローバル展開です。今回初めて米国市場に加え、11月には英国ブラジルでも展開されます。これは、このエンゲージメントモデルの有効性に対するGoogleの自信の表れであり、主要な国際市場で同様の戦略を試す重要な一歩と言えるでしょう。

Google新イヤホン、AI連携とANCで体験を刷新

AIとANCで進化

Aシリーズ初のANC搭載
ハンズフリーでGeminiを起動

操作性と音質を最適化

左右のタッチ操作を個別設定
イコライザーで音質を微調整
プリセットやカスタム保存も可能

複数端末との連携

2台同時接続のマルチポイント
PCとスマホ間を自動で切り替え

Googleは2025年10月15日、新型ワイヤレスイヤホン「Pixel Buds 2a」の多彩なカスタマイズ機能を公開しました。Tensor AIを搭載した本製品は、Aシリーズで初めてアクティブノイズキャンセリング(ANC)を搭載し、AIアシスタントGemini」へのハンズフリーアクセスも可能です。ユーザーが自身の使い方に合わせて体験を最適化できる設定方法が紹介されており、ビジネスパーソンの生産性向上に貢献します。

最大の注目点は、Aシリーズ初となるANC機能です。これにより、騒がしい環境でも集中して作業や通話に臨めます。また、イヤホンをタッチするだけでAIアシスタントGemini」を呼び出せ、スマホを取り出さずに音声でタスクを完結できるのは大きな利点と言えるでしょう。

操作性もユーザーに合わせて最適化できます。左右のイヤホンの「長押し」操作に、それぞれ異なる機能を割り当てることが可能です。例えば、右耳でANCをオンにし、左耳でGeminiを起動するといった設定ができます。使用頻度の高い機能を直感的かつ素早く呼び出せるようになります。

音質へのこだわりも満たせます。専用アプリのイコライザー機能を使えば、低音や高音のバランスを自由に調整可能です。「ボーカルブースト」などの便利なプリセットも用意されており、音楽鑑賞からウェブ会議まで、用途に応じた最適なサウンドを手軽に設定できる点も魅力です。

複数のデバイスを使いこなす現代のビジネスパーソンにとって、マルチポイント接続は欠かせない機能でしょう。PCとスマートフォンなど2台の端末に同時接続し、音声ソースを自動で切り替えます。PCでの作業中にスマホへ着信があっても、イヤホンはシームレスに通話へ移行し、デバイス間の手間を省きます。

このように「Pixel Buds 2a」は、高度なカスタマイズ性によってユーザー一人ひとりの使い方に寄り添います。AI、ANC、そしてシームレスな接続性を組み合わせることで、仕事の生産性向上から日々の楽しみまで、幅広いシーンで活躍する強力なパートナーとなりそうです。

Google、製品修理を推進 国際デー記念で割引も

修理権への取り組み強化

修理しやすい製品設計を推進
専門家を招き教育イベント開催
消費者による自己修理の選択肢提供

Pixel製品の修理性向上

Pixel Watch 4の修理性改善
Buds 2aはバッテリー交換可能に

国際修理デー記念特典

保証外修理を先着10名50%割引
電子廃棄物の削減への貢献

Googleは2025年10月15日、「国際修理デー」を記念し、自社製品の修理しやすさを向上させる取り組みを強化すると発表しました。ニューヨークで修理に関する教育イベントを開催するほか、Pixel製品の保証期間外修理を割引価格で提供するキャンペーンを実施します。消費者がデバイスをより長く使えるようにすることで、電子廃棄物の削減を目指します。

なぜ今、修理なのでしょうか。Googleは、製品を長く使い続けることが利用者の経済的利益になるだけでなく、地球環境にとっても重要だと考えています。専門業者による修理はもちろん、利用者が自ら修理する選択肢を持つべきだという「修理する権利」の考え方を支持し、それを製品設計に反映させています。

同社は長年にわたり、製品の設計プロセスそのものを見直してきました。その結果、今年になってPixelシリーズ全体を対象とした修理エコシステムを初めて構築。設計段階から長寿命化を意図することで、具体的な改善が製品に反映され始めています。

例えば、最新の「Pixel Watch 4」は従来モデルより修理しやすい構造になりました。また、「Pixel Buds 2a」の充電ケースはバッテリー交換が可能です。こうした具体的な改善は、10月16日に開催されるイベントでも詳しく語られる予定で、業界全体の進歩を促す狙いもあります。

国際修理デーの当日である10月18日には、特別なキャンペーンも実施されます。各Googleストアで、保証期間外の修理を依頼した先着10名に50%の割引を提供。バッテリー交換や画面修理などを通じて、愛用するデバイスの寿命を延ばす絶好の機会となりそうです。

写真1枚で場所特定、高速・省メモリAIが登場

高速・省メモリの秘密

地上の写真と航空写真を照合
画像ハッシュ値という数値列に変換
ピクセル比較せず特徴で照合
従来比で速度2倍以上、メモリ1/3以下

期待される応用分野

GPS代替のナビゲーションシステム
メタデータがない画像の場所特定
防衛・諜報分野での活用
災害時の緊急対応など

中国石油大学の研究チームが、地上の写真1枚から撮影場所を高速かつ正確に特定する新しいAIモデルを開発しました。ディープ・クロスビュー・ハッシングと呼ばれる技術を用い、従来モデル比で速度を2倍以上、メモリ使用量を3分の1以下に削減。高精度を維持しつつ、ナビゲーションや防衛分野での活用が期待されます。

この技術の鍵は、画像ピクセル単位で比較しない点にあります。AIは地上写真と航空写真の両方から、建物の形や配置といった本質的な特徴(ランドマーク)を抽出。それらを「ハッシュ」と呼ばれる固有の短い数値列に変換します。この「画像の指紋」とも言える数値を照合することで、膨大なデータからでも瞬時に候補を絞り込めるのです。

性能面でも目覚ましい成果を上げています。最適な条件下では候補地の絞り込みに最大97%の確率で成功し、最終的な位置特定の正答率も82%に達します。これは既存の高性能モデルに匹敵する精度です。処理速度は競合モデルの約4倍、メモリ使用量も35MBと極めて効率的です。

この高速・省メモリという特性は、多様な応用を可能にします。例えば、自動運転車でGPSが途絶えた際のバックアップ航法システムや、メタデータのない写真を分析する防衛・諜報活動、災害時の迅速な状況把握といった緊急対応など、その可能性は多岐にわたります。

一方で、実用化には課題も残ります。季節の変化による景観の違いや、雲などによる画像の遮蔽といった実環境のノイズにどこまで対応できるかは、今後の大規模な実証実験で検証される必要があります。研究チームは、より多様な地域の画像データを用いることで、これらの課題を克服できるとしています。

Pixel Watch 4登場、AI搭載と修理しやすさで進化

利便性を高める新機能

交換可能なバッテリーとディスプレイ
緊急時の衛星通信にも対応
高速な磁気式充電ドック

デザインと体験の向上

最大3000ニトの高輝度ディスプレイ
好みに合わせるカラーテーマ機能
水泳など50種の運動を自動検出
腕を上げるだけで起動する音声操作

Googleが2025年10月10日、新型スマートウォッチ「Pixel Watch 4」を発表しました。最大の特徴は、AIアシスタントGemini」の統合と、ユーザー自身で交換可能なバッテリーおよびディスプレイです。緊急時の衛星通信機能も新たに搭載し、利便性と安全性を大幅に向上。デザインの刷新とヘルスケア機能の強化も図り、スマートウォッチ市場での競争力を高めます。

ビジネスパーソンにとって注目すべきは、手首から直接AI「Geminiを利用できる点でしょう。スマートフォンを取り出すことなく、腕を上げるだけで天気予報の確認やタイマー設定が可能になる「raise-to-talk」機能を搭載。会議中や移動中など、両手がふさがりがちな状況でも、スマートに情報を引き出し、タスクをこなせます。

Pixel Watch 4は、バッテリーとディスプレイを交換可能にすることで、製品寿命の長期化を実現しました。これは「修理する権利」への配慮であり、サステナビリティを重視する現代の消費者ニーズに応える動きです。デバイスを長く愛用できることは、結果的にコストパフォーマンスの向上にも繋がります。

ディスプレイは、屋外での視認性が劇的に改善されました。周囲の明るさに応じて輝度を自動調整し、最大3000ニトの明るさを実現。サングラスをかけていても、ランニングのペースや通知をはっきりと確認できます。また、好みの配色を選べるカラーテーマ機能により、自分だけのスタイルを表現することも可能です。

新開発の磁気式充電ドックは、利便性を大きく高めています。ウォッチを置くだけで定位置に吸着し、充電中は時刻を表示するナイトスタンドモードとしても機能。わずか15分の充電で朝のランニングに必要な電力を確保できる急速充電も魅力です。41mmモデルで最大30時間のバッテリー持続時間を誇ります。

フィットネス機能も進化しました。ランニングやウォーキングなどのアクティビティを自動で検出し記録する機能や、水泳中に自動で画面をロックする機能を搭載。プールでの指標もカスタマイズでき、より詳細なデータ管理が可能になりました。ピクルボールを含む50種類以上のエクササイズに対応し、多様なワークアウトをサポートします。

Pixel 10、AIが不在着信を文字起こし・要約

新AI機能「Take a Message」

不在着信・拒否通話のスマートな処理
会話型AIによるリアルタイム文字起こし
通話後のAIによるアクション提案

2つの人気機能を統合

通話スクリーニングのスパム検出活用
通話メモの要約・ネクストステップ生成

高度なオンデバイスAI

プライバシーに配慮した端末内処理
最新のPixel 10シリーズに搭載

Googleは2025年10月2日、最新スマートフォン「Pixel 10」シリーズ向けに、新たなAI通話支援機能「Take a Message」を発表しました。この機能は、不在着信や応答を拒否した通話の内容をAIがリアルタイムで文字起こしし、通話後には次のアクションを提案するものです。多忙なビジネスパーソンが重要な連絡を逃さず、効率的に対応できるよう支援することを目的としています。

「Take a Message」の最大の特徴は、Google高度な会話型AIを駆使している点です。相手が残したボイスメッセージをリアルタイムで画面にテキスト表示するため、音声を聞けない状況でも内容を即座に確認できます。これにより、会議中や移動中でも重要な用件を逃す心配がありません。

さらに、通話が終了するとAIがメッセージ内容を分析し、要約と推奨される次のアクションを自動生成します。「明日15時に折り返し電話」といった具体的なタスクを提示し、迅速な対応を支援。これは既存の人気機能「Call Notes」の進化形と言えます。

この新機能は、既存の「Call Screen」と「Call Notes」の長所を統合したものです。迷惑電話をブロックする強力なスパム検出機能も継承し、安全性と利便性を両立。処理はすべて端末内で完結するオンデバイスAIのため、プライバシーの観点でも安心できます。

「Take a Message」は、まず最新の「Pixel 10」シリーズで利用可能となります。Googleは、AIを用いてスマートフォンの原点である「通話」体験の再発明を目指しています。今回の新機能は、AIが日常業務を効率化する可能性を示す好例と言えるでしょう。

新Pixel Buds、AIと独自チップで大幅進化

AIが支える新機能

Tensor A1チップでANC実現
AIによる風切り音抑制機能
バッテリー寿命が2倍に向上

ユーザー体験の向上

新設計のツイスト調整スタビライザー
ケースのバッテリーはユーザー交換可能
開発秘話をポッドキャストで公開

グーグルは10月2日、公式ブログ上で新型イヤホン「Pixel Buds 2a」の開発秘話を語るポッドキャスト番組を公開しました。製品マネージャーが登壇し、AIと独自チップでノイズキャンセル性能やバッテリー寿命をいかに向上させたかを解説しています。

進化の核となるのが、独自開発の「Tensor A1」チップです。これによりプロレベルのANC(アクティブノイズキャンセレーション)を実現。さらにAIを活用した風切り音抑制機能も搭載し、あらゆる環境でクリアな音質を提供します。

電力効率の改善でバッテリー寿命は2倍に向上しました。装着感を高める新スタビライザーや、特筆すべきユーザー交換可能なケースバッテリーなど、利用者の長期的な満足度を追求した設計が特徴です。

このポッドキャストでは、こうした技術的な詳細や開発の裏側が語られています。完全版はApple PodcastsやSpotifyで視聴でき、製品の優位性を理解したいエンジニアやリーダーにとって貴重な情報源となるでしょう。

Google新画像AI、編集・生成の常識を覆す

驚異の編集・生成能力

文脈を理解し一貫性を維持
本人そっくりの人物画像を生成
自然言語によるピクセル単位の修正
AIが曖昧な指示も的確に解釈

新たな創造性の探求

スケッチからリアルな画像を生成
古い写真の修復・カラー化も可能
最大3枚の画像を融合し新画像を創造
開発者向けツールとのシームレスな連携

Googleは2025年8月下旬、Geminiアプリに搭載された新しい画像生成・編集AIモデル「Nano Banana」を発表しました。このモデルはテキストと画像を同時に処理するネイティブなマルチモーダル能力を持ち、リリースからわずかな期間で50億以上の作品を生み出すなど世界中で注目を集めています。専門的なツールを不要にするその革新的な機能は、ビジネスにおける創造性の常識を大きく変える可能性を秘めています。

Nano Bananaの最大の強みは、シーンやキャラクターの一貫性を維持する能力です。一度生成した人物の服装やポーズ、背景だけを変更するなど、連続した編集が可能です。これにより、従来のAIが生成しがちだった「本人とは少し違う」違和感を解消し、広告素材のバリエーション作成や製品プロモーションなど、より実用的な応用が期待されます。

さらに、自然言語による「ピクセル単位の編集」も注目すべき機能です。「ソファの色を赤に変えて」といった簡単な指示で、画像内の特定要素だけを他の部分に影響を与えることなく修正できます。これにより、インテリアデザインシミュレーションや、WebサイトのUIモックアップ修正といったタスクを、専門家でなくとも直感的に行えるようになります。

このモデルは、曖昧な指示から文脈を読み取って画像を生成したり、古い写真を歴史的背景を理解した上で修復・カラー化したりすることも可能です。また、最大3枚の画像を組み合わせて全く新しい画像を創造する機能もあり、アイデアの着想からプロトタイピングまでの時間を大幅に短縮し、これまでにないクリエイティブな表現を可能にします。

エンジニア開発者にとってもNano Bananaは強力なツールとなります。Geminiアプリ内のCanvasやGoogle AI Studioと統合されており、画像ベースのアプリケーションを容易に構築できます。実際に、1枚の写真から様々な時代のスタイルに合わせた画像を生成する「PictureMe」のようなアプリが、社内のプロジェクトから生まれています。

Nano Bananaは、単なる画像生成ツールにとどまりません。専門的なスキルがなくとも誰もがアイデアを形にできる「創造性の民主化」を加速させます。Googleはすでに次の改良に取り組んでおり、この技術が今後、企業のマーケティングや製品開発にどのような革新をもたらすか、引き続き目が離せないでしょう。

Pixel 10 Pro、AIで100倍ズームを実現

Pro Res Zoomとは

Pixel 10 Pro搭載の新ズーム技術
AIで100倍ズームを実現
Tensor G5チップ高速処理

AIによる画質向上

単なるデジタルズームではない
生成AIが欠落情報を補完
ノイズ除去とシャープ化を両立
デバイス上数秒で完結

Googleが、次期スマートフォン「Pixel 10 Pro」に搭載される新たなAIカメラ技術「Pro Res Zoom」を発表しました。この技術は、生成AIを活用して最大100倍のズーム撮影でも鮮明な画質を実現するものです。遠くの被写体を、これまでにないほど詳細に捉えることが可能になります。

Pro Res Zoomの核心は、単なる画像の切り出しと拡大(デジタルズーム)ではない点にあります。撮影データから色や形といった僅かな手がかりを基に、AIが欠落したディテールを生成・補完します。これにより、従来のズーム機能ではぼやけてしまっていた被写体も、驚くほど鮮明な一枚の写真として仕上がります。

この高度な処理は、最新の「Tensor G5」チップによってデバイス上で直接実行されます。最先端の拡散モデル(diffusion model)を数秒で動作させ、ノイズ除去とシャープ化を同時に行います。クラウドにデータを送ることなく、手元で高速に処理が完結するのが大きな特徴です。

この新技術は、ユーザーにどのような価値をもたらすのでしょうか。例えば、遠くにいる野生動物や、スポーツ観戦中の選手の表情など、これまで諦めていたシーンの撮影が可能になります。Pixel 9 Proの「Super Res Zoom」が最大30倍だったのに対し、100倍という圧倒的なズーム性能は、スマートフォンの写真撮影の常識を覆す可能性を秘めています。

Googleの取り組みは、生成AIがクラウド上のサービスから、スマートフォンという日常的なデバイスへと活躍の場を広げていることを示しています。カメラ機能の進化は、AIがもたらすユーザー体験向上の好例と言えるでしょう。

Pixel 10、AI通話機能でビジネスを加速

AIが変えるビジネス通話

関連情報をAIが自動提示
通話内容からタスクを自動生成
不在着信をAIが要約・分類
迷惑電話をAIが自動で判別

グローバル化と利便性向上

オンデバイスAIでリアルタイム翻訳
AIによる自動応答・フィルタリング
カスタマイズ可能な通話画面
車内でのAIアシスタント連携

Googleが2025年9月29日、最新スマートフォン「Pixel 10」向けに、AIを活用した9つの新しい通話機能を発表しました。これらの機能は、最新AIモデル「Gemini Nano」と独自プロセッサ「Tensor G5」を搭載し、通話中の情報検索やリアルタイム翻訳、議事録作成などを自動化。ビジネスパーソンの生産性向上と、より円滑なコミュニケーションの実現を目指します。

中でも注目すべきは「Magic Cue」機能です。これは、ユーザーの許可のもとGmailやメッセージの内容をAIが解析し、通話中に必要な情報を先回りして提示するものです。例えば、顧客との通話中に注文番号を自動で表示するなど、情報検索の手間を大幅に削減し、ビジネスの機会損失を防ぎます。

グローバルなビジネス展開を加速させるのが「Voice Translate」です。デバイス上で完結するAIが、通話内容をリアルタイムで翻訳します。話者の声質を保ったまま自然な翻訳が可能なため、言語の壁を越えた円滑なコミュニケーションを実現。海外の取引先やチームとの連携を強力にサポートするでしょう。

「Call Notes」機能も大幅に進化しました。通話内容を記録するだけでなく、そこからカレンダーの予定やタスクをAIが提案し、ワンタップで作成可能になります。これにより、通話後のフォローアップ作業が劇的に効率化され、重要なアクションの抜け漏れを防ぐことが期待できます。

このほかにも、迷惑電話をAIが自動で判別・対応する「Call Screen」や「Scam Detection」の対象国拡大、不在着信をテキスト化して要約する「Take a Message」、車内で安全に通話機能を活用できるAndroid Auto連携など、日々の業務を効率化する機能が多数盛り込まれています。

これらの革新的な機能は、Pixel 10に搭載される強力なオンデバイスAI基盤によって実現されています。AIアシスタントが単なるツールから真の「ビジネスパートナー」へと進化する可能性を示しており、今後のスマートフォンがもたらす生産性革命に大きな期待が寄せられます。

Googleフォト、対話型AI編集で誰でもプロ級の写真加工

Googleは、写真編集アプリ「Googleフォト」に新たな対話型AI編集機能「Ask Photos」を導入しました。Pixel 10スマートフォンで先行搭載され、対応するAndroid端末にも展開されます。この機能を使えば、メニューやスライダーを操作することなく、音声やテキストで指示するだけで直感的な写真編集が可能です。 使い方は極めてシンプルです。「背景のゴミを消して」「もっと明るくして」といった自然な言葉で指示するだけで、AIが意図を汲み取って編集を実行します。これまで専門的な編集ソフトで数分かかっていた作業が、わずか数秒で完了します。写真編集のハードルを劇的に下げる機能と言えるでしょう。 Adobe Photoshopのような高機能ソフトは、高価な上に専門知識を必要としました。しかし、この新機能は誰でも手軽に利用できます。カーネギーメロン大学の専門家は、ChatGPTのような一部のAIが目新しさで終わるのに対し、この機能は多くの消費者にとって実用的な価値を持つと指摘しています。 スマートフォンの小さな画面でのスライダー操作は、精密な調整が難しいという課題がありました。対話型インターフェースは、この煩わしさからユーザーを解放します。「もっと良くして」といった曖昧な指示でも、AIが写真の構図や明るさを適切に調整してくれるため、編集作業がより身近になります。 現状では、被写体をフレーム内で移動させたり、特定の部分だけを細かく調整したりすることはできません。例えば、顔のハイライトだけを抑えようとすると、画像全体のハイライトが変更されてしまうことがあります。より精緻な編集機能の実現が今後の課題です。 生成AIによる簡単な画像加工は、偽情報拡散のリスクもはらみます。Googleはこの問題に対処するため、編集された画像にC2PA(コンテンツ来歴と真正性のための連合)の認証情報や、電子透かし技術「SynthID」を付与。これにより、画像がAIによって編集されたことを追跡可能にしています。 専門家は、この機能がコンピューターとの関わり方を変える大きな一歩だと見ています。これまでのコンピューターは人間が操作する「道具」でした。しかし、対話を通じて人間の意図を理解し実行するAIは、コンピューターを「パートナー」へと昇華させる可能性を秘めています。

Google、次期チップ「Tensor G5」でPixel 10のAI機能を大幅強化

Googleは9月24日、公式ポッドキャストで、次期スマートフォン「Pixel 10」シリーズに搭載する最新チップ「Tensor G5」の詳細を明らかにしました。同社のシリコンチーム担当者が解説し、Tensor G5がGoogle史上最大のアップグレードであり、デバイス上のAI機能を飛躍的に進化させることを強調しました。これにより、スマートフォンの利便性が新たな段階に入ることが期待されます。 Tensor G5は、AI処理能力の向上に特化した設計が特徴です。Googleのシリコンチーム担当者によれば、このチップは技術的なブレークスルーであり、これまでのチップから大幅な性能向上を実現したとのことです。スマートフォンの「頭脳」が進化することで、複雑なAIタスクをデバイス上で高速に処理できるようになります。 新機能で特に注目されるのが、自分の声でリアルタイム翻訳を行う「Live Translate」です。従来の翻訳機能と異なり、まるで自分がその言語を話しているかのような自然なコミュニケーションを可能にします。Tensor G5の高度な音声処理能力が可能にするこの機能は、海外とのビジネスなどで大きな変革をもたらす可能性があります。 さらに、ユーザーの意図を先読みしてアシストするエージェント機能「Magic Cue」や、Pixel 10 Proに搭載される「100x ProRes Zoom」もTensor G5の性能によって実現されます。これらの機能は、単なる操作の補助にとどまらず、ユーザーの生産性を高めるパートナーとしてのスマートフォンの役割を強化することを示唆しています。 今回の発表は、AI処理がクラウドから個人のデバイス(エッジ)へ移行する流れを象徴します。デバイス上でAIが完結すれば、プライバシーと応答速度の向上が両立します。経営者エンジニアにとって、この「エッジAI」の進化がもたらす新たなビジネスチャンスや生産性向上の可能性は、注視すべき重要なトレンドと言えるでしょう。

Google、メキシコ進出20周年 AI投資加速で事業強化へ

Googleは2025年9月23日、メキシコ進出20周年を記念し、首都メキシコシティでAI分野への投資拡大と新サービスを発表しました。教育、社会課題解決、新製品投入を柱に同国での事業を強化します。現地では国民の89%がGoogleを肯定的に評価しており、AIによるさらなる貢献が期待されます。 人材育成のため、学生に「Google AI Pro」を1年間無料で提供します。また、教員向けAI研修には200万ドルを追加拠出しプログラムを拡大。さらに、中小企業10万社を対象に、マーケティングや財務管理へのAI活用を学ぶ無料研修も開始します。 メキシコの社会課題解決にもAI技術を応用します。モンテレイ市ではAIで交通信号を最適化し渋滞を緩和する「Project Green Light」を導入。また、国家機関と協力し、衛星画像から洪水を最大7日前に予測するAIモデルの活用を進めます。 消費者向けに、最新AI検索「AIモード」をスペイン語で提供開始します。翻訳アプリもGeminiモデルで強化し、リアルタイム会話や言語学習機能を向上。さらにスマートフォン「Google Pixel」をラテンアメリカで初めて同国に投入します。 事業拡大の証として、首都メキシコシティに新オフィスを開設予定です。20年前にラテンアメリカ初のスペイン語圏拠点として進出して以来、一貫して成長しており、今後も現地のイノベーション創出と人材活用に注力する方針です。

Googleフォト、対話型AI編集を全Androidユーザーに拡大

Googleは2025年9月23日、米国Googleフォトの対話型AI編集機能を対象の全Androidユーザーに展開開始しました。音声やテキストで指示するだけで、同社のAI「Gemini」が写真を自動で編集します。これにより、専門知識がなくても高度な写真編集が可能となり、クリエイティブな表現の幅が広がります。 この新機能は、アプリ内の「Help me edit」ボタンから利用できます。ユーザーは編集ツールやスライダーを直接操作する必要がありません。代わりに「もっと明るくして」「背景の人を消して」といった自然な言葉で指示を出すだけで、AIが意図を汲み取り、写真を編集します。 この機能は、Googleの高性能AIモデル「Gemini」の能力を活用しています。当初は最新スマートフォン「Pixel 10」の利用者向けに限定公開されていましたが、今回、対象機種が大幅に拡大されました。これにより、より多くのユーザーが最先端のAI技術を手軽に体験できます。 簡単な明るさ調整や不要物の除去はもちろん、古い写真の修復といった高度な編集も可能です。さらに「ペットのアルパカをハワイのワイキキに移動させて」のような、現実にはない創造的な画像生成にも対応し、写真編集の楽しみを広げます。 一度の指示で終わりではありません。AIによる編集結果に対して「もう少しこうして」といった追加の指示を出すことで、対話しながら微調整を重ね、理想の仕上がりに近づけることができます。「make it better(もっと良くして)」といった曖昧な指示から始めることも可能です。 現在の提供対象は、米国在住で18歳以上のユーザーに限定され、言語は英語のみです。また、GoogleはAIで生成・編集された画像であることを示す技術標準「C2PA」にも対応しており、コンテンツの信頼性確保にも配慮しています。

MSペイントがプロジェクトファイル対応、プロ用途に進化

MSペイントの機能拡張

Photoshopライクな編集機能の導入
レイヤー情報を保持したプロジェクトファイルに対応
新しい拡張子「.paint」を導入
編集途中からのシームレスな再開を実現

標準アプリの生産性向上

鉛筆・ブラシに不透明度スライダーを追加
Snipping Toolにクイックマークアップを搭載
NotepadにAI機能を無料提供開始
Copilot Plus PCでローカルAIモデルを優先利用

Microsoftは、Windows 11の標準アプリ群を大幅に強化しています。特にMSペイントでは、Adobe Photoshopのような編集機能が導入され、プロジェクトファイル形式(.paint)とレイヤー情報の保存に対応しました。これにより、標準アプリながらも高度で効率的な画像編集作業が可能となり、ビジネスにおける生産性向上に寄与します。

新しく導入される.paintファイルは、編集途中の状態を完全に保持するプロジェクト形式です。ユーザーは作業を中断しても、次回ファイルを開くだけで前回終了した場所からシームレスに再開できます。これは複数のステップが必要なデザイン作業やフィードバック対応において、作業効率を飛躍的に高めます。

.paintファイルには、編集に使用したレイヤー情報も格納されます。さらに、鉛筆やブラシツールには不透明度(オパシティ)スライダーが追加され、ピクセル単位での透明度の微調整が容易になります。これにより、プロのツールに匹敵する、柔軟かつ非破壊的な画像合成や編集が可能です。

画像編集機能の進化はペイントだけではありません。スクリーンショットを扱うSnipping Toolにもクイックマークアップ機能が追加されました。ハイライター、ペン、消しゴムなどが利用可能となり、キャプチャ後の注釈付けやクロップ作業が迅速に行えるようになり、資料作成時の生産性が向上します。

また、メモ帳(Notepad)には、Copilot Plus PCユーザー向けにAIによる文章作成、要約、書き換え機能が無料で提供されます。これはMicrosoft 365のサブスクリプションを必要とせず、ローカルモデルとクラウドモデルを切り替えて利用できるため、機密性の高いビジネス文書の処理にも柔軟に対応できる点が大きな特徴です。

Google、Pixel 10とWatch 4を発表、Gemini AI機能を大幅強化

最新Pixel製品群

Pixel 10シリーズをフル展開
Pixel Watch 4を同時発表
Pixel Buds A Series 2も投入
アクセサリー「Pixelsnap」も展開

最先端AIと機能強化

Pixel向けGemini新機能5種
最新Google AIによる利便性向上
Watch 4に緊急衛星通信搭載
Pixel開発10周年記念のモデル

Googleは2025年9月16日の「Made by Google 2025」において、スマートフォン「Pixel 10」シリーズや「Pixel Watch 4」を含む新製品ラインナップを発表しました。この最新ポートフォリオは、Pixel開発10周年という節目を記念し、最先端のGoogle AIを深く統合しています。特に、デバイス上で動作する生成AI「Gemini」の機能が大幅に強化され、ユーザー体験の劇的な向上を目指します。

今回発表されたPixel 10シリーズには、通常モデルに加え、Pro、Pro XL、そして折りたたみ式のPro Foldが揃い、フルラインナップとなりました。デザインも一新され、発売10周年を飾るにふさわしいアップグレードが施されています。企業や開発者は、これらの多様なフォームファクターで、AIを活用した新しいモバイルソリューションの可能性を探ることが可能です。

新しいPixel製品群の核となるのは、高度に統合されたAI機能です。Googleは、Pixel上でGemini5つの新たな機能を提供することを明らかにしました。この最新のGoogle AIは、これまで以上にユーザーのパーソナライゼーションを可能にし、日常的なタスクをよりスムーズに実行できるよう設計されています。AIによる生産性向上は、ビジネス利用における最大の関心事となるでしょう。

また、同時に発表された「Pixel Watch 4」にも注目が集まります。Watch 4は、緊急時に備えた衛星通信機能(Emergency Satellite Communications)を搭載しており、ユーザーの安全確保を最優先しています。さらに「Pixel Buds A Series 2」やアクセサリー群「Pixelsnap」も投入され、Googleエコシステム全体が強化されています。