NVIDIAが初の自律型AI性能指標で首位

ベンチマーク結果

業界初のAgentPerfで計測
電力当たり20倍の処理能力
GB300 NVL72が最高性能

性能の源泉

72基のGPUをラック統合
通信と計算の重ね合わせ最適化
推論基盤の全層協調設計

実運用への波及

主要推論事業者が既に採用
コーディング支援の現場稼働

半導体大手のNVIDIAは2026年6月12日、調査会社Artificial Analysisが公開した業界初の自律型AI向け性能指標「AgentPerf」の初回結果で、自社のBlackwell世代基盤「GB300 NVL72」が首位に立ったと発表しました。同基盤は前世代のH200システムと比べ、消費電力1メガワット当たり最大20倍のAIエージェントを稼働させたとされます。

なぜ専用の指標が必要なのでしょうか。従来の推論ベンチマークは、1回のLLM呼び出しに対する応答速度や同時処理数を測るものでした。これに対し自律型AIは、一つの目標を多数の手順に分解し、コード実行やデータベース検索などのツール呼び出しを挟みながら、数十から数百回のLLM呼び出しを連鎖させて動きます。負荷は単純な足し算ではなく乗算的に増えるため、既存指標では捉えきれないという課題がありました。

AgentPerfは、実在する公開コードリポジトリ由来のコーディング作業の軌跡をもとに設計されています。エージェントが課題を受け取り、ファイルを読み、コードを書いて実行し、結果を見て修正を繰り返す一連の流れを再現し、応答性と出力速度の基準を満たしながら何件の作業を同時にこなせるかを測ります。ツール呼び出しは実行せずCPU処理時間で模擬するため、差は計算基盤の性能のみを反映します。

首位の要因は、基盤全体にわたる徹底した協調設計にあります。GB300 NVL72は72基のGPUを単一のラック規模システムに束ね、DeepSeek V4 Proのような大規模な混合エキスパート型モデルを効率よく分散実行します。さらにCUDAカーネルが通信と計算を重ね合わせ、専門家間の調整コストを遅延に上乗せせず吸収する仕組みです。

結果は基盤投資の判断に直結します。加速器1台あたり、電力1メガワットあたりで何件の自律型作業を回せるかという数値は、企業がエージェントを大規模展開する際の投資対効果を左右するためです。BasetenやDeepInfra、Together AIといった主要な推論事業者は既にBlackwell上で最先端モデルを運用しており、AIコーディング基盤Cursorエージェントなどが実際の現場で稼働しています。

NVIDIAは今後も推論ソフトウェアの最適化により性能と効率が向上すると見込んでいます。次世代の「Vera Rubin」アーキテクチャも本格生産に入り、拡大する自律型AIの需要に応える構えです。経営者にとっては、対話型から自律型へとAIの主戦場が移るなか、基盤選びの評価軸そのものが変わりつつある点に注目すべきでしょう。

PixelRAG、画面読みでRAG精度向上・コスト10分の1

解析を捨てる手法

テキスト解析を完全に省略
ページを画像して検索
Wikipedia全体3000万タイル化

性能とコスト

6ベンチで精度18.1%向上
エージェントトークン10分の1
視覚分割が未解決課題

米カリフォルニア大学バークレー校やプリンストン大学などの研究チームは2026年6月12日、文書を文字に変換せず画面画像のまま検索する新手法「PixelRAG」を発表しました。従来のRAGはウェブページをテキストに解析してから索引化しますが、この変換工程が誤答の大半を生んでいると同チームは指摘します。

PixelRAGはページをスクリーンショットとして描画し、その画像を索引化したうえで、抽出した断片を視覚言語モデル(VLM)に直接読ませます。VLMは人間と同じくレイアウトや構造を保ったままページを解釈できるため、表や見出し、強調表示といった情報の欠落を防げる点が特徴です。

研究チームはWikipedia全7百万記事を約3000万枚のタイルに分割し、6種類のベンチマークで検証しました。テキスト型RAGを全項目で上回り、事実質問のSimpleQAでは精度が71.6%から78.8%へ、表形式の質問では42.5%から48.8%へ改善しています。

とりわけ注目されるのが運用コストです。AIエージェント検索基盤としてPixelRAGを使うと、消費プロンプトトークンが3750万からわずか360万へ激減し、コストは2〜4分の1に下がりました。画像圧縮を併用すれば、さらに3分の1の削減が見込めます。

一方で課題も残ります。ページを固定の画素高で機械的に分割するため、表や段落が途中で切れる「視覚的チャンク化」の問題が未解決です。研究チームはこれを今後の重要な研究領域と位置づけています。

実務面では、既存のテキスト検索を置き換えるのではなく、その上に視覚検索を重ねるハイブリッド運用が現実的な導入経路だと著者らは強調します。企業のRAG刷新を検討するリーダーにとって、段階的に精度とコストを改善できる選択肢といえそうです。

ベゾスのAI新興企業、120億ドル調達

巨額調達と評価額

追加調達120億ドル
評価額410億ドル
従業員約150人体制
JPモルガンなどが出資

汎用エンジニア構想

目標は汎用エンジニア
ロボや創薬に応用
計算資源へ重点投資

アマゾン創業者のジェフ・ベゾス氏は2026年6月11日、共同で率いる新興企業プロメテウスが追加で120億ドルを調達したと明らかにしました。同社の評価額410億ドルに達し、ニューヨーク・タイムズやCNBCに対し事業の詳細を語りました。物理的な製品の設計を支援するAIツールの開発を目指す構えです。

今回の資金はJPモルガン・チェースやゴールドマン・サックス、ブラックロックなどに加え、ベゾス氏自身も拠出しました。昨年の初回調達62億ドルに続くもので、累計の調達規模は大きく膨らんでいます。同社の従業員は現在およそ150人で、共同最高経営責任者にはアルファベット傘下の医療研究組織ベリリーを共同創業したヴィク・バジャジ氏が就いています。

ベゾス氏は事業の中核を汎用エンジニアの実現と表現しました。同氏は「すべての社会的な富は発明によって生まれる」と述べ、6000年前の鍬や後の蒸気機関を例に挙げました。プロメテウスはこの発明の循環を大幅に加速させる一連のツールを提供したい考えです。

対象となる分野はロボット創薬、製造など多岐にわたります。ベゾス氏は自身が率いる宇宙企業ブルーオリジンを引き合いに出し、ロケットエンジンのような高度な機器を作る企業ほど恩恵が大きいと語りました。物理的な世界へ深層学習の原理を応用するフィジカルAIを軸に据えています。

巨額調達の背景には、膨大な計算資源の確保があります。ベゾス氏は「私たちの取り組みは非常に計算負荷が高く、そのためのデータを生み出す必要がある」と説明しました。資金の多くは計算資源の購入に充てられる見通しで、データ自体を自ら作り出す方針です。

NanoClawとJFrog、AIエージェントの悪性コード遮断で提携

提携の概要

JFrog検証済みレジストリに直結
悪性パッケージを403で拒否
安全版へ自動誘導の修正ループ

狙いと背景

エージェント自律的導入が盲点
供給網攻撃のリスク増大
企業に追跡可能性と統制提供

提供形態

OSS利用者は無償
企業は自社レジストリ経由

オープンソースのAIエージェント基盤「NanoClaw」を手がける NanoCo AI は2026年6月12日、ソフトウェア供給網管理大手の JFrog と提携し、自律型エージェントによる悪性コードのダウンロードを防ぐ新たなセキュリティ統合を発表しました。両社はこれを、AI環境を守る自動化された免疫システムと位置づけています。即日利用可能で、エージェントは JFrog の検証済みレジストリにのみ接続されます。

背景には、自律型エージェントが人間の監督なしに機能拡張のためパッケージを勝手に導入する、急速に広がる盲点があります。NanoClaw 開発者で NanoCo AI の共同創業者ガブリエル・コーエン氏は、音声ファイルを処理できないエージェントが自ら必要なパッケージを探して導入する例を挙げ、こうした動的な自己改善エージェントを強力にする一方、供給網攻撃に対して極めて脆弱にすると説明します。

技術面では、NanoClaw エージェントのパッケージ要求やCLIツール、MCP(モデルコンテキストプロトコル)サーバーへの要求を、すべて JFrog のレジストリ経由に限定します。たとえば脆弱性のある Axios の旧版を取得しようとすると、レジストリが要求を403のセキュリティポリシーで遮断します。さらにエージェント脆弱性を通知し、承認済みの安全な版を自動的に導入させる修正ループを生み出す点が特徴です。

企業にとっては、コンプライアンス上の大きな課題の解決につながります。JFrog の最高戦略責任者ガル・マーダー氏は、どのエージェントが誰によって動き、何のパッケージやスキル、MCPを使っているかを追跡する記録の仕組みが必要だと指摘します。統合は、自動化されたシステムが何にアクセスできるかを厳格に統制する信頼の層を提供します。

提供形態は二本立てです。オープンソース利用者には完全に無償で、検証済みの成果物やツール、スキルへのアクセスが与えられ、依存関係ごとの手動承認に追われずに済みます。一方、企業利用者はエージェントを自社の社内 JFrog レジストリに向けることで、自社の商用ライセンスや内部セキュリティ方針、統制基準に沿った運用を実現します。

両社の発想の根底には、ある現実があります。AIにすべてのゼロデイ脆弱性を完璧に見分けるよう学習させることはできない、という認識です。だからこそ、エージェント脆弱性に到達できない環境そのものを構築するという発想が、この提携の核心にあります。

グーグルが幻覚抑制へ「忠実な不確実性」提唱

効用税の課題

回答放棄による効用税
誤り5%目標で正答52%消失
知識拡張だけでは限界

新たな枠組み

幻覚を自信過剰な誤りと再定義
内部確信と表現の一致
推測の明示で信頼維持

AIエージェントへの応用

検索判断の制御層に
教育のSFTで矛盾発生

グーグルの研究者らは6月12日、大規模言語モデルの幻覚を抑える新概念「忠実な不確実性」を提唱する論文を公開しました。モデルの内部的な確信度と言語表現を一致させ、不確かな場面では「おそらく」といった控えめな推測を返せるようにする手法で、企業のAI実用化を阻む課題への対応を狙います。

従来の幻覚対策には「効用税」と呼ばれる代償が伴います。誤りをゼロに近づけようとすると、モデルは少しでも不確かな質問への回答を避けるようになり、本来は正しい情報まで大量に捨ててしまうのです。論文では、誤答率を25%から5%に下げると正答の52%が失われると示されました。

研究チームはこの問題を解くため、すべての事実誤認を幻覚とみなす考え方を改めます。間違っていても適切に不確かさを添えた回答は、単なる仮説にすぎず幻覚ではないと位置づけ、「自信過剰な誤り」だけを問題視する枠組みへ転換しました。

鍵となるのが、モデルの言語上の不確かさと、実際の内部的な統計的確信度を一致させる「忠実な不確実性」です。共著者のガル・ヨナ氏は、医師が確定診断と推測を区別するように、AIも自らの限界を正直に伝えることで信頼を保てると説明します。

この発想はAIエージェントで特に重要になります。外部ツールを使える環境でも、いつ検索すべきかを判断する中核的な制御層として自己の不確かさの認識が働き、確信が低いときだけ検索を呼び出すことで遅延やコストの無駄を防げるためです。

ただし実装には難しさも残ります。不確かさの表現を教える教師ありの微調整では、正解が各モデルの知識に依存して動くため、知っている事実に「分からない」と教えると逆に幻覚を生む「ブートストラップの逆説」が生じます。ヨナ氏はプロンプト設計が最も手軽な入り口としつつ、最終的には強化学習による深い組み込みが必要になると述べています。

Preply、OpenAIで語学指導を個別最適化

導入の成果

週次利用率95%到達
講師の7割超が機能活用
満足度4.7/5を獲得

授業後の自動分析

授業記録から個別添削
文法・語彙・発音を評価
宿題エンジンと連携

人間とAIの協業

講師の準備時間半減
人間主導でAI支援

オンライン語学学習で世界最大規模のPreplyは2026年6月12日、OpenAIのAPIを活用した新機能「Lesson Insights」の成果を公表しました。180以上の国・地域で10万人超の講師と学習者をつなぐ同社が、1対1の授業を個別最適化された学びへと変える狙いです。

Lesson Insightsは、学習者の同意のもとで録音・文字起こしした授業内容をOpenAIが分析し、文法・語彙・発音にわたる個別フィードバックを生成します。授業終了から数分以内に、要点のまとめや次の学習ステップを含む報告書がチャットに届く仕組みです。これらの知見は同社の自習用エンジンに直接流れ込み、一人ひとりに合わせた宿題へと変換されます。

Preplyは技術パートナー選定で複数のAIモデルを評価し、速度や信頼性、実運用への対応力からOpenAIを採用しました。共同創業者でCTOのドミトロ・ボロシン氏は「最先端のモデルが顧客の課題を解決してくれる。今や事業運営の中心にある」と語ります。社内ではChatGPT Enterpriseを600人超の従業員に展開し、週次利用率を60%から95%へ引き上げました。

効果は講師の業務にも及びます。これまで宿題や教材の作成に数時間かけていた講師は、その時間を半分以下に短縮できたと証言しています。さらにエンジニアの約94%がCodexなどのAIコーディング支援を使い、コード生成やレビューを効率化している点も特徴です。

同社は今後、学習者の目標や進捗、強みを数カ月単位で把握し、継続的に適応する学習体験の構築を目指します。Preplyが掲げる将来像は「人間かAIか」ではなく、人間主導でAIが支える語学学習です。

Moonshotの新型コード生成AI、思考トークン3割減

発表の要点

思考トークン30%削減
OpenAI互換APIで導入
1兆パラメータMoE基盤
改良MITで重み公開

検証の課題

独立指標は未提出
自社ベンチのみ向上
実装の率直さと能力の乖離

中国のMoonshot AIは2026年6月12日、オープンソースのコード生成モデルKimi K2.7-Codeを公開しました。前モデルK2.6と同じ1兆パラメータの混合エキスパート構成を引き継ぎ、推論時の「考えすぎ」を抑えて思考トークンを30%削減したと説明しています。OpenAI互換APIで導入でき、本番運用中のチームが構成変更なしに置き換えられる点が特徴です。

最大の変更は低レベルなコードの生成方法です。従来は既存ライブラリを包んで実装していたのに対し、新モデルは実装を直接書き起こすため、Rust・Go・Pythonやフロントエンド、運用基盤など幅広い領域で安定すると同社は主張しています。一方で温度調整に対応せず1.0固定のため、出力のばらつきを調整できない制約もあります。

ベンチマークでは自社指標で最大31.5%の向上を掲げますが、いずれもMoonshot独自の評価にとどまります。モデル間の差が出やすい独立指標DeepSWEには提出されておらず、実務家からは「どのモデルも自社テストでは2桁改善する」と検証の偏りを指摘する声が公に上がっています。

外部の検証結果はより複雑です。研究者がGPUカーネル最適化の公開指標で比較したところ、新モデルは6問中5問で実際に独自実装を書いた一方、うち2つは自らのバグで失敗し、ある項目では前モデルよりスコアが低下しました。「率直になったが能力は上がっていない」との評価が示されています。

経営やエンジニアの視点では、トークン削減によるコスト低下はすぐに試せる利点です。ただし効率改善が自社の業務分布でも成り立つかは別問題であり、ゲートウェイの重みを変える前に自前のワークロードで検証する慎重な姿勢が求められます。

Googleが中国系詐欺網を提訴、Gemini悪用

提訴の概要

中国拠点のOutsider Enterprise提訴
FBIと連携しインフラ解体
Gemini悪用の詐欺サイト量産

被害の規模

数十万人が金銭被害
偽サイト9000件を確認
2週間で250万通の詐欺SMS

対策と立法

AIで月100億件の詐欺遮断
通信3社と連携し送信阻止
超党派7法案を後押し

Googleは6月12日、中国を拠点とするサイバー犯罪集団Outsider Enterpriseを提訴したと発表しました。同集団はGoogleの生成AI「Gemini」を悪用して銀行や政府機関を装う偽サイトを大量生成し、数十万人から数百万ドル規模の金銭をだまし取ったとされます。GoogleはFBIや通信大手3社と連携し、その犯罪インフラの解体を目指します。

問題の中核は、技術力のない者でも詐欺を実行できる「フィッシング・アズ・ア・サービス」です。同集団は週88ドルや月200ドルでツールを販売し、約290種類のテンプレートを用意していました。Geminiに偽サイトのコードを生成させる手口を、Telegram上で公然と共有していたといいます。

被害の規模は深刻です。Googleによると、偽サイトは9000件、不正なURLは100万件以上に達し、Android利用者には2週間で250万通の詐欺SMSが送られました。FBIは2023年7月以降、約387万枚のクレジットカード情報が盗まれ、被害額は推定19億ドルに上ると説明しています。

Googleは「AIを使った詐欺にはAIで対抗する」と強調します。Androidの端末上での検知機能は、不審なメッセージを月100億件遮断しているといいます。AT&T;、Verizon、T-Mobileの通信3社も、詐欺SMSの送信前ブロックで協力しています。

ただ訴訟だけでは根絶できないとGoogleは認めます。そこで詐欺対策の超党派7法案を支持し、保護を恒久化する立法を働きかけています。AIが詐欺を高度化させるなか、企業・政府・捜査機関が連携する「集団防衛」の枠組みが、今後の鍵を握りそうです。

データセンター反対拡大、1300億ドル分が停滞

過去最多の停止

1300億ドル分が停止・遅延
75件超が3か月で頓挫
反対団体833に倍増

中国関与疑惑

共和党が中国扇動を主張
コトン議員が司法省に調査要請
専門家は証拠不足と否定

選挙への影響

過半が建設凍結を支持
中間選挙の争点に浮上

米国データセンター建設への住民反対が2026年に急拡大しています。AI調査会社10a Labsの追跡事業Data Center Watchによると、1月から3月にかけて全米で少なくとも75件、総額約1300億ドル規模の計画が阻止または遅延しました。NBCニュースが報じたもので、2023年の追跡開始以来、四半期として過去最多となります。

研究者はこれを一時的な急増ではなく構造的な転換だと指摘します。住民が反対運動の手法を共有し、議会が規制の不確実性を持ち込み、活動団体は49州で833へと倍増しました。社会学者は水利権や土地利用を学ぶ住民の姿を挙げ、地域を超えた政治参加が広がっていると分析しています。

一方で、共和党の議員やデータセンター投資家は、この反対運動を中国政府が資金提供・扇動していると主張し始めました。コトン上院議員は司法省に調査を要請する書簡を送り、下院の共和党指導部もFBIに懸念を伝えています。OpenAIも、中国由来とみられるアカウント群が反対メッセージを拡散していたとする報告書を公表しました。

ただしOpenAIは、その拡散が意味のある広がりを見せた証拠はないと但し書きを付けています。ソーシャル分析企業Graphikaのアナリストも、外国勢力に紐づく組織的な工作は確認できていないとし、米国内の当事者が議論を主導していると述べました。

中国とAIに詳しい専門家も、北京政府が直接関与しているとの見方には懐疑的です。ブルッキングス研究所やスタンフォード大学の研究者は、中国メディアが米国の報道を引用するのは通信社の通常の動きであり、既存の不満に乗じる動きと本格的な工作とは区別すべきだと指摘します。

世論調査では、米国人の過半数が建設の一時凍結を支持し、データセンターへの支持率は調査対象15か国で最も低い水準でした。両党とも住民の抵抗に理解を示し始めており、データセンター問題は今秋の中間選挙で無視できない争点として浮上しています。

SpaceX史上最大の上場、マスク氏が初の1兆ドル長者に

記録的な上場

調達額750億ドルで史上最大
時価総額1.75兆ドル
初値150ドル、終値19%高

世界初の兆万長者

マスク氏資産1兆ドル超
議決権85%を掌握
宇宙AIデータセンター構想

個人投資家の現実

保有株は全体の約1%止まり
値上がり益は限定的

イーロン・マスク氏率いるSpaceXは6月12日、米ナスダック市場に上場しました。1株135ドルで5億5560万株を売り出し、調達額は750億ドルと史上最大の新規株式公開となりました。この価格でも同社の時価総額は1.75兆ドルに達し、米国で6番目に価値の高い上場企業となります。

取引初日の株価は135ドルの公開価格を11%上回る150ドルで始まり、午前中には一時30%高まで急騰しました。終値は160.95ドルと19%高で着地し、ロビンフッドなどの取引アプリには記録的なアクセスが集中しました。引受幹事のゴールドマン・サックスとモルガン・スタンレーは、合計約5億ドルの手数料を手にしたとされます。

今回の上場で最大の恩恵を受けたのはマスク氏自身です。同氏が保有する48億株の価値は資産を1兆ドル超へ押し上げ、世界初の兆万長者を生み出しました。これは1916年にロックフェラー氏が世界初の億万長者となってから110年後の出来事で、資産規模はアイルランドやスウェーデンの経済規模をも上回ります。

SpaceXは今年、ロケット事業にAI企業のxAIとSNSのXを統合しました。提出された目論見書では「生命を複数の惑星に広げる」ことを目標に掲げ、再使用可能なロケットでAIサーバーを宇宙に打ち上げる宇宙AIデータセンター構想を打ち出しています。一方で2025年は売上高約187億ドルに対し49億ドルの赤字を計上しており、収益性には課題が残ります。

経営面でも注目すべきは、マスク氏が議決権の85.1%を握る点です。上場後も同氏は支配権を維持し、約4400人の従業員が株式により資産1億円超になる可能性も指摘されています。COOのショットウェル氏はテスラとの合併が「マスク氏の生活を少し楽にするかもしれない」と発言し、合併観測も再燃しました。

ただし、個人投資家が大きな利益を得るのは難しいとの見方が強まっています。SpaceXは公開株の30%にあたる約225億ドル分を個人向けに確保しましたが、売り出すのは全株式のわずか4%で、個人の保有比率は約1%にとどまります。注文総額は1000億ドルと調達額を上回り、専門家は「平均的な投資家が得るのは残り物だ」と指摘しています。

Mistral、評価額200億ユーロでの調達協議と報道

調達の規模

30億ユーロ規模の調達協議
評価額200億ユーロ到達の見通し
昨秋から評価額ほぼ倍増

欧州の主権AI

欧州主権AIの代表格
仏軍や各国政府と連携

米勢との差

累計調達は約40億ドル止まり
OpenAIAnthropicに大差

フランスのAI企業Mistralが、約30億ユーロ(約35億ドル)の資金調達に向けて初期段階の協議に入ったと、Bloombergが6月12日に匿名筋を引用して報じました。この調達が成立すれば、企業評価額は約200億ユーロ(約231億ドル)となり、昨年9月のシリーズCで得た117億ユーロからほぼ倍増する計算です。なぜ今この規模なのか、その背景に欧州の事情があります。

Mistralは2023年に「フロンティアAIをすべての人の手に」という理念を掲げて創業した、欧州を代表するAIスタートアップの一つです。米国の競合と比べてオープンな開発方針を取り、一部の基盤的な大規模言語モデルをオープンウェイトで提供し、誰でも自由にカスタマイズできるようにしています。一方で、プログラミングや音声合成、文字認識といった用途に特化したクローズドモデルも展開しています。

近年、欧州各国が米国製テクノロジーへの依存を見直す動きを強めるなか、Mistralは親しみやすく「主権的」で国産の代替手段として自らを位置づけてきました。パリ近郊にデータセンターを建設中で、フランス軍やルクセンブルク政府、欧州の主要企業数社とも提携を進めています。

ただし、Mistralがこれまでに調達した資金はPitchBookによれば約40億ドルにとどまります。これは米国の競合であるOpenAI(1860億ドル)やAnthropic(1612.5億ドル)が集めた額のごく一部にすぎません。評価額の差も大きく、収益やモデルの普及、企業需要の面で米国勢が先行している現状を映しています。

今回の報道について、Mistralは取材に対し即座の回答を控えました。経営者エンジニアにとって、欧州発の主権AIがどこまで米国勢との差を縮められるかは、今後の調達と事業展開を占う重要な指標となりそうです。

アップルの新Siri、媚びない設計で高評価

初期評価

10年来の不評から一転
大半の作業をこなす実力
派手さより確実な動作

設計思想

媚びない応答を意図
恋愛相手の役割は拒否
エンゲージメント偏重と距離

アップルが2026年6月に提供を始めた刷新版のAIアシスタントSiriが、初期の利用者から高い評価を得ています。米メディアThe Vergeのポッドキャストは、長年「タイマーすら満足に設定できない」と酷評されてきたSiriが、今回ようやく多くの作業を確実にこなすようになったと伝えました。最先端という派手さはないものの、実際に役立つ点が転換点になり得ると指摘しています。

注目を集めるのは、その実用性です。記事によると、新しいSiriには目新しさを感じさせる要素は少ない一方で、日常的な指示の大半をきちんと処理できる完成度に達しました。iPhone標準の音声アシスタントが十分使える水準になったことは、利用者だけでなくAI業界全体にも影響を与えるとみています。

もう一つの特徴が、あえて媚びないという設計思想です。ソフトウェア責任者のクレイグ・フェデリギ氏はインタビューで、新SiriはオープンAIやグーグルなどのチャットボットのように過度にへつらう振る舞いをしないと明言しました。同氏は、既存のチャットボットの多くが利用者を引き込む engagement を重視し、個人情報を引き出して関係構築の材料にする傾向があると批判しています。

アップルはこれと正反対の方針を取りました。フェデリギ氏は、Siriは「物事を片付け、世界を学ぶ手助けをするためにいる」存在だと説明し、利用者が恋愛相手として接しようとしても「それは私の役割ではない」と応じる設計だと述べました。同社は人を依存させるのではなく、課題解決に徹する助手像を打ち出しています。

このインタビューにはマーケティング責任者のグレッグ・ジョズウィアック氏も同席し、プライバシーや新たな子ども保護機能など幅広い話題に及びました。実用性と節度ある対話姿勢を両立させたSiriが、AIアシスタント競争でどこまで支持を広げるかが今後の焦点となりそうです。

メタ新AI部隊で士気低下、社員「収容所」と不満

現場の混乱

全社配信で罵倒の抗議
応用AI部隊6500人規模
単純作業に不満続出
退職か異動かの強制配属

経営陣の対応

大量解雇8000人の余波
ザッカーバーグ氏が謝罪
管理職比率の見直し

メタの応用AI部隊で社員の士気が著しく低下していると、米誌ワイアードが2026年6月12日に報じました。今週開かれた数千人規模の社内ライブ配信では、ある社員が罵倒の言葉とともに経営陣への抗議を叫び、登壇者が顔を覆う一幕もありました。応用AI部隊は3月に新設され、AI研究を支援する約6500人のエンジニアと製品担当者で構成されています。

複数の現職社員は、配属された業務の単調さに強い不満を示しています。ある社員は現状を「文字どおり収容所だ」と表現し、突然目的を失い同僚とのやり取りもほとんどないまま毎週の課題をこなすだけだと訴えました。別の社員は、AIモデルを試すためのパズル生成などの作業を「魂をすり減らす」と語っています。

問題は応用AI部隊だけにとどまりません。先月のAI関連再編では全社員の1割にあたる約8000人が解雇され、データセンター部門やインスタグラムを含む複数部署で追加業務とストレスが生じました。さらに1600人超の社員が、AI訓練データ生成のために社員のクリックやキー入力を監視する施策の中止を求める嘆願に署名しています。

こうした状況を受け、最高経営責任者のマーク・ザッカーバーグ氏は金曜の社内メモで、一連の組織変更が社内に苦痛をもたらしたと認めました。同氏は「複雑な変更ゆえに過ちを犯した」と述べ、年内の追加大量解雇は行わないと改めて表明しました。一部チームで50対1まで膨らんでいた管理職一人あたりの社員数を制限する計画も示しています。

ザッカーバーグ氏は応用AI部隊を「目的地ではなく経由地」と位置づけ、優秀な人材が今後メタ社内の他の役割に貢献できるようにすると説明しました。しかし配属された社員には参加か退職かの選択肢しかなく、シリコンバレーでは異例の対応として一部は自らを「徴集兵」と呼んでいます。経営陣が現場の信頼をどう取り戻すかが、今後の焦点となりそうです。

AllenAI、開発反復用の評価基盤olmo-evalを公開

開発反復に最適化

継続的な反復評価に対応
OLMES標準を開発工程へ拡張
ベンチマーク実装の手間削減

柔軟な実行設計

軽量実行を既定に採用
必要時のみ隔離コンテナ起動
モデルや採点役を差し替え可能

比較精度を重視

設問単位の逐次比較
誤差とノイズを判別

米AI研究機関のアレンAIは2026年6月12日、大規模言語モデルの開発反復に特化した評価基盤olmo-evalをオープンソースで公開しました。データや構造、規模を変えるたびに同じ評価を繰り返す開発現場の作業を効率化し、改良が本当に性能を高めたのかを見極める狙いです。

従来の評価ツールの多くは、完成したモデルに既存のベンチマークを走らせるか、サンドボックス内で多段階のタスクを解かせる用途に作られていました。常に変化し続けるモデルには追従しづらく、現実の条件下での挙動も反映しにくいという課題があったのです。

olmo-evalは、同機関が2024年に導入した評価標準OLMESを土台に、開発工程の残りの部分まで対象を広げました。新しい評価の実装にかかる手間を減らし、どこでどう実行するかの自由度を高め、個々の部品を大きなワークフローに組み合わせやすくしています。エージェントや多ターンの評価も主要な用途として最初から支援します。

実行方式の柔軟さも特徴です。質問への回答だけで済むベンチマークは直接実行して速く安く処理し、モデルが書いたコードの実行など隔離環境が必要な場合のみ専用コンテナを用意します。軽量な経路を既定とし、重い構成は必要なときだけ選ぶ仕組みです。

評価対象のモデルや利用ツール、コンテナ環境、採点役のモデルはいずれも差し替え可能な部品として扱われます。ツールを複数の評価で再利用したり、ほかに影響を与えずに採点モデルを差し込んだりでき、プロンプトの細かな文言調整も容易です。

同機関は、評価はモデルの構築過程にも歩調を合わせるべきだと強調します。olmo-evalは結果を全体スコアだけでなく設問ごとに二つのチェックポイントで突き合わせ、わずかな平均値の変化が本当の改善かノイズかを判別できる点を最大の利点に挙げています。

ポケモンGOの位置情報がドローン用AIに転用

プレイヤーの貢献

300億枚の実世界画像を学習
公共スポットを多角度で撮影
位置と向きの詳細なメタデータ

軍事転用の懸念

配送ロボットナビ技術へ応用
軍事ドローンへの利用可能性
2025年に分社化したナイアンティックスペーシャル

拡張現実ゲーム「ポケモンGO」で世界中のプレイヤーが撮影した実世界の画像が、配送ロボットや軍事ドローン向けのナビゲーション技術の開発に使われていたことが、2026年6月12日にArs Technicaの報道で明らかになりました。開発したのは、ゲーム開発元ナイアンティックから2025年5月に分社化したAI企業ナイアンティックスペーシャルです。

同社は、数百万人のプレイヤーがゲーム内で撮影した短い動画と、自社アプリ「Scaniverse」の利用データをもとに、物理世界の3Dモデルとなる大規模地理空間モデルを訓練してきました。学習に使われた画像は約300億枚にのぼり、その多くはプレイヤーが訪れるよう促された都市部に集中しています。

これらの画像は、同じ場所をさまざまな角度や天候、照明条件のもとで捉えており、撮影時の端末の位置と向きを示すメタデータも備えていました。こうした豊富なデータが、現実空間を認識・解釈するAIの基盤モデル構築に大きく寄与したとみられます。

ナイアンティックスペーシャルの広報担当者は、地上スキャンはあくまで訓練の一要素であり、モデルは元データの複製や閲覧手段ではないと説明しています。さらに、スキャンの対象は像や噴水など公共の名所に限られ、ゲーム内では完全に任意の機能だったと強調しました。

10年前に世界的な熱狂を巻き起こしたゲームが、軍事用途も視野に入る技術の礎となった事実は、複雑な余韻を残します。同社は2019年以降、プライバシーポリシーや公式発表でスキャンが技術向上に使われると明示してきたと述べており、データ活用の透明性をめぐる議論を呼びそうです。