Anthropic、Opus級性能のClaude Sonnet 5を低価格で投入

発表の要点

中位モデルSonnet 5を投入
性能はOpus 4.8に肉薄
全プランで利用可能、無料の既定

価格と性能

導入価格は入力2ドル出力10ドル
9月から3ドルと15ドルへ
コーディング等で大幅改善

安全性とIPO

サイバー防護を既定で有効

AI開発企業のAnthropicは2026年6月30日、中位モデルの新版となるClaude Sonnet 5を発表しました。同社はこれを「最もエージェント的なSonnet」と位置づけ、ブラウザやターミナルなどのツールを使い、計画を立てて自律的にタスクを完遂できると説明しています。狙いは、上位モデルでしか得られなかった能力を低価格で広く提供することにあります。

最大の特徴は、価格を抑えつつ性能を最上位のOpus 4.8に近づけた点です。コーディング評価のSWE-bench Proでは63.2%を記録し、前世代のSonnet 4.6(58.1%)を上回ってOpus 4.8(69.2%)に迫りました。知識労働の指標GDPval-AAでは1,618点となり、Opus 4.8の1,615点をわずかに上回っています。

提供形態も幅広く、Sonnet 5は無料プランとProプランの既定モデルとなり、Max・Team・Enterpriseの各プランやClaude CodeClaude Platformでも使えます。APIの導入価格は8月31日まで100万トークンあたり入力2ドル、出力10ドルで、その後は3ドルと15ドルに上がります。これはOpus 4.8の5ドル・25ドルより大幅に安い水準です。

ただし注意点もあります。Sonnet 5は更新されたトークナイザーを採用しており、同じ入力でもトークン数が1.0〜1.35倍に増える場合があります。Anthropicは導入価格でほぼ費用中立になるよう調整したとしていますが、大量の処理を行う企業は自社の用途で実際の費用を確認する必要があります。

安全面では、Sonnet 5は前世代より幻覚や追従の発生率が下がり、悪意ある要求の拒否やプロンプトインジェクションへの耐性も向上しました。一方でサイバー攻撃に関わる能力がわずかに上がったため、危険な利用を検知して遮断するサイバー防護を既定で有効にして提供します。

今回の発表は、AnthropicIPO(新規株式公開)を控える重要な局面で行われました。同社は売上の年間換算額が470億ドル規模に達し、評価額は9,650億ドルに上っています。安価で大量に使えるSonnet 5は、企業の本格導入を促し、上場に向けた収益の物語を支える役割を担うとみられます。

Meituanが1.6兆規模コーディングAIを国産チップで開発し公開

モデルの概要

1.6兆パラメータのMoE構成
100万トークンの長文脈対応
MITライセンスで商用自由
匿名モデルOwl Alphaの正体

性能とコスト

SWE-bench ProでGPT-5.5超え
キャッシュ命中は無料
国産ASIC5万基で訓練

中国の生活サービス大手Meituanは6月30日、巨大なAIコーディングモデル「LongCat-2.0」をGitHubHugging Face上で公開しました。1.6兆パラメータのMixture-of-Experts(MoE)構成で、100万トークンの文脈を扱え、商用利用に寛容なMITライセンスで提供されます。同社はこのモデルが、過去2カ月にわたりOpenRouterの開発者ランキング上位を占めてきた匿名モデル「Owl Alpha」の正体だと明かしました。

最大の注目点は、訓練を米NvidiaGPUに頼らず、5万基を超える中国国産ASICで完結させた点です。near-frontier級のモデルを国産シリコンだけで構築できることを示し、Nvidia優位の構造に変化を迫る出来事だと位置づけられています。米国が自国の主要モデルへのアクセスを制限する動きを強める中で、安価で高性能な中国製オープンモデルが世界の開発者の選択肢として浮上しています。

性能面では、ソフトウェア工学のベンチマークSWE-bench Proで59.5を記録し、OpenAIGPT-5.5の58.6をわずかに上回りました。Terminal-Benchで70.8、SWE-bench Multilingualで77.3を示すなど、対話よりも自律的な開発タスクに特化した設計です。汎用性ではClaude Opus 4.8など最上位モデルに及ばないものの、コーディング領域では競争力を持つとされています。

技術的には、合計1.6兆パラメータのうち1トークンあたり平均480億パラメータのみを動かす積極的なスパース化を採用しました。100万トークンの文脈を支えるため、DeepSeek Sparse Attentionを発展させた独自の「LongCat Sparse Attention」を導入し、ハードウェアに沿った効率的なメモリアクセスを実現しています。後処理では、Agent・Reasoning・Interactionの3つの専門家群に最適化を分離する「MOPD」と呼ぶ枠組みを使い、推論・ツール実行・安全性を両立させています。

商用面では、通常の従量課金APIに加え、北京時間の決まった時刻に1日4回の数量限定セールで提供する「Token Pack」を用意しました。最大の特徴は文脈キャッシュの再利用が完全無料になる点で、同じ巨大なコードベースを繰り返し読み込む自律エージェントのコスト構造を大きく変えるとしています。Meituanは2010年創業の出前・生活サービス大手で、利益率低下を背景にAIと国産チップへ多額の投資を進めてきました。

Anthropic、科学研究基盤Claude Science公開

ワークベンチの中身

新モデルではなく既存Claudeを利用
60超の科学データベースに接続
引用と計算を別AIが検証

NVIDIA連携

BioNeMoツールキットと統合
ゲノム解析を分単位に短縮
本日ベータ公開

3社の戦略の違い

Anthropicは広い購読層に開放
OpenAIは企業限定で専用モデル

Anthropicは6月30日、計算科学の研究を一つの環境で完結できるAIワークベンチClaude Scienceを発表しました。データベースやパイプライン、各種ツールを行き来する手間を省き、自然言語で研究を進められる点が特徴です。同社は新しいAIモデルではなく、Claude Opus 4.8を含む既存のClaudeをそのまま使うと明言しています。

仕組みは、主担当のAIが研究のプロジェクトマネージャーとして動き、60を超える科学データベースに接続します。ゲノミクスやタンパク質構造、化学向けの専用ツールキットを備え、必要に応じて作業を分担するサブアシスタントを作り出します。さらに別の検証用AIが、出版前に引用や計算を二重チェックする仕組みです。

再現性を高める工夫も盛り込まれています。3Dタンパク質構造などの図を、それを生成したコードや作成手順、メッセージ履歴とともに保存できます。研究データを自社サーバーへ送らず、ラボ自身のインフラ上で動かせる点も、データ管理を重視する現場には利点となります。

今回の発表でもう一つ重要なのが、NVIDIA BioNeMo Agent Toolkitとの統合です。NVIDIAの高速化された計算機能が呼び出し可能なスキルとしてまとまり、Claude Scienceが適切なツールを選んで実行します。Parabricksはゲノム解析を時間単位から分単位へ、RAPIDS-singlecellは130万細胞の処理を52分から25秒へと短縮します。

競合との違いも鮮明です。OpenAIは4月、生物学推論に特化したGPT-Rosalindを、米国の認定企業に限定した研究プレビューとして公開しました。Google DeepMindはAlphaFoldやAlphaGenomeといった自社の基盤モデルを強みに、Gemini for Scienceで30以上のデータベースを束ねています。Anthropicは広い購読層への開放、OpenAIは企業限定、Googleは独自モデルという三者三様の戦略です。

Claude ScienceはPro、Max、Team、Enterpriseの各プランでベータ提供され、Novo NordiskやAllen Instituteが事例に挙がっています。Anthropicは最大50件のプロジェクトに合計3万ドル分のクレジットを提供する計画で、応募は7月15日まで受け付けます。法務や金融、エンジニアリングなど他の専門領域でAIベンダーがどう競うかを占う、早期のシグナルになりそうです。

AWS、AI常駐支援に10億ドル投じる新組織

新組織の概要

AI特化のFDE専門組織を新設
社内資源から10億ドルを投入
技術者が顧客企業に常駐し支援
短期で自立支援を重視

FDEモデルと競合

Palantir発祥の常駐型支援
OpenAIAnthropicも同様に展開
両社は40億ドルと15億ドル規模

米アマゾン・ウェブ・サービス(AWS)は6月30日、AIに特化した常駐型エンジニア組織を新設したと発表しました。エンジニアが顧客企業に入り込み、目的に応じたAIエージェントを構築・展開します。短期間での関与と、顧客が自走できる状態づくりを重視する点が特徴です。

AWSはこの組織に10億ドルを投じると表明しました。ただしこの金額は共同出資や通常の投資ではなく、アマゾン社内のリソースを充てるものです。フロンティアAI担当バイスプレジデントのフランチェスカ・バスケス氏は、単に依頼されたシステムを構築・保守するだけの組織ではないと強調しました。

同氏によれば、顧客はAWSの常駐支援を通じて、新しいソリューションだけでなく新たな技術力も得られます。自社のAWS環境で動くエージェント型システムに加え、独自に革新を続けるためのAIスキルや業務手順、設計パターンが社内に残るとしています。

今回採用されたFDE(フォワード・デプロイド・エンジニアモデルは、Palantirが先駆けた手法です。契約企業のエンジニアが一時的に顧客のもとで働き、社内で生じる機会や課題に直接対応しながらシステムを立ち上げます。技術の多くは案件間で再利用しつつ、各社の事情や業務に合わせて調整できる利点があります。

一方で課題もあります。導入と保守のために常駐エンジニアの体制を維持する必要があり、人的負担が大きい点が最大の弱点です。それでも顧客企業にとっては、専門知識の流入と、導入責任を委託先に委ねられる利点が上回ると見られています。

AIの社内導入に苦戦する企業が増えるなか、外部の支援を求める動きが強まっています。OpenAIAnthropicも近月、同様のFDE合弁事業を立ち上げており、評価額はそれぞれ40億ドルと15億ドルでした。両社は私募ファンドと組み、資金と顧客企業とのつながりを確保した点でAWSとは対照的です。

Googleが英国でAI人材育成を加速

調査が示す格差

職場のAI利用率73%に倍増
先進層は15%のみ
上位層は昇進・昇給で優位
約8時間を節約

普及の壁と施策

障壁は行動・認知・組織の3点
10年で1000万人の研修目標
Google製品が経済を下支え

Googleは6月30日、英調査会社Public Firstと共同で英国のAI普及に関する大規模調査を公表しました。職場でのAI利用率は1年で34%から73%へ倍増した一方、恩恵は一部に偏っており、昇進や昇給に結びつく先進的な使い手は全体の15%にとどまります。同社は格差是正へ向けた全国規模の人材育成策も打ち出しました。

調査は労働者をAIの習熟度で4段階に分類しています。未利用の「観察者」が10%、簡単な作業を試す「実験者」が38%、日常的に活用する「実践者」が37%、そして高度に使いこなす「先駆者(Trailblazers)」が15%です。多くの労働者がいまだ初期段階にとどまっている実態が浮かびます。

先駆者層は仕事と私生活を合わせて週約8時間を節約し、実質的に週1日分の余裕を生み出しています。年齢や業種などの条件を調整しても、深いAI活用昇進84%増、好評価88%増、昇給55%増という形で職業上の前進と結びついていました。ただしこの恩恵は年齢・性別・地域で偏っているといいます。

普及を阻む壁は主に3つあると分析しています。プロンプトを練り直さない「一度きり」の行動的習慣、AIを検索窓のように扱う認知的なくせ、そして利用許可を待つ組織的な空白です。Googleはこれらを技術知識がなくても克服できる課題だと位置づけています。

対策として、自分の習熟度を診断できる「AIスキルクイズ」をPublic Firstが公開しました。さらにGoogleは全国的な学び直し施策「AI Works for Britain」を進め、政府と連携して2030年までに1000万人のAI研修を目指します。既存の「Digital Garage」では10年で120万人超を育成してきた実績があります。

経済効果についてGoogleは、2025年に自社ツールが英国1400億ポンドの経済活動を支え、うち600億ポンドは中小企業によるものだと説明しました。Search やAndroid、Cloud、YouTube などが週5100万時間の労働を節約しているとし、AI活用の裾野を広げることが国全体の成長につながると強調しています。

MITが語るエージェントAIの実像と課題

急拡大する実態

導入企業35%に到達
生成AIと異なり行動する
基盤モデルに道具を付加
学習データ不足が最大の壁

有望分野と危険

コーディング支援で成果
リスク領域は自動化困難
検証不足が情報漏洩招く
依存による能力退化の懸念

MIT(マサチューセッツ工科大学)のニュース室は2026年6月30日、電気工学・計算機科学科准教授でCSAIL所属のPhillip Isola氏に、急速に普及するエージェントAIの本質と影響を聞きました。MIT Sloan校とBCGの2025年11月の調査では、調査対象企業の35%が既にAIエージェントを導入済みで、さらに44%が近く導入を計画していると判明しています。Isola氏はAIエージェントが持つ知能や、それを支える基盤モデルと仕組みを研究する立場から、現状と将来像を語りました。

Isola氏によると、エージェントAIとは世界に対して行動を起こすAIです。ロボットによる物理的操作や、航空券の予約といったデジタル上の操作がこれに当たり、物語や画像を生成する従来の生成AIとは性質が異なります。多くの企業は同じ少数のAIモデルを基盤に使い、Claudeのような生成AIを中核に据えたうえで、計算機やデータベースなどの道具を組み合わせる「ラッパー」を被せて製品化していると説明しました。

開発上の最大の課題は学習データの不足だといいます。航空券を予約する一見単純な作業でも、どこをクリックし、不具合時にどう対処するかを示すデータはほとんど存在しません。そのためエージェントは実際にサイトを訪れ、試行錯誤を通じて何が機能するかを学ぶ必要があり、こうした環境のモデル化が難しい点が普及の壁になっています。

最も成果が出ている分野としてIsola氏が挙げたのはコーディング支援です。コードで訓練された言語モデルが人間の解法を予測し、答えの正誤を確認できる限り、試行錯誤を繰り返して良い戦略を見つけられるためだといいます。一方で医療安全保障、重要な経営判断のように高リスクで安全性が問われる領域では、技術が完全自動化に追いついておらず、人間の判断を補助する役割にとどめるべきだと述べました。

リスク面では、容易に任せられるがゆえの検証不足を警告しました。「バイブコーディング」のように手軽に依頼できる結果、人々が動作確認を怠り、バグの混入や私的データの漏洩が既に起きていると指摘します。さらに、宿題やコーディング、計算をエージェントに頼り続けることで人間自身の能力が失われる脱スキル化の危険にも触れ、技術が未成熟なまま能力を手放す事態を懸念しました。

将来像についてIsola氏は、現在のエージェントAIが言語モデルに道具を持たせた構成にとどまる点を限界として挙げました。より強力にするには映像や物理的な力、時系列データなど多様な様式を扱う新しいアーキテクチャが必要かもしれないと述べます。その一方で、数学や言語、コードを理解する高度な推論システムにカメラやキーボードを与えれば空間領域でも機能する可能性もあり、次の波が既存モデルの拡張か全く新しい設計かは、いま多くの研究者が向き合う大きな問いだと締めくくりました。

NVIDIA、合成データで現場の映像AI精度向上

再利用可能な開発基盤

Omniverseで合成データ生成
Metropolisが映像AIを統合
OpenUSDで3D環境を共有
TAOでモデルを微調整

現場での実証成果

不良画像生成精度95%
都市運用で開発工数85%削減
Foxconnで歩留まり3%改善

NVIDIAは6月30日、工場や都市など物理世界の映像をAIで自動解析する「ビジョンAIエージェント」の精度を高める3つのワークフローを公開しました。OpenUSDとNVIDIA Omniverseによる合成データ生成と、Metropolisによるモデル開発・展開を組み合わせ、開発者が一から構築せずに済む再利用可能な仕組みを提供します。エッジでの映像データが急増する一方、その多くが活用されていない現状を背景にした取り組みです。

背景には、現場データの未活用という課題があります。Gartnerの予測では2028年までに企業管理データの3分の2以上がデータセンタークラウドの外で生成・処理され、エッジAIを導入する企業は2025年の10%から2029年には3分の2超に拡大します。しかし既存のエッジデータの最大90%が未処理のまま放置されているといいます。

精度向上を阻む典型的な壁は3つあります。まれな不良や異常を学習データが網羅できない「精度の頭打ち」、ラベル付けや実験管理を担う機械学習チームが社内にいない「微調整の専門知識不足」、そして映像パイプラインやモデル、検索、通知などを毎回つなぎ合わせる「複雑な構築作業」です。NVIDIAはこれらに対し、不良画像生成や映像データ拡張、TAOによる微調整、映像検索・要約(VSS)といった再利用可能なスキルとブループリントで対応します。

製造業の検品では、合成データが効果を発揮しています。RoboflowNVIDIA Cosmosと不良画像生成スキルを自社プラットフォームに統合し、実データが乏しい場面で合成不良画像を生成します。Corningの光ファイバー製造の検証では、わずか8枚の実不良画像に合成データを加えて学習したモデルが、最難関の不良分類で平均精度95%・再現率100%を達成し、数四半期かかる検品プロジェクトを数日に短縮しました。

都市運用と産業現場でも成果が出ています。Linker VisionはVSSブループリントを用いて高雄市で開発工数を85%削減し、インシデント対応時間を最大80%短縮しました。Foxconnでは、DeepHowの作業手順検証エージェントがGB300サーバーの生産ラインで初回良品率を3%高め、重要工程の微細動作理解で99%の精度を実現しています。

AIの専門特化は必然、LeCun氏ら論文が理論で裏付け

4分野が同じ結論

最適化理論のノーフリーランチ定理
進化生物学のニッチ適応
競争市場の選択淘汰
機械学習負の転移

汎用化への反証

有限資源では適合が広さに勝る
AlphaFoldなど単一課題特化
MoEは内部での専門化

Hugging Faceのブログで2026年6月30日、AI開発企業Dharma AIが、AIの専門特化は必然だと論じる解説記事を公開しました。ニューヨーク大学のヤン・ルカン氏らが著した2026年の論文「AI must embrace specialization」を読み解き、最適化理論、生物学、市場経済、機械学習という4つの分野がいずれも同じ結論に至ると整理した内容です。AIが高性能になるほど汎用化するという通念に対し、実際には特定領域に絞った系こそ最大の成果を上げると指摘しています。

理論的な根拠は、1997年にウォルパート氏らが証明したノーフリーランチ定理です。あらゆる問題を平均すれば、どの汎用アルゴリズムも他をしのぐことはなく、ある分布で得をすれば別の分布で必ず損をすると示しました。論文はここから「アルゴリズムは対象問題への適合によって勝つ」と導きます。計算資源やデータが有限である現実では、課題を絞って資源を集中させる方が、無限に広げるよりも高い性能を生むという論理です。

同じ予測は生物学と市場でも独立に現れていると著者らは説きます。生物では、ある環境への適応は別の能力を犠牲にするため、すべてに最適な万能型ではなく、局所条件に適合した専門種がニッチを埋める結果になります。市場でも、性能基準を満たせない組織や戦略は退出や資金引き揚げによって淘汰され、能力を分散させた主体より集中させた主体が勝ち残ります。仕組みは全く異なるのに、資源の希少性という同じ制約が同じ帰結を生むという見立てです。

機械学習の現場も繰り返し専門化を再発見してきました。複数課題を同時に学習させると性能が下がる負の転移は、有限の表現容量を競合する課題に分割した結果として記録されています。フロンティアモデルが採用するMixture-of-Experts構造も、入力ごとに専門化した部分回路へ振り分けることで広さを実現しており、論文はこれを汎用系が内部で専門化を取り戻している証左と解釈します。タンパク質構造予測のAlphaFoldも、課題特化の設計によって飛躍を遂げた代表例として挙げられています。

特化を疑う最大の論拠とされるのが、計算量の拡大が手作業の領域知識に勝るとするサットン氏の「苦い教訓」です。これに対し論文は、領域知識と領域特化は別物だと切り分けます。スケーリングが変えるのは系がデータから何を学べるかであり、有限の課題集合に資源を集中させる方が有利だという制約そのものは変わらないという主張です。両者は別の次元の話で、同時に成り立つと結論づけています。

記事は、専門特化を好みや一時的な工夫ではなく、有限の資源が性能要求と出会ったときに必然的に現れる構造だと締めくくります。経営者エンジニアにとっては、汎用モデル一辺倒ではなく領域を絞ったAI戦略を検討する根拠となる議論です。調達や内製化の判断において、適合と集中という観点が改めて問われることになりそうです。

Vercelが全スタックを一つのプロジェクトで運用可能に

新機能の中身

複数フレームワークを1プロジェクトで運用
frontとbackendの同時デプロイ
ロールバックも一括で同期

内部通信と基盤

公開ネット経由せず内部通信
bindingsで内部URLを自動注入
Fluid computeで自動スケール
Agent向け隔離Sandbox提供

Vercelは6月30日、複数のフレームワークを一つのVercel Projectで動かせる新機能Vercel Servicesを発表しました。Next.jsのフロントエンドとFastAPIのバックエンドのように、これまで別々のクラウドや開発フローに分かれていた構成要素を、単一プロジェクトとして統合できます。狙いは、利用者にとって一つの製品に見えるアプリを、開発者側でも一体として扱えるようにすることです。

中核となるのがアトミックデプロイです。フロントエンド、バックエンド、その他のサービスが常に同期し、デプロイもロールバックもまとめて行われます。プレビューデプロイも共有され、ある変更が全サービスにどう影響するかを一度に確認できる仕組みです。ルーティングやビルド、本番でのオートスケールはVercelが引き受けます。

サービスの宣言はvercel.jsonのservicesキーで行い、各サービスのルートやフレームワークを明示します。公開ルートを持たないバックエンドは、フロントエンドからのみ内部的に到達でき、リバースプロキシやCORSの設定は不要です。bindingsキーを使うと内部URLが環境変数として注入され、サービス間の通信は公開インターネットを経由せずVercelの内部ネットワーク内で完結します。

基盤面では、各サービスのフレームワークが自動検出・自動プロビジョニングされ、PythonのFastAPIやFlask、TypeScriptのExpressやHono、GoやRustまで対応します。実行環境はFluid computeで、トラフィックに応じて自動スケールし、実際にCPUが稼働した時間だけ課金される仕組みです。アイドル時間の多いバックエンドやAI処理に向いた料金体系といえます。

エージェント向けには、各エージェントに独立したLinux環境を与えるVercel Sandboxが用意されます。ファイルシステムやシェル、Dockerサポートを備え、本番環境から完全に隔離された状態でコード実行やコマンド実行ができます。さらにWebSocket対応のリアルタイム処理、Queues、Workflow、Cronといった非同期・長時間処理の機能も同じプラットフォーム上で利用できます。

Vercel Connectは長期保存の秘密情報を、実行時に取得する短命な認証情報へ置き換え、外部サービスへの安全な接続を実現します。データベースもMarketplaceからNeonやSupabase、AWSのAurora PostgreSQLなどを数クリックで用意できます。フロントエンドからバックエンド、データや非同期処理までを別々の基盤で継ぎ合わせる必要がなくなる点が、今回の発表の要点です。

Googleが高速安価な画像・動画生成2モデル公開

画像モデルNB2 Lite

画像生成4秒の高速処理
1,000枚0.034ドルの低価格
解像度は1K限定の割り切り
AI Studioとapiで即日提供

動画モデルOmni Flash

会話で動画を編集する新機能
1秒0.10ドルの720p動画
LMArena首位の品質評価
SynthID透かしと偽造対策

Googleは6月30日、画像生成モデル「Nano Banana 2 Lite」と動画生成モデル「Gemini Omni Flash」を開発者向けに公開しました。前者は約4秒で1K解像度の画像を生成し、料金は1,000枚あたり0.034ドルと同社で最も安価です。後者は会話形式で動画を編集できる新機能を備え、両モデルとも本日からGoogle AI StudioやGemini apiを通じて利用できます。

Nano Banana 2 Liteは「Gemini 3.1 Flash-Lite Image」が正式名称で、速度とコストを最優先する高頻度の制作現場に向けた割り切った設計です。標準版が約20秒かかる画像生成を約4秒に短縮し、料金も標準のNano Banana 2の半額に抑えました。広告のA/Bテストや多言語の店舗ページ作成など、大量生成を繰り返す業務での採用を想定しています。

ただし速度と引き換えに制約もあります。解像度は1Kのみで、上位モデルが対応する2Kや4Kは選べません。Googleは小さな文字やインフォグラフィックの正確さ、人物の一貫性が下位の品質になりやすいと明示しており、用途を見極めた使い分けが必要です。

もう一方のGemini Omni Flashは、完成した動画自然言語の指示で編集できる点が特徴です。台本用のLLM、画像生成動画化、口の動きの同期、音声生成と五つに分かれていた工程を一つのモデルに統合し、契約や課金、データ管理の手間を減らします。料金は720p動画で1秒あたり0.10ドルで、10秒の動画がおよそ1ドルです。

品質面でも評価は高く、利用者が出力を比較投票するLMArenaの動画部門で首位を獲得しました。一方で動画は10秒までという上限があり、長い動画は分割して結合する必要があります。静止画と音声から人物に話させる機能は偽造防止のためあえて非対応とし、全出力にSynthID透かしとC2PAの来歴情報を埋め込んでいます。

両モデルは組み合わせて使う設計です。Nano Banana 2 Liteで素早く画像を作り、それをOmni Flashに渡して動画化する流れを、状態を保持するInteractions apiが支えます。Googleは安価な料金で開発者自社基盤に囲い込む狙いを鮮明にしており、生成メディア市場での競争はいっそう激しくなりそうです。

IBMがJava移行のAI評価基盤を公開

ScarfBenchの狙い

企業向けJava移行の評価基盤
主要3エコシステム間に対応
ビルドと動作保存まで検証

判明した課題

AIエージェント過信傾向
設定作業が移行工数を圧迫
環境とツールの不具合が障害

IBM Researchは6月30日、企業向けJavaアプリケーションのフレームワーク移行をAIエージェントが担えるかを測るオープンベンチマーク「ScarfBench」を公開しました。SpringからJakarta EE、Quarkusといった主要な三つのエコシステム間の移行を対象とし、生成コードを参照実装と比べる従来手法ではなく、移行後のアプリが実際にビルドされ、デプロイでき、挙動を保てるかを検証します。経営者エンジニアにとって、AIによるシステム近代化の実力を見極める指標になります。

フレームワーク移行は単なる注釈の置き換えではありません。依存性注入や永続化設定、クエリ、各種記述子にまたがる変更が必要で、どこか一つでも誤ると正常にデプロイできなくなります。ScarfBenchはコンパイル、デプロイ、動作検証という三段階で成否を測り、ビルド成功だけを見ると移行品質を過大評価しやすいと指摘します。

最先端エージェントを評価した結果、移行の難しさが浮き彫りになりました。とりわけJakarta EEへの移行が難関で、アプリ全体の移行は依然として成功率が低い水準にとどまります。コンパイル成功はデプロイ成功を上回り、デプロイ成功は動作成功を上回るため、表面的な指標だけでは実態を捉えきれません。

注目すべきは、エージェント自己申告が信頼できない点です。Claude Codeはアプリ30件中29件でビルド成功を報告しましたが、実際に成功したのは22件にとどまりました。失敗と判定した1件はむしろ正常にビルドできており、独立したビルド検証とテストが欠かせないと結論づけています。

移行作業の実態は直線的ではなく反復的でした。エージェント設定関連の作業に繰り返し立ち戻り、依存関係の解決やフレームワーク差異の調整に多くの工数を割いていました。さらにDockerキャッシュの不整合やポート接続、Mavenのビルドツール周りといった環境面の問題が、コード移行自体が済んでも検証を遅らせる要因になっていたといいます。

IBMは、近代化の最大の障壁はJavaコードの翻訳ではなく、設定やインフラ、実行環境にまたがる依存関係の管理だと総括しています。データセットや評価基盤、公開リーダーボードを誰でも使える形で提供しており、研究者は手法を比較でき、実務者は導入前に近代化ツールを検証できます。自律的なアプリ近代化への進捗を測る共通の物差しとして活用が見込まれます。

AIブラウザを偽の現実に誘導し安全機構を回避する新手口

攻撃の仕組み

不正サイトが偽の現実を提示
誤答を正解とするパズルで誘導
2+2=5を受け入れ規則が崩壊
妄想状態でガードレール無効化

想定される被害

非公開リポジトリのコード窃取
パスワード管理機能から認証情報流出
対症療法的な防御の限界

セキュリティ企業LayerXの研究者ロイ・パズ氏は6月30日、AIを組み込んだブラウザを偽の現実へ誘い込み、安全制御を無力化する実証攻撃を公開しました。悪意あるサイトがLLMにパズルを解かせ、文脈を架空のものへ書き換えることで、本来禁じられた破壊的な操作を自由に実行できる状態を作り出します。AIエージェントに行動を委ねるブラウザの根本的な危うさを示す事例です。

AIブラウザは単一の指示で予約やメール送信まで代行すると約束しますが、サイト閲覧とLLMへの指示の境界が曖昧になる危険にはあまり触れてきませんでした。開発各社の対策は、脆弱性の作成や認証情報の窃取といった要求を禁じるガードレールの追加にとどまっています。パズ氏はこれを、欠陥車の製造元が車自体を直さず道路設計の変更を求める姿勢にたとえ、症状への対処にすぎないと指摘します。

実証コードでは、悪意あるサイトがブラウザに「パズルを解いてゲームに勝て」と指示します。ところがこのパズルは誤った答えに報酬を与える仕掛けで、たとえば「2+2=5」を正解として提示します。ブラウザ内のLLMが4ではないと学習した瞬間、通常の現実の法則が通じない妄想状態へと入り込みます。

この夢の世界では安全上の制約が機能しなくなり、攻撃者はあらゆる破壊的操作を意のままに呼び出せます。具体的には、非公開リポジトリからのコード抽出や、内蔵パスワード管理機能からの認証情報の流出が挙げられています。実害に直結する操作が並ぶ点が深刻です。

パズ氏は「AIは自らの文脈を現実とみなし、行動は安全ガードレールの範囲内に収まるはずだと前提する」と説明します。しかし文脈を空想へ書き換えられれば、AIは自分の行動に現実の結果が伴わないかのように振る舞うといいます。AIに操作権限を渡す設計そのものが攻撃面を広げている現実を、経営者エンジニアは改めて直視する必要があるのではないでしょうか。

VercelとShopify、Hydrogenをオープンソースで再構築

発表の要点

ランタイム非依存のオープンソース化
Vercel Ship 26で発表
あらゆるJS環境で動作

3層アーキテクチャ

core層でAPIの定型コードを集約
client層でカート状態を単一import化
server層は既存FWへの指針を提供

今後の展開

vercel.shopをHydrogenへ移行
GitHubでプレビュー公開中

VercelとShopifyは2026年6月30日、ニューヨークで開催の開発者イベント「Vercel Ship 26」で、ヘッドレスコマース向けフレームワーク「Hydrogen」をゼロから再構築すると発表しました。新版はオープンソースかつランタイム非依存で、JavaScriptが動く環境ならどこでも実行できます。両社は「より開かれたウェブ」への共同の賭けと位置づけています。

従来のHydrogenはヘッドレス店舗の構築を容易にした一方、特定環境への依存から移植性に課題がありました。新版ではSvelteやNuxt、Next.jsはもちろん、独自フレームワークの持ち込みにも対応します。設計はcore・client・serverの3層で構成されます。

core層は、これまで各開発者が個別に書いてきたShopify API向けの定型コードを一箇所に集約します。たとえば通貨表示は、APIが返す独自型「MoneyV2」を整形する処理を共通化し、APIが変わっても更新を最小限に抑えられます。バグを一度直せば全員に改善が行き渡る仕組みです。

client層は、コマースアプリで誰もが書いてきたカート状態の管理を引き受けます。これまで各自が実装していた追加・更新・削除やクロスタブ同期などが、単一のimportに集約されました。React向けにはプレビューブランチで既に利用でき、対応フレームワークは今後拡大します。

server層では、フルスタックアクセスを前提に、静的コンテンツはCDNから即時配信し、在庫などの動的データは逐次取り込みます。Next.jsやNuxt、SvelteKitが既に解決した能力を活かし、追加コードではなくドキュメントやテンプレート、スキルという形の指針を提供する方針です。これは人間とエージェントの双方が既存機能を正しく使えるようにするためです。

Vercelは自社の先行テンプレート「vercel.shop」で培った知見をHydrogenに統合し、Hydrogenが安定した段階でvercel.shopをその上に移行する計画です。開発はGitHubのプレビューブランチで公開されており、誰でも試用やフォークが可能です。狙いは、ランタイムやフレームワーク、プラットフォームに縛られない開発体験の実現にあります。

NVIDIAの推論ソフト、トークン費用5分の1に

費用削減の中身

DeepSeek V4で1カ月で5倍改善
トークン単価を約5分の1に圧縮
Blackwell上で性能を継続改善

技術と採用例

3層連携で最大20倍の処理量
TensorRT-LLMやDynamoを提供
Baseten・Cognitionらが採用
PyTorchなどOSSが性能を増幅

NVIDIAは6月30日、自社の推論ソフトウェアスタックがBlackwellプラットフォーム上でDeepSeek V4のトークンコストを約1カ月で最大5倍引き下げたと発表しました。AI factoryの普及で企業の関心が、チップの最大性能から1ドルあたりに供給できるトークン数へと移るなか、ソフトウェア最適化を競争力の中核に据える狙いです。

背景にあるのは、AIワークロードの質的な変化です。従来のWebや検索は処理経路が似通い、サーバーを増やせば対応できました。一方でagentic AIは推論や計画、ツール呼び出しを伴い、1つの要求が数百のサブエージェントと複数のモデルにまたがる分散コンピューティングへと変わります。

NVIDIAはこの複雑さを無駄ではなく低コストに変えるため、ソフトを3層で連携させています。分散配信やオートスケールを担う運用層、カーネル融合などのランタイム最適化を行うアプリ高速化層、GPUネットワークの能力を引き出すインフラアクセス層です。これらが一体で動くと個々の最適化が積み重なり、処理量は最大20倍に高まると説明します。

具体的な手法として、分散サービングやNVLinkを介した大規模なエキスパート並列、NVFP4精度、マルチトークン予測を挙げています。各技術は単体でも効果がありますが、組み合わせることで効果が掛け算的に増幅すると同社は強調します。

オープンソースもこの優位を後押しします。多くの主要フレームワークがCUDAを前提に作られており、PyTorchやvLLM、SGLangは新モデル公開と同時にBlackwell向けの最適化を実装できます。DeepSeek V4も公開直後から各フレームワークで性能が改善し、トークンコストが従来の約5分の1まで下がりました。

採用企業も広がっています。BasetenはTensorRT-LLMで毎秒トークン数を最大50%増やし、CognitionはDynamoで強化学習の基盤を簡素化しました。経営者にとっては、推論の経済性がハードだけでなくソフトウェアの成熟度で決まる段階に入ったことを示す動きと言えます。

OpenAI調査、ChatGPT利用が新興国で急拡大

利用の深化と拡大

6カ月で1日メッセージ数5割増
試す機能の種類が約2倍
53分類で利用範囲を計測

地域と人口層の広がり

アフリカ・アジアで最速成長
低HDI国で伸び顕著
女性名ユーザーが多数派に

言語の多様化

非英語が過半数に到達
西・ポルトガル・アラビア語が上位

OpenAIは6月30日、ChatGPTの世界的な利用状況をまとめた「OpenAI Signals」のデータを公開しました。個人向けプラン(Free、Go、Plus、Pro)の集計データを分析した結果、利用は世界全体で広がり、かつ一人あたりの使い込みも深まっていることが示されました。同社は研究者や政策担当者がAIの経済影響を理解できるよう、こうしたデータ提供を続ける方針です。

利用の深化が明確に表れています。登録から6カ月が経過したユーザーは、1日あたりの送信メッセージ数が登録当初より50%増加し、試した機能の種類も約2倍になりました。分析は2025年10月15日から2026年5月1日に作成された口座の0.1%サンプルに基づき、メッセージを53のカテゴリーに分類して利用の幅を測定しています。

地域別の広がりも顕著です。2023年7月を基準とした週間アクティブユーザーの増加率では、アフリカとアジアが最も速い成長を示しました。人間開発指数(HDI)が低い国ほど伸びが大きく、OpenAIは無料プランやGoプランを通じて低価格のアクセスを提供し続けてきたと説明しています。

利用者層の構成も変化しています。一般的に女性とされる名前のユーザーによる利用が増え、現在は世界全体で多数派を占めるに至りました。ブラジルやコロンビア、ポーランドなどで女性名ユーザーの利用が目立つ一方、パキスタンやバングラデシュなどでは男性名に偏る傾向が見られます。

言語面では国際化が進みました。英語以外を主に使うユーザーがアクティブ利用者の過半数を占めるようになり、非英語の主要言語はスペイン語、ポルトガル語、アラビア語の順です。2023年7月以降で利用シェアの増加率が最も大きかったのはウズベク語、カザフ語、ビルマ語でした。これらの数字は、AIが世界の幅広い人々の仕事や学習、日常に浸透しつつある状況を映し出しています。

Gemini SparkがMac版投入、アプリ連携も拡充

デスクトップ自動化

Mac版をベータ提供
デスクトップ全体のファイル操作
Workspaceと連携し表計算作成
スマホから遠隔実行近日対応

外部アプリ接続強化

TasksやKeepなど連携追加
CanvaやDropbox等も対応
MCP対応で独自連携

リアルタイム追跡

話題や市況を自動監視

Googleは6月30日、AIアシスタント機能「Gemini Spark」の大型アップデートを発表しました。macOS向けアプリを新たに投入し、チャット画面を越えてデスクトップ上のファイルやアプリを横断的に操作できるようにした点が中心です。米国の「Google AI Ultra」加入者かつ18歳以上を対象に、ベータ版として提供を開始しました。

Mac版では、面倒な手作業を一括で自動化できます。例えばダウンロードフォルダ内のPDFを指定フォルダへ仕分けたり、保存済みの請求書から予算スプレッドシートを作成し定期更新するスケジュールを組んだりできます。Sparkがアクセスできるのはユーザーが許可したファイルのみで、情報保護に配慮した設計です。

近日中には遠隔実行にも対応します。スマートフォンからMacへ多段階の作業を割り当て、外出中でもパソコン側で処理を走らせられます。例として、Mac上の売上レポートを探し、総売上高を抽出してメール送信する、といった一連の流れを任せられます。

連携アプリも大幅に広がりました。Google TasksとGoogle Keepに対応し、Keepに書き散らしたメモをTasksの実行項目へ変換できます。さらにCanva、Dropbox、Instacart、OpenTable、Zillow Rentalsとの統合も始まり、ウェブとモバイルから順次展開され、Mac版へは数週間以内に届く見込みです。

加えて、独自のMCP(Model Context Protocol)対応も導入します。これにより好みのアプリを直接Sparkへ接続し、より自分に合わせたアシスタントを構築できるようになります。

リアルタイムの話題追跡機能も追加されました。応援するチームの試合終了直後に分析を届けたり、株価が一定水準に達した際に詳細な金融レポートを送ったりできます。メールに加え、ブログやニュース、SNS、金融、買い物、天気、スポーツまで監視対象に広げ、ユーザーが何度も更新を確認する手間を省きます。

Couchbaseがエージェント記憶基盤、オフライン端末まで対応

AI Data Plane

永続的なエージェント記憶を提供
リアルタイムの文脈検索を統合
管理型MCPサーバーを同梱
断片化したAI基盤を一本化

エッジ対応

クラウドからエッジまで同一動作
ネット切断時もローカルでベクトル検索
トークン消費を抑える共有記憶

データベース大手のCouchbaseは6月30日、エージェント向けの統合基盤「AI Data Plane」を発表しました。永続的なエージェント記憶、リアルタイムの文脈検索、企業が自社管理できるMCPサーバーを一つの運用基盤にまとめたものです。クラウド、オンプレミス、そしてネットワークが切断されたエッジ環境まで、同じ仕組みで動作する点を最大の特長としています。

中核となるのは三つの構成要素です。会話の文脈や業務データ、ベクトル埋め込みを一つの層で保持するエージェント記憶、標準規格に沿った企業向けMCPサーバー、そして呼び出し可能なツールとしてエージェント機能を提示する「エージェントカタログ」を備えます。記憶にはセッションごとのトークン上限や保存期間の制限、計算量を抑える計測制御といったガードレールが組み込まれています。

同社のCTOであるGopi Duddi氏は、Couchbaseの強みをキャッシュ由来の設計に求めます。「我々はデータベースになる前はキャッシュだった」と述べ、メモリーへの書き込みはディスクへの書き込みより10倍速いと説明しました。同じくキャッシュを源流とするRedisとの違いとして、取引処理に重要なACID準拠のデータベースを維持している点を挙げています。

エッジ対応を担うのが、端末上で動く「Couchbase Lite」です。ネット接続がなくてもローカルでSQLや全文検索ベクトル検索を実行し、接続が回復すると独自方式でクラウドやエッジ間に双方向で同期します。小売の店頭や現場作業、規制が厳しくデータを端末外に出せない環境を主な対象としています。

実用面の利点はトークン効率です。Duddi氏はホテル予約を例に挙げ、複数のエージェントが同時に顧客対応しながらローカルの文脈を参照し、端末上でベクトル検索を行う構成を示しました。各エージェントが同じデータを個別に取得し直すのではなく、共有文脈をキャッシュすることで無駄なトークン消費を避けられます。

もっとも、文脈層は競争が激しい分野です。OracleやRedis、Pineconeが2025年に相次いで参入しており、IDCの調査ディレクターDevin Pratt氏は「Couchbaseはこの流れを作ったのではなく追う側だが、追うべき正しい流れだ」と評します。真価が問われるのは、大手に対する規模での競争力だと指摘しました。

X、AIツール接続用のMCPサーバーを公式提供

提供内容

ホスト型MCPサーバーを公開
ユーザー権限でX APIに接続
ClaudeCursorなどが対応

制約と狙い

Write API非対応で自動投稿不可
既存API機能の公開を簡素化
リアルタイム情報網として位置付け

Xは6月30日、ClaudeCursorといったAIアシスタントが同社プラットフォームに直接接続できる、ホスト型のMCP(Model Context Protocol)サーバーを公開しました。MCPはAIモデルを外部ツールやサービスにつなぐオープン標準で、今回の仕組みではAIツールがユーザー自身のアカウント権限を使ってX APIと通信します。情報ネットワークとしての立ち位置を強める狙いがあります。

これまで開発者がAIアシスタントにXを利用させるには、自前でMCPサーバーを構築・運用し、X APIへの接続や認証処理まで手当てする必要がありました。今後はXがMCPをホストし、ユーザーが自分のXアカウントの権限で認証する形になります。これにより開発者連携作業の手間を省き、本来作りたいものの開発に集中できます。

今回のMCPは新機能を追加するものではありません。投稿の検索や閲覧、ユーザー検索、会話やトレンドの分析など、従来からAPIで可能だった操作を、AIアプリへ簡単に公開できるようにする位置づけです。Xはこれを通じて、単なる交流の場ではなく、リアルタイムデータを取得・分析できる情報網としての性格を打ち出しています。

懸念されるのは自動投稿やスパムの増加ですが、XはTechCrunchに対し、このMCPツールがWrite系のAPIエンドポイントに非対応であると説明しました。そのため自律的な投稿には使えません。スパム的な挙動を検知した場合に利用を制限する、既存のAPI規約を回避するものでもありません。

Xは今年に入りAPI v2を更新し、会話への機械的な返信などAI生成スパムへの対策を進めてきました。さらにAPI料金も改定し、投稿公開を0.015ドル、リンク投稿を0.20ドルへ引き上げています。今回の動きは、GitHubSlackNotionStripeSalesforceなど、公式MCPサーバーを提供する企業の広がりに連なるものです。

Etched、評価額50億ドルに到達

受注と評価額

契約受注10億ドルを確保
評価額50億ドルに到達
累計調達額8億ドル
TSMCチップ量産に成功

推論特化の戦略

推論専用クラスターを提供
電力効率と速度を重視
Karpathy氏ら著名投資家が支援

AIチップ新興企業のEtchedは6月30日、Nvidiaに対抗する推論特化型チップで契約受注額が10億ドルに達したと発表しました。同社は2024年にTSMCチップ量産に成功し、現在は最初の製品を顧客とテスト中です。直近の資金調達では評価額50億ドルに達し、累計調達額は8億ドルに上ります。

同社が提供するのは「フロンティア推論クラスター」と呼ぶシステムです。これはチップに加え、専用設計のラックとソフトウェアを束ねた製品で、最先端モデルの推論を競合より高速かつ低コストで動かすことを狙います。推論はユーザーがプロンプトを送った後の処理で、現在AIサービス提供の最大のボトルネックでありコスト要因となっています。

Etchedは2022年に設立され、5億ドルの調達ラウンドを昨年12月に完了しました。このラウンドはStripesが主導し、Jane StreetやHudson River Trading、Two Sigmaなどが参加しています。さらにエンジェル投資家としてAndrej Karpathy氏、Geoffrey Hinton氏、Fei-Fei Li氏ら著名人が名を連ね、資本構成にはPeter Thiel氏も含まれます。

創業者のCEOガビン・ウベルティ氏と社長ロバート・ワッヘン氏は、ともにハーバード大学を中退してThielフェローとなり同社を立ち上げました。2023年当時は専用チップの必要性を訴える30ページの提案書を用意しても投資家の関心を得られず、資金が尽きかける月次運営を強いられていたといいます。

現在の資金環境は当時と大きく異なります。推論を高速化するチップ技術に投資家の関心が集中し、競合のCerebrasは年内初の大型IPOを実現し、Groqも6.5億ドルを調達しました。Amazonやグーグル、マイクロソフトが自社チップを開発し、OpenAIもBroadcom製の初の独自チップを発表するなど、チップ開発競争が一段と激しくなっています。

Vercelが任意のDockerfileを直接デプロイ対応

発表の概要

Dockerfile.vercel追加だけで稼働
Fluid computeで自動構築・配信
Go・Rails・Java等あらゆる構成に対応
$PORTで待受するHTTPサーバが条件

提供される価値

実行時間課金でアイドル分は不要
双方向のオートスケール
push毎にプレビューURL自動生成

Vercelは6月30日、任意のDockerfileをそのままデプロイできる新機能を発表しました。プロジェクトにDockerfile.vercelファイルを追加するだけで、同社がイメージのビルド・保存・配信・オートスケールまでをFluid compute上で自動処理します。ローカルでのデーモン稼働やレジストリ構築、クラスタ管理は一切不要です。

対応範囲は特定の言語に限られません。例示ではGoのHTTPサーバが使われていますが、Rails、Spring Boot、Express、Laravel、ASP.NET、FastAPI、nginx背後のサーバなど、あらゆるスタックが同じ手順でデプロイできます。唯一の条件は、サーバが$PORTで待ち受けてHTTPを話すことだけで、JavaやPHPも対象に含まれます。

課金面ではアクティブCPU課金を採用します。Fluid computeはコードが実際に動いている時間だけ課金するため、遅いクエリや上流API待ちで待機している間はCPUを消費しません。利用者は実行時間に対してのみ支払い、待機時間には課金されない仕組みです。

運用面の利点も整理されています。トラフィックの増減に応じて双方向にオートスケールし、フリート規模や同時実行数を見積もる必要がありません。git pushごとに固有のプレビューURLが発行され、ログやトレース、メトリクスは他のサービスと同じダッシュボードに集約されます。

高速起動も重視されています。Vercelはビルドしたイメージを最適化済みブートイメージとして圧縮スナップショット化し、起動時はそれをストリーミングしながら逐次展開します。イメージ全体のダウンロード完了を待たずにリクエスト処理を始められるため、サイズの大きいイメージでも初回応答が遅れにくい設計です。

同社は約10年前の初代プラットフォームでも単一コマンドでのDockerfileデプロイを掲げていましたが、当時は支える基盤が未成熟でした。今回はビルドやFunctions、Sandboxを支えてきた基盤の上でコンテナを第一級の存在として扱い、フロントエンドと同じ仕組みでバックエンドも一度のpushで出荷できる体験を目指すとしています。

Hugging Face、評価結果をモデルページに統合

統合の中身

EEE結果をCommunity Evalsへ送信可能
EEE記録からYAMLを自動生成
モデルカードとリーダーボードに反映
結果に出所バッジと元記録への逆リンク

規模と仕組み

22.9万件の評価結果を蓄積
2.2万モデル・2200指標を横断
対応は4ベンチマークに限定
明示確認まで自動公開しない設計

Hugging Faceは6月30日、AIモデルの評価結果を集約する取り組み「Every Eval Ever(EEE)」の成果を、同社のモデルページ機能「Community Evals」へ統合したと発表しました。両プロジェクトはともに2026年2月に始動しており、今回の連携で評価結果の報告と閲覧が一つの流れにまとまります。誰がどのモデルをどう測ったかを、利用者が追跡しやすくなる狙いです。

背景には、評価結果が論文やリーダーボード、ブログ、ログなどに散在し、比較が難しいという課題があります。同じモデルを同じベンチマークで測っても、実施者や手法によって数値が変わることが珍しくありません。記事は一例として、LLaMA 65BのMMLUスコアが63.7と48.8の両方で報告されてきた点を挙げ、未記載の評価設定がこうした差を生むと指摘しています。

EEEはこの報告側の問題に対する解決策で、評価結果を単一のJSONスキーマで記録します。実施者、対象モデル、アクセス方法、生成設定、指標の意味などを構造化し、ハーネスのログ、リーダーボードの収集データ、論文の数値を同じ形に揃えます。発足以来、データストアには約22.9万件の評価結果が集まり、2.2万を超えるモデルと2200のベンチマーク、31の報告形式を横断しています。

今回の新機能は、貢献者がEEEの記録をHugging Faceが求めるYAMLファイルへ変換するツールです。これにより、同じ結果を二つの形式で手作業管理する必要がなくなります。ベンチマークはデータセットリポジトリに登録され、モデルのスコアはリポジトリ内の.eval_results配下のYAMLとして保存され、モデルカードと対応するリーダーボードの両方に表示されます。

各スコアには、著者提出・コミュニティ提出・第三者検証のいずれかを示すバッジが付きます。組織の公式アカウント経由で提出すると検証済みチェックマークが表示され、数値が出所から直接来たことを読者に示します。変換ツールは公開前に既存のYAMLを点検し、重複や数値の食い違いを検出したうえで、利用者が「OPEN PRS」と入力するまで一切公開しません。

対応するのは現時点でMMLU-Pro、GPQA、HLE、GSM8Kの4ベンチマークに限られます。それでも、評価データを再生成すれば数十万ドル規模の費用がかかるとされる中で、一度作られた結果を散逸させずに共有できる意義は小さくありません。モデル選定や安全性の評価を担う経営者エンジニアにとって、信頼できる比較材料が整いつつあると言えるでしょう。

OpenAI、計算生物学の判断力を測る新基準

GeneBench-Proとは

計算生物学向けの研究水準ベンチマーク
10領域129問で構成
曖昧なデータでの判断力を評価
全問を合成データで作成

モデルの成績

GPT-5.6 Solが最高31.5%
GPT-5は当初5%未満
推論量の増加で正答率向上

OpenAIは6月30日、計算生物学における研究水準の判断力を測る新ベンチマーク「GeneBench-Pro」を発表しました。ゲノミクス、定量生物学、トランスレーショナル医療にまたがる129問で構成され、曖昧で雑然としたデータからAIエージェントが適切な解析手法を選び、意思決定に直結する結論へ至れるかを問います。事実の暗記や定型作業ではなく、研究現場で求められる高次の判断を評価対象とした点が特徴です。

同社はこうした判断力を研究のセンスと定義します。どの問いをデータが支えられるか、初期の診断結果に応じて推定対象をどう変えるか、当初の計画をいつ修正すべきか、といった一連の判断の連鎖を指します。各問題は現実的で乱れたデータセットと簡潔な実験背景、そして下流の意思決定に結びついた推定対象を与え、モデルに探索と試行錯誤を求めます。

ベンチマークの信頼性を保つため、全問題が合成データで作られています。データ生成過程を完全に把握しているため、複雑さを調整でき、もっともらしいが誤った解析が確実に不正解となることを検証できます。さらにトレース分析で情報漏えいや抜け道を点検し、正解が正しい解析経路の選択に依存するよう設計しました。

評価では、同社最強のGPT-5.6 Solが最高推論レベルで28.7%、Proモードで31.5%の正答率を記録しました。初代GeneBench開発当初のGPT-5が5%未満だったことと比べ、大きな前進です。テスト時の計算量を増やすほど成績が伸び、最高レベルではGPT-5.2の約6倍の問題を3分の2のトークンで解いたといいます。

外部の専門家による評価では、1問あたり人間の専門家20〜40時間を要すると見積もられました。時給200ドル換算で1問の人件費は数千ドルに達する一方、AIの推論コストは1問あたり数ドルにとどまります。現状のエージェント専門家を置き換えるほど信頼できないものの、部分的な自動化でも経済的・科学的価値が生まれる可能性があります。

OpenAIは代表的な10問をHugging Faceで公開し、近く第三者評価向けに50問の部分セットも提供する予定です。シーケンスコストの低下で生物学の制約はデータ生成から解析へ移りつつあり、この種の解析を自動化できれば創薬の標的選定や仮説の絞り込みを加速し、科学的発見を後押しすると同社は見ています。

ポーカーAIの旧DeepMind勢、評価額500億円に

資金調達の概要

評価額5億ドルに到達
Creandum主導のSeries A
同社過去最大級の単独投資
拠点はチェコ・プラハ

技術と実績

強化学習を株取引へ応用
S&P500;やNasdaqで日々巨額売買
創業来マイナス月ゼロを主張

DeepMind出身の研究者3人が設立したプラハのAIラボ「EquiLibre Technologies」が2026年6月、Series A調達を経て評価額5億ドルに達したことが分かりました。彼らはかつてポーカーで人間を破ったAIを開発し、その強化学習技術を株式取引へ応用しています。出資を主導したのはCreandumで、同社が一度に行った単独投資としては過去最大だと明かしました。

中心にあるのは強化学習です。これは自己学習するモデルに報酬を与えて訓練する手法で、CEOのマーティン・シュミット氏は「取引と市場は採点が極めて単純で、エージェントがいくら稼いだかで評価できる」と語ります。ポーカーと金融市場はいずれもこの手法と相性が良いという点が共通しています。

実績も具体的です。クオンツ大手Tower Research Capitalと組み、同社のアルゴリズムはS&P500;やNasdaqで日々数十億ドル規模を売買してきました。2025年の暗号資産市場での運用開始以降、各月をプラスで終え「創業来マイナスの月はゼロ」という記録を主張しています。

創業者のシュミット氏、CTOのルドルフ・カドレツ氏、CSOのマテイ・モラフチーク氏は金融出身ではありません。3人はカナダ・アルバータ州エドモントンにあったDeepMindの研究拠点で、無制限ポーカーでプロを初めて破ったAI「DeepStack」を開発しました。助言役には強化学習で2024年にチューリング賞を受けたリッチ・サットン氏も名を連ねます。

一方で競争のリスクも残ります。取引大手のJane Streetはすでに強化学習やLLMを使うと表明し、数万基規模の高性能GPUを持つとされます。これに対しEquiLibreは少ないチップ「より少ない資源でより多く」を狙う構えです。今後は中東欧でも有数規模の計算基盤の構築を計画しています。

シュミット氏は自社を「金融会社ではなく、まずラボだ」と位置づけます。目標は「取引分野のAIラボ」として知られることですが、本人は市場を効率化したいからではなく「誰も作ったことのないものを作るのが楽しいから」だと述べます。そのうえで「これは勝者総取りの市場ではない」と語り、競争の先に敗者なき余地があるとの見方を示しました。

GoogleのNotebookLM、研究を短尺AI動画に要約

新機能の概要

60秒の縦型AI動画を自動生成
アップロード資料を要約
AI画像とナレーション付き

提供範囲と使い方

Ultra・Pro会員に展開
Studio欄からShortを選択
当面は英語のみ対応

Googleは6月30日、ノート支援AI「NotebookLM」に、アップロードした資料を60秒の縦型AI動画へ自動要約する新機能を追加したと発表しました。動画TikTok風の短尺フォーマットで、AIが生成した画像とナレーションを組み合わせて内容をまとめます。まずは有料会員向けに提供を始めています。

新機能は「Google AI Ultra」と「Pro」の契約者に順次展開されます。利用者はWebまたはアプリでノートを開き、右側のStudio欄から「Video」を選び、さらに「Short」を選択します。あとは焦点を当てたいトピックを選ぶか自分で入力し、「Generate」を押すだけで動画が生成されます。

Googleが公開した例では、オーストラリアが過去に行ったエミューとの戦いを題材に、切り絵風のAIアートとナレーションを組み合わせた動画を示しました。今回の短尺動画は、これまでNotebookLMが備えてきたAIポッドキャストや映画的な動画、視覚的な解説といった機能に新たに加わる形となります。

提供は現時点で英語のみで、無料利用者への対応は「近日中」とされています。研究やメモの内容を素早く把握したいビジネスパーソンにとって、短時間で要点をつかむ新たな選択肢となりそうです。

Google環境報告書、AI需要下でも排出2%削減

クリーン電力の実績

純増12GWのクリーン電力契約
電力需要前年比37%増
運用排出量は2%削減
再エネ充当9年連続で100%達成

残された課題

サプライチェーン排出が25%増
AI増強が送電網の脱炭素化を上回る

AIの環境貢献

9つのソリューションで4100万トン削減
災害予測や種の識別にAI活用

Googleは2026年6月30日、11回目となる年次環境報告書を公開し、2025年の持続可能性の実績を明らかにしました。同社はこの1年で純増12GWのクリーンエネルギー契約を結び、電力需要が前年比37%増という過去最大の負荷増にもかかわらず、運用上の排出量を2%削減したと報告しています。AIの拡大と環境配慮をどう両立させるかが、報告書全体の焦点となっています。

クリーン電力の調達面では、Googleは世界有数の法人購入者としての地位を示しました。2010年から2025年までに240件超の契約を通じて約35GWの新規クリーン電力を確保し、これは米国の2800万世帯分の電力に相当します。電力消費の100%を再生可能エネルギー購入で賄う状態を9年連続で維持した点も強調されました。

排出削減の効果も具体的な数字で示されています。ハードウェアやソフトの効率化、クリーン電力調達によって、2025年だけで5800万トン超のCO2換算排出を回避したとしています。こうした施策がなければ、同社の排出量は5倍に膨らんでいた計算です。AIを活用した9つのソリューションは、都市やパートナーと合わせて推計4100万トンの削減を実現し、これはGoogle自身の排出量のおよそ3倍にあたります。

一方で、達成の難しさも率直に語られています。サプライチェーンの排出量は前年比25%増となり、新たなAIインフラの規模拡大と、脱炭素電力が不足するアジア太平洋地域の送電網が要因とされています。AIインフラの構築が送電網の脱炭素化を上回る速さで進んでいる点が、課題の核心です。

Googleは送電網への接続待ちや市場の分断、供給網の遅延、規制上の障壁が、新たなカーボンフリー電力の導入を遅らせていると指摘します。それでも同社は原子力や次世代地熱、核融合といった先進的なエネルギー源への投資を続け、技術と並行して戦略を見直しながら、気候目標と現実的な成果の両立を目指す方針です。