Computer Useに関する最新ニュース（10件） | 【AI Times】生成AIやLLMの最新情報・ニュース

Anthropic有料会員が急増、年初から倍増以上

2026年03月28日 OpenAI Anthropic ChatGPT Claude Claude Code アシスタント広告エンジニアサム・アルトマン米国 Dario Amodei Computer Use

急成長の背景

スーパーボウルCMが話題に

国防総省との対立で注目度急上昇

1〜2月に新規有料会員が過去最多

休眠ユーザーの復帰も記録的水準

製品と競合状況

Claude Code等の開発者ツールが牽引

Computer Use機能が新たな加入を促進

ChatGPTとの差は依然として大きい

新規会員の大半は月額20ドルのPro層

詳細を見る

AnthropicのAIアシスタント「Claude」の有料会員数が急増しています。約2800万人の米国消費者の匿名クレジットカード取引データを分析したIndagari社の調査で、1〜2月にかけて過去最多の新規有料登録が確認されました。Anthropic広報も、有料会員が年初から倍増以上になったと認めています。

急成長の大きなきっかけは、2月のスーパーボウルで放映されたCMです。ChatGPTが広告を表示する方針を皮肉り、Claudeは広告を出さないと宣言した内容が話題を呼び、アプリがトップ10入りを果たしました。OpenAIのサム・アルトマンCEOも反応するなど、大きな注目を集めました。

さらに1月下旬から表面化した米国防総省との対立も追い風となりました。Anthropicは自社AIの自律的殺傷作戦や米国民の大量監視への利用を拒否し、CEOダリオ・アモデイ氏が2月26日に毅然とした声明を発表。この期間中、新規ユーザーの伸びが特に顕著でした。

製品面では、1月にリリースした開発者向けツールClaude CodeやClaude Coworkが有料会員の増加を牽引しています。さらに今週公開されたComputer Use機能も加入を促進しており、PCを自律的に操作できるこの機能は無料ユーザーには提供されていません。

ただし、消費者市場ではChatGPTとの差は依然として大きいのが現状です。OpenAIが国防総省との契約を発表した直後にアンインストールが急増したものの、同社は引き続き高い新規有料会員獲得ペースを維持しており、消費者向けAIプラットフォームとして最大の地位を保っています。

出典：TechCrunch

H Company、高スループット型PC操作AIモデルHolotron-12Bを公開

2026年03月17日生産性エンジニアエージェント Hugging Face Computer Use

推論性能の飛躍

SSMハイブリッド構造を採用

H100単体で8.9kトークン/秒達成

Holo2-8B比で2倍超のスループット

KVキャッシュ不要でメモリ効率向上

エージェント性能

WebVoyagerスコア35.1%→80.5%に向上

UI操作・画面理解の精度大幅改善

NVIDIA Nemotronベースを微調整

次世代Nemotron 3 Omniも予告

詳細を見る

H Companyは2026年3月17日、NVIDIAのNemotron-Nano-2 VLモデルをベースにしたマルチモーダルコンピュータ操作エージェントモデル「Holotron-12B」をHugging Faceで公開しました。本モデルは画面認識・操作に特化し、量産環境での高スループット推論を目指して開発されたものです。

Holotron-12Bの推論効率を支えるのは、状態空間モデル（SSM）とアテンション機構のハイブリッドアーキテクチャです。従来のTransformerが抱える二次計算コストを回避し、長いコンテキストや複数画像を含むエージェント的ワークロードで優れたスケーラビリティを実現しています。

ベンチマーク評価では、WebVoyagerスコアがベースモデルの35.1%から80.5%へと大幅に向上しました。H100 GPU1枚でvLLMを使用した実験では、同時接続100の条件下で8.9kトークン/秒のスループットを記録し、前モデルHolo2-8Bの5.1kトークン/秒を大きく上回りました。

学習は2段階で実施されました。NVIDIAのNemotron-Nano-12B-v2-VLを起点に、H Company独自の画面理解・ナビゲーションデータで教師あり微調整を行い、約140億トークンで最終チェックポイントを構築しています。ライセンスはNVIDIA Open Model Licenseで公開されています。

今後の展開として、NVIDIAが同日発表したNemotron 3 Omniをベースとした次世代モデルの開発も予告されました。SSM-AttentionとMoEアーキテクチャを活用し、企業向けの大規模自律型コンピュータ操作への展開を目指すとしています。

出典：Hugging Face

OpenAIがGPT-5.4発表、PC操作や100万トークン対応

2026年03月05日 OpenAI ChatGPT Codex スライド GPT-5 専門家推論コーディング投資エージェントプロンプトコンテキストベンチマーク MCP Computer Use

モデル性能の飛躍

GDPvalで専門家超え83%達成

OSWorldでPC操作成功率75%

事実誤認が33%減少

推論トークン消費量の大幅削減

エージェント基盤の進化

コンピュータ操作のネイティブ対応

Tool Searchでトークン47%削減

APIで100万トークン文脈窓

Excel・Sheets連携プラグイン提供

詳細を見る

OpenAIは2026年3月5日、最新AIモデルGPT-5.4をChatGPT、API、Codexで公開しました。推論・コーディング・エージェント機能を統合した同社史上最高性能のフロンティアモデルと位置づけています。

GPT-5.4は同社初の汎用モデルとしてネイティブコンピュータ操作機能を搭載しています。Playwrightによるコード実行やスクリーンショットに基づくマウス・キーボード操作が可能で、OSWorldベンチマークでは人間の72.4%を上回る75.0%の成功率を達成しました。

ビジネス用途ではスプレッドシート、プレゼンテーション、文書作成の能力が大幅に向上しています。投資銀行業務のモデリングタスクでは平均87.3%のスコアを記録し、前モデルGPT-5.2の68.4%から約19ポイント改善されました。

API向けにはTool Search機能を新たに導入し、多数のツール定義を事前にプロンプトへ含める従来方式を刷新しました。MCP Atlasベンチマークでは同精度を維持しつつトークン使用量を47%削減する効果が確認されています。

価格は入力100万トークンあたり2.50ドル、出力15ドルに設定され、GPT-5.2より引き上げられました。一方で推論効率の向上により、タスク全体のコストは抑制される見込みです。APIでは最大100万トークンのコンテキストウィンドウに対応しています。

CopilotがPCを自律操作するタスク機能

2026年02月26日 OpenAI Anthropic マイクロソフト Copilot 検索エコシステムスケジュール調整エージェント Computer Use

Copilot Tasksの能力

AIがコンピューター操作を自律的に実行

スケジュール設定・メール・検索など日常業務を代行

Microsoftのコンピューターエージェント戦略の具現化

詳細を見る

Microsoftは新機能Copilot Tasksを発表しました。AIエージェントが実際にPCを操作し、ユーザーの指示に従って自律的にタスクを実行する機能です。The Vergeが詳細を報じました。

これはAnthropicのComputer UseやOpenAIのOperatorと同様の「コンピューター操作エージェント」カテゴリの製品であり、Microsoftのエコシステムでの展開により広いユーザー基盤への普及が期待されます。

出典：The Verge

AnthropicがVercept買収で自律化強化

2026年02月25日 Anthropic Meta Claude 創業者スタートアップ買収 Computer Use

買収の概要

Verceptの買収でClaude自律操作を強化

Metaが共同創業者を引き抜いた直後の取得

シアトルの有力スタートアップを獲得

技術的意義

Computer Use機能がさらに高度化

GUIの自律操作が精度向上

RPA・自動化市場での競争力強化

詳細を見る

AnthropicはVerceptを買収し、Claudeのコンピューター操作機能を強化すると発表しました。VerceptはGUI操作の自律化に特化したシアトル拠点のスタートアップであり、Metaが共同創業者を引き抜いた直後にAnthropicが買収を決断しました。

Claude Computer Useの機能は既に注目を集めていましたが、Verceptの技術統合によりGUIの自律操作精度がさらに向上することが期待されます。RPA（ロボティックプロセスオートメーション）市場への参入加速という戦略的意図も明らかです。

AI企業によるスタートアップ買収競争が激化する中、Computer Useという特定の技術領域での専門スタートアップ取得は、Anthropicの製品ロードマップにおける重要な一手となります。

出典：TechCrunch | Anthropic公式

Claude Sonnet 4.6登場、100万トークンコンテキストと全面強化

2026年02月16日 Google OpenAI Anthropic Gemini Claude デザイン GPT-4 Sonnet エンジニア推論コーディングエージェントプロンプトコンテキスト Computer Use

主要アップグレード

コーディング・コンピュータ使用で最高性能

100万トークンコンテキストがベータ提供

エージェント計画・長文脈推論を強化

デザイン・知的作業でも大幅向上

競争上の位置づけ

Sonnetシリーズ最高のフラッグシップに

GPT-4o・Gemini Proへの直接対抗馬

既存ユーザーへの無料アップグレード

APIで即日利用可能

詳細を見る

AnthropicはSonnetシリーズの最新作「Claude Sonnet 4.6」を発表しました。コーディング、コンピュータ使用（Computer Use）、長文脈推論、エージェント計画、知的作業、デザインの全領域でフルアップグレードが実施されています。

最も注目される機能は100万トークンのコンテキストウィンドウ（ベータ版）です。これにより大規模なコードベースや書籍全体、膨大なビジネス文書を単一のプロンプトで処理できるようになります。

コーディング能力の向上はエンジニアリングチームにとって即効性が高く、コンピュータ使用機能の強化はブラウザ・OS操作を伴う複合エージェントタスクの精度向上を意味します。

既存のSonnetシリーズ利用者はAPIおよびClaude.aiで即日アップグレードなしに本バージョンを利用できます。Anthropicは価格変更なしのアップグレードという価値提供戦略を継続しています。

Sonnet 4.6はOpenAIのGPT-4oやGoogleのGemini 1.5 Proと直接競合するポジションであり、フロンティアモデルの性能競争が一層激化しています。

出典：Anthropic公式

AnthropicがCoworkを発表、コーディング不要でClaudeがPC全体を操作

2026年01月12日 Google Anthropic マイクロソフト Claude Copilot Claude Code 生産性ワークフローエンジニアコーディングエージェント Computer Use

Coworkの機能と特徴

Claude Desktop上で動作するAIエージェント

ファイル・アプリ・ブラウザを横断操作

コーディングスキル不要でClaude Code相当

複数ステップのタスクを自律実行

一般ビジネスユーザー向け設計

競合との比較と意義

Claude Codeの非技術者版として位置付け

Operator・Computer Useの実用化

Microsoft CopilotやGoogle Workspaceと競合

企業の生産性変革を狙う

将来のエージェントAI普及の試金石

詳細を見る

AnthropicはCoworkを発表しました。これはClaude Desktopに統合されたAIエージェントで、プログラミング知識なしにファイル操作、ブラウジング、アプリ間ワークフローを自律的に実行できます。開発者向けに特化していたClaude Codeを一般ユーザー向けに再設計した製品と位置付けられています。

Coworkはドキュメント作成からデータ整理、ウェブリサーチまで複数ステップのタスクをエンドツーエンドで処理します。TechCrunch、The Verge、Ars Technica、VentureBeatなど複数メディアが一斉に報じており、エージェントAIの実用化フェーズへの移行を象徴するリリースとして注目を集めています。

MicrosoftのCopilotやGoogleのAI Inboxと直接競合するCoworkは、Anthropicが企業ユーザーと一般コンシューマー市場の両方を取りにいく戦略的製品です。コーディング不要という特性は特にIT部門以外の知識労働者の業務自動化において大きなインパクトをもたらす可能性があります。

出典：Ars Technica | VentureBeat | TechCrunch | The Verge

MetaのManus買収が示す企業AIエージェント戦略の転換点

2025年12月30日 OpenAI Anthropic Meta Manus エコシステム Llama リスクプライバシースタートアップ買収評価額エージェント Computer Use

買収の戦略的意味

Manusの汎用エージェント技術がMetaに統合

20億ドル超の評価額がエージェントAIの価値証明

LlamaスタックとManusの組み合わせで競争力向上

OpenAIのOperator・Agentsへの直接対抗手段

Meta AIプラットフォームの能力を大幅強化

企業向けエージェント市場への本格参入を意味

企業へのインプリケーション

エンタープライズAIエージェント戦略の再考が必要

ベンダーの統合が加速し選択肢が絞られる

オープンソースモデルとエージェント能力の組み合わせ

自社エージェント構築かMetaプラットフォーム活用か

データプライバシーとMetaへの依存リスクを検討

2026年はエージェント基盤の選択が最重要課題に

詳細を見る

MetaによるManus 買収は単なるスタートアップ獲得にとどまらず、エンタープライズAIエージェント戦略の根本的な転換を示しています。Manusが持つ汎用タスク実行能力とMetaのLlama エコシステムの融合は、強力な組み合わせです。

OpenAIのOperatorやAnthropicのComputer Useに対抗するため、MetaはManusの技術でエージェント能力を一気に引き上げる計画です。特にマルチステップタスクの自律実行において、Manusが示した能力は業界水準を大幅に超えていました。

企業の視点からは、Metaという強力なプラットフォームにエージェント能力が統合されることで、採用すべきエージェント基盤の選択が複雑になります。オープンソースのLlamaを使いながらMetaへの依存が深まるというジレンマに直面する企業も出てくるでしょう。

2026年のエンタープライズAI戦略において、エージェント基盤の選択は技術選定を超えた戦略的意思決定です。ベンダーロックインとオープン性のバランスをどう取るかが各企業の重要課題となります。

出典：VentureBeat

OpenAGIが新モデル「Lux」発表、競合超える性能と低コスト実現

2025年12月01日 OpenAI Anthropic Slack 創業者セキュリティ AGI スタートアップ MIT 提携エージェントベンチマーク Intel Computer Use

競合を凌駕する操作性能

Online-Mind2Webで成功率83.6%を達成

OpenAI等の主力モデルを20pt以上リード

行動と視覚情報に基づく独自学習

高効率・広範囲な実務適用

ブラウザ外のネイティブアプリも操作可能

競合比で10分の1の低コスト運用

Intelと提携しエッジデバイスへ最適化

詳細を見る

MIT出身の研究者が率いるOpenAGIがステルスモードを脱し、自律型AIエージェント「Lux」を発表しました。同社は、この新モデルがOpenAIやAnthropicといった業界大手のシステムと比較して、コンピュータ操作においてより高い性能を発揮しつつ、運用コストを大幅に削減できると主張しています。

Luxの最大の特徴は、実際のWeb環境でのタスク遂行能力を測る厳格なベンチマーク「Online-Mind2Web」での圧倒的なスコアです。競合のOpenAI製モデルが61.3%、Anthropic製が56.3%にとどまる中、Luxは83.6%という高い成功率を記録しました。これは、テキスト生成ではなく「行動」の生成に特化した設計の成果です。

同社独自の学習法「Agentic Active Pre-training」では、静的なテキストデータではなく、スクリーンショットと一連の操作手順を学習データとして用います。モデルは試行錯誤を通じて環境を探索し、その経験を新たな知識としてフィードバックすることで、自律的に性能を向上させる仕組みを持っています。

実用面での優位性も見逃せません。多くの競合エージェントがブラウザ操作に限定される中、LuxはExcelやSlackを含むデスクトップアプリ全般を制御可能です。さらに、Intelとの提携によりエッジデバイスでの動作も最適化されており、セキュリティを重視する企業ニーズにも対応します。

創業者のZengyi Qin氏は、過去にも低予算で高性能なモデルを開発した実績を持つ人物です。今回の発表は、膨大な資金力を持つ巨大企業に対し、革新的なアーキテクチャを持つスタートアップが対抗できる可能性を示唆しており、AIエージェント市場の競争を一層激化させるでしょう。

出典：VentureBeat

Gemini 2.5 CU公開、人間の操作を再現し業務自動化へ

2025年10月07日 Google Gemini 生産性エンジニアリスクセキュリティエージェントベンチマーク Computer Use Google DeepMind

新モデルの核心機能

UI操作に特化したGemini 2.5 Proベース

ウェブやアプリを人間のように操作

フォーム入力やログイン後の操作を実現

複雑なデジタルタスクの全自動化を可能に

技術的優位性

Gemini APIの「computer_use」ツール経由

競合モデルを上回る低遅延と高精度

スクリーンショットを元に次のアクションを決定

安全対策と提供

購入など高リスク操作は要確認

Google AI StudioとVertex AIで提供

詳細を見る

Google DeepMindは10月7日、ユーザーインターフェース（UI）を直接操作できるAIエージェント向けの新モデル「Gemini 2.5 Computer Use (CU)」を発表しました。これは、Gemini 2.5 Proの視覚理解能力を基盤とし、ウェブページやモバイルアプリでのクリック、タイピングといった人間と同じ操作をAIに実行させるものです。これにより、複雑なデジタルタスクの全自動化を可能にし、生産性の飛躍的向上を目指します。

従来のAIモデルは構造化されたAPI経由で連携していましたが、フォーム記入やログイン後の操作など、多くのデジタル業務にはグラフィカルUIへの直接的な操作が必要でした。Gemini 2.5 CUは、これらのボトルネックを解消し、汎用性の高いエージェント構築に向けた重要な一歩となります。

同モデルは、複数のウェブおよびモバイル制御ベンチマークで、既存の主要な競合モデルを上回る卓越した性能を示しています。特に、Online-Mind2Webなどのブラウザ制御評価では、最高精度を達成しながらも、業界最低水準の遅延を実現しており、実用性の高さが証明されています。

開発者は、Gemini APIの新しい「`computer_use`」ツールを通じてこの機能を利用可能です。エージェントは、ユーザー要求と環境のスクリーンショットを入力として受け取り、分析。モデルはクリックや入力などのUIアクションの関数コールを返し、タスクが完了するまでこのプロセスを反復します。

コンピューターを制御するAIエージェントには誤用や予期せぬ動作のリスクが伴うため、安全性は特に重視されています。モデルには、安全機能が直接組み込まれており、さらに開発者向けの多層的な安全制御機能が提供されます。セキュリティ侵害やCAPCHAs回避などの高リスクな行動は拒否またはユーザー確認を求められます。

Gemini 2.5 CUモデルは本日より、Google AI StudioおよびVertex AIを通じてパブリックプレビューとして利用可能です。Google内部では、既にUIテストの自動化や、Project Marinerなどのエージェント機能に本モデルのバージョンが活用されており、ソフトウェア開発における効率化への寄与が期待されています。

出典：Google公式

Computer Use（ユースケース）に関するニュース一覧

Computer Use（ユースケース）に関するニュース一覧

急成長の背景

製品と競合状況

推論性能の飛躍

エージェント性能

モデル性能の飛躍

エージェント基盤の進化

Copilot Tasksの能力

買収の概要

技術的意義

主要アップグレード

競争上の位置づけ

Coworkの機能と特徴

競合との比較と意義

買収の戦略的意味

企業へのインプリケーション

競合を凌駕する操作性能

高効率・広範囲な実務適用

新モデルの核心機能

技術的優位性

安全対策と提供

関連キーワード

同じカテゴリ

他カテゴリ