Computer Use(ユースケース)に関するニュース一覧

Anthropic有料会員が急増、年初から倍増以上

急成長の背景

スーパーボウルCMが話題に
国防総省との対立で注目度急上昇
1〜2月に新規有料会員が過去最多
休眠ユーザーの復帰も記録的水準

製品と競合状況

Claude Code等の開発者ツールが牽引
Computer Use機能が新たな加入を促進
ChatGPTとの差は依然として大きい
新規会員の大半は月額20ドルのPro層

AnthropicのAIアシスタントClaude」の有料会員数が急増しています。約2800万人の米国消費者の匿名クレジットカード取引データを分析したIndagari社の調査で、1〜2月にかけて過去最多の新規有料登録が確認されました。Anthropic広報も、有料会員が年初から倍増以上になったと認めています。

急成長の大きなきっかけは、2月のスーパーボウルで放映されたCMです。ChatGPT広告を表示する方針を皮肉り、Claude広告を出さないと宣言した内容が話題を呼び、アプリがトップ10入りを果たしました。OpenAIサム・アルトマンCEOも反応するなど、大きな注目を集めました。

さらに1月下旬から表面化した米国防総省との対立も追い風となりました。Anthropicは自社AIの自律的殺傷作戦や米国民の大量監視への利用を拒否し、CEOダリオ・アモデイ氏が2月26日に毅然とした声明を発表。この期間中、新規ユーザーの伸びが特に顕著でした。

製品面では、1月にリリースした開発者向けツールClaude CodeClaude Coworkが有料会員の増加を牽引しています。さらに今週公開されたComputer Use機能も加入を促進しており、PCを自律的に操作できるこの機能は無料ユーザーには提供されていません。

ただし、消費者市場ではChatGPTとの差は依然として大きいのが現状です。OpenAIが国防総省との契約を発表した直後にアンインストールが急増したものの、同社は引き続き高い新規有料会員獲得ペースを維持しており、消費者向けAIプラットフォームとして最大の地位を保っています。

H Company、高スループット型PC操作AIモデルHolotron-12Bを公開

推論性能の飛躍

SSMハイブリッド構造を採用
H100単体で8.9kトークン/秒達成
Holo2-8B比で2倍超のスループット
KVキャッシュ不要でメモリ効率向上

エージェント性能

WebVoyagerスコア35.1%→80.5%に向上
UI操作・画面理解の精度大幅改善
NVIDIA Nemotronベースを微調整
次世代Nemotron 3 Omniも予告

H Companyは2026年3月17日、NVIDIAのNemotron-Nano-2 VLモデルをベースにしたマルチモーダルコンピュータ操作エージェントモデル「Holotron-12B」Hugging Faceで公開しました。本モデルは画面認識・操作に特化し、量産環境での高スループット推論を目指して開発されたものです。

Holotron-12Bの推論効率を支えるのは、状態空間モデル(SSM)とアテンション機構のハイブリッドアーキテクチャです。従来のTransformerが抱える二次計算コストを回避し、長いコンテキストや複数画像を含むエージェント的ワークロードで優れたスケーラビリティを実現しています。

ベンチマーク評価では、WebVoyagerスコアがベースモデルの35.1%から80.5%へと大幅に向上しました。H100 GPU1枚でvLLMを使用した実験では、同時接続100の条件下で8.9kトークン/秒のスループットを記録し、前モデルHolo2-8Bの5.1kトークン/秒を大きく上回りました。

学習は2段階で実施されました。NVIDIAのNemotron-Nano-12B-v2-VLを起点に、H Company独自の画面理解・ナビゲーションデータで教師あり微調整を行い、約140億トークンで最終チェックポイントを構築しています。ライセンスはNVIDIA Open Model Licenseで公開されています。

今後の展開として、NVIDIAが同日発表したNemotron 3 Omniをベースとした次世代モデルの開発も予告されました。SSM-AttentionとMoEアーキテクチャを活用し、企業向けの大規模自律型コンピュータ操作への展開を目指すとしています。

OpenAIがGPT-5.4発表、PC操作や100万トークン対応

モデル性能の飛躍

GDPval専門家超え83%達成
OSWorldでPC操作成功率75%
事実誤認が33%減少
推論トークン消費量の大幅削減

エージェント基盤の進化

コンピュータ操作のネイティブ対応
Tool Searchでトークン47%削減
APIで100万トークン文脈窓
Excel・Sheets連携プラグイン提供

OpenAIは2026年3月5日、最新AIモデルGPT-5.4ChatGPT、API、Codexで公開しました。推論コーディングエージェント機能を統合した同社史上最高性能のフロンティアモデルと位置づけています。

GPT-5.4は同社初の汎用モデルとしてネイティブコンピュータ操作機能を搭載しています。Playwrightによるコード実行やスクリーンショットに基づくマウス・キーボード操作が可能で、OSWorldベンチマークでは人間の72.4%を上回る75.0%の成功率を達成しました。

ビジネス用途ではスプレッドシートプレゼンテーション、文書作成の能力が大幅に向上しています。投資銀行業務のモデリングタスクでは平均87.3%のスコアを記録し、前モデルGPT-5.2の68.4%から約19ポイント改善されました。

API向けにはTool Search機能を新たに導入し、多数のツール定義を事前にプロンプトへ含める従来方式を刷新しました。MCP Atlasベンチマークでは同精度を維持しつつトークン使用量を47%削減する効果が確認されています。

価格は入力100万トークンあたり2.50ドル、出力15ドルに設定され、GPT-5.2より引き上げられました。一方で推論効率の向上により、タスク全体のコストは抑制される見込みです。APIでは最大100万トークンコンテキストウィンドウに対応しています。

CopilotがPCを自律操作するタスク機能

Copilot Tasksの能力

AIがコンピューター操作を自律的に実行
スケジュール設定・メール・検索など日常業務を代行
Microsoftコンピューターエージェント戦略の具現化

Microsoftは新機能Copilot Tasksを発表しました。AIエージェントが実際にPCを操作し、ユーザーの指示に従って自律的にタスクを実行する機能です。The Vergeが詳細を報じました。

これはAnthropicComputer UseOpenAIのOperatorと同様の「コンピューター操作エージェント」カテゴリの製品であり、Microsoftエコシステムでの展開により広いユーザー基盤への普及が期待されます。

AnthropicがVercept買収で自律化強化

買収の概要

Vercept買収Claude自律操作を強化
Meta共同創業者を引き抜いた直後の取得
シアトルの有力スタートアップを獲得

技術的意義

Computer Use機能がさらに高度化
GUIの自律操作が精度向上
RPA・自動化市場での競争力強化

AnthropicはVerceptを買収し、Claudeのコンピューター操作機能を強化すると発表しました。VerceptはGUI操作の自律化に特化したシアトル拠点のスタートアップであり、Metaが共同創業者を引き抜いた直後にAnthropic買収を決断しました。

Claude Computer Useの機能は既に注目を集めていましたが、Verceptの技術統合によりGUIの自律操作精度がさらに向上することが期待されます。RPA(ロボティックプロセスオートメーション)市場への参入加速という戦略的意図も明らかです。

AI企業によるスタートアップ買収競争が激化する中、Computer Useという特定の技術領域での専門スタートアップ取得は、Anthropicの製品ロードマップにおける重要な一手となります。

Claude Sonnet 4.6登場、100万トークンコンテキストと全面強化

主要アップグレード

100万トークンコンテキストがベータ提供
エージェント計画・長文脈推論を強化
デザイン知的作業でも大幅向上

競争上の位置づけ

Sonnetシリーズ最高のフラッグシップ
GPT-4oGemini Proへの直接対抗馬
既存ユーザーへの無料アップグレード
APIで即日利用可能

AnthropicSonnetシリーズの最新作「Claude Sonnet 4.6」を発表しました。コーディングコンピュータ使用Computer Use)、長文脈推論エージェント計画、知的作業、デザインの全領域でフルアップグレードが実施されています。

最も注目される機能は100万トークンのコンテキストウィンドウ(ベータ版)です。これにより大規模なコードベースや書籍全体、膨大なビジネス文書を単一のプロンプトで処理できるようになります。

コーディング能力の向上はエンジニアリングチームにとって即効性が高く、コンピュータ使用機能の強化はブラウザ・OS操作を伴う複合エージェントタスクの精度向上を意味します。

既存のSonnetシリーズ利用者はAPIおよびClaude.aiで即日アップグレードなしに本バージョンを利用できます。Anthropicは価格変更なしのアップグレードという価値提供戦略を継続しています。

Sonnet 4.6はOpenAIGPT-4oGoogleGemini 1.5 Proと直接競合するポジションであり、フロンティアモデルの性能競争が一層激化しています。

AnthropicがCoworkを発表、コーディング不要でClaudeがPC全体を操作

Coworkの機能と特徴

Claude Desktop上で動作するAIエージェント
ファイル・アプリ・ブラウザを横断操作
コーディングスキル不要でClaude Code相当
複数ステップのタスクを自律実行
一般ビジネスユーザー向け設計

競合との比較と意義

Claude Codeの非技術者版として位置付け
Operator・Computer Useの実用化
Microsoft CopilotGoogle Workspaceと競合
企業の生産性変革を狙う
将来のエージェントAI普及の試金石

AnthropicCoworkを発表しました。これはClaude Desktopに統合されたAIエージェントで、プログラミング知識なしにファイル操作、ブラウジング、アプリ間ワークフローを自律的に実行できます。開発者向けに特化していたClaude Codeを一般ユーザー向けに再設計した製品と位置付けられています。

Coworkはドキュメント作成からデータ整理、ウェブリサーチまで複数ステップのタスクをエンドツーエンドで処理します。TechCrunch、The Verge、Ars Technica、VentureBeatなど複数メディアが一斉に報じており、エージェントAIの実用化フェーズへの移行を象徴するリリースとして注目を集めています。

MicrosoftCopilotGoogleのAI Inboxと直接競合するCoworkは、Anthropicが企業ユーザーと一般コンシューマー市場の両方を取りにいく戦略的製品です。コーディング不要という特性は特にIT部門以外の知識労働者の業務自動化において大きなインパクトをもたらす可能性があります。

MetaのManus買収が示す企業AIエージェント戦略の転換点

買収の戦略的意味

Manusの汎用エージェント技術がMetaに統合
20億ドル超評価額エージェントAIの価値証明
LlamaスタックとManusの組み合わせで競争力向上
OpenAIのOperator・Agentsへの直接対抗手段
Meta AIプラットフォームの能力を大幅強化
企業向けエージェント市場への本格参入を意味

企業へのインプリケーション

エンタープライズAIエージェント戦略の再考が必要
ベンダーの統合が加速し選択肢が絞られる
オープンソースモデルとエージェント能力の組み合わせ
自社エージェント構築かMetaプラットフォーム活用か
データプライバシーMetaへの依存リスクを検討
2026年はエージェント基盤の選択が最重要課題に

MetaによるManus買収は単なるスタートアップ獲得にとどまらず、エンタープライズAIエージェント戦略の根本的な転換を示しています。Manusが持つ汎用タスク実行能力MetaLlamaエコシステムの融合は、強力な組み合わせです。

OpenAIのOperatorやAnthropicComputer Useに対抗するため、MetaManusの技術でエージェント能力を一気に引き上げる計画です。特にマルチステップタスクの自律実行において、Manusが示した能力は業界水準を大幅に超えていました。

企業の視点からは、Metaという強力なプラットフォームにエージェント能力が統合されることで、採用すべきエージェント基盤の選択が複雑になります。オープンソースのLlamaを使いながらMetaへの依存が深まるというジレンマに直面する企業も出てくるでしょう。

2026年のエンタープライズAI戦略において、エージェント基盤の選択は技術選定を超えた戦略的意思決定です。ベンダーロックインとオープン性のバランスをどう取るかが各企業の重要課題となります。

OpenAGIが新モデル「Lux」発表、競合超える性能と低コスト実現

競合を凌駕する操作性能

Online-Mind2Webで成功率83.6%を達成
OpenAI等の主力モデルを20pt以上リード
行動と視覚情報に基づく独自学習

高効率・広範囲な実務適用

ブラウザ外のネイティブアプリも操作可能
競合比で10分の1の低コスト運用
Intel提携エッジデバイスへ最適化

MIT出身の研究者が率いるOpenAGIがステルスモードを脱し、自律型AIエージェント「Lux」を発表しました。同社は、この新モデルがOpenAIAnthropicといった業界大手のシステムと比較して、コンピュータ操作においてより高い性能を発揮しつつ、運用コストを大幅に削減できると主張しています。

Luxの最大の特徴は、実際のWeb環境でのタスク遂行能力を測る厳格なベンチマーク「Online-Mind2Web」での圧倒的なスコアです。競合のOpenAI製モデルが61.3%、Anthropic製が56.3%にとどまる中、Luxは83.6%という高い成功率を記録しました。これは、テキスト生成ではなく「行動」の生成に特化した設計の成果です。

同社独自の学習法「Agentic Active Pre-training」では、静的なテキストデータではなく、スクリーンショットと一連の操作手順を学習データとして用います。モデルは試行錯誤を通じて環境を探索し、その経験を新たな知識としてフィードバックすることで、自律的に性能を向上させる仕組みを持っています。

実用面での優位性も見逃せません。多くの競合エージェントがブラウザ操作に限定される中、LuxはExcelやSlackを含むデスクトップアプリ全般を制御可能です。さらに、Intelとの提携によりエッジデバイスでの動作も最適化されており、セキュリティを重視する企業ニーズにも対応します。

創業者のZengyi Qin氏は、過去にも低予算で高性能なモデルを開発した実績を持つ人物です。今回の発表は、膨大な資金力を持つ巨大企業に対し、革新的なアーキテクチャを持つスタートアップが対抗できる可能性を示唆しており、AIエージェント市場の競争を一層激化させるでしょう。

Gemini 2.5 CU公開、人間の操作を再現し業務自動化へ

新モデルの核心機能

UI操作に特化したGemini 2.5 Proベース
ウェブやアプリを人間のように操作
フォーム入力やログイン後の操作を実現
複雑なデジタルタスクの全自動化を可能に

技術的優位性

Gemini APIの「computer_use」ツール経由
競合モデルを上回る低遅延と高精度
スクリーンショットを元に次のアクションを決定

安全対策と提供

購入などリスク操作は要確認
Google AI StudioとVertex AIで提供

Google DeepMindは10月7日、ユーザーインターフェース(UI)を直接操作できるAIエージェント向けの新モデル「Gemini 2.5 Computer Use (CU)」を発表しました。これは、Gemini 2.5 Proの視覚理解能力を基盤とし、ウェブページやモバイルアプリでのクリック、タイピングといった人間と同じ操作をAIに実行させるものです。これにより、複雑なデジタルタスクの全自動化を可能にし、生産性の飛躍的向上を目指します。

従来のAIモデルは構造化されたAPI経由で連携していましたが、フォーム記入やログイン後の操作など、多くのデジタル業務にはグラフィカルUIへの直接的な操作が必要でした。Gemini 2.5 CUは、これらのボトルネックを解消し、汎用性の高いエージェント構築に向けた重要な一歩となります。

同モデルは、複数のウェブおよびモバイル制御ベンチマークで、既存の主要な競合モデルを上回る卓越した性能を示しています。特に、Online-Mind2Webなどのブラウザ制御評価では、最高精度を達成しながらも、業界最低水準の遅延を実現しており、実用性の高さが証明されています。

開発者は、Gemini APIの新しい「`computer_use`」ツールを通じてこの機能を利用可能です。エージェントは、ユーザー要求と環境のスクリーンショットを入力として受け取り、分析。モデルはクリックや入力などのUIアクションの関数コールを返し、タスクが完了するまでこのプロセスを反復します。

コンピューターを制御するAIエージェントには誤用や予期せぬ動作のリスクが伴うため、安全性は特に重視されています。モデルには、安全機能が直接組み込まれており、さらに開発者向けの多層的な安全制御機能が提供されます。セキュリティ侵害やCAPCHAs回避などの高リスクな行動は拒否またはユーザー確認を求められます。

Gemini 2.5 CUモデルは本日より、Google AI StudioおよびVertex AIを通じてパブリックプレビューとして利用可能です。Google内部では、既にUIテストの自動化や、Project Marinerなどのエージェント機能に本モデルのバージョンが活用されており、ソフトウェア開発における効率化への寄与が期待されています。