Gemini 2.5 CU公開、人間の操作を再現し業務自動化へ

2025年10月07日 Google DeepMind Gemini 生産性エンジニアリスク

新モデルの核心機能

UI操作に特化したGemini 2.5 Proベース

ウェブやアプリを人間のように操作

フォーム入力やログイン後の操作を実現

複雑なデジタルタスクの全自動化を可能に

技術的優位性

Gemini APIの「computer_use」ツール経由

競合モデルを上回る低遅延と高精度

スクリーンショットを元に次のアクションを決定

安全対策と提供

購入など高リスク操作は要確認

Google AI StudioとVertex AIで提供

@akira_papa_ITのXポスト: 【GoogleがGemini 2.5でついにコンピュータ操作エージェントを実現！UIを直接操作する新時代のAIモデルが登場🚀】 📊 Gemini 2.5 コンピュータ利用モデルの革新 ■ 1. 画期的な新機能 💻 ▸ 人間のようにUIを直接操作 • クリック、入力、スクロールで…

出典：Google公式

詳細を読む

Google DeepMindは10月7日、ユーザーインターフェース（UI）を直接操作できるAIエージェント向けの新モデル「Gemini 2.5 Computer Use (CU)」を発表しました。これは、Gemini 2.5 Proの視覚理解能力を基盤とし、ウェブページやモバイルアプリでのクリック、タイピングといった人間と同じ操作をAIに実行させるものです。これにより、複雑なデジタルタスクの全自動化を可能にし、生産性の飛躍的向上を目指します。

従来のAIモデルは構造化されたAPI経由で連携していましたが、フォーム記入やログイン後の操作など、多くのデジタル業務にはグラフィカルUIへの直接的な操作が必要でした。Gemini 2.5 CUは、これらのボトルネックを解消し、汎用性の高いエージェント構築に向けた重要な一歩となります。

同モデルは、複数のウェブおよびモバイル制御ベンチマークで、既存の主要な競合モデルを上回る卓越した性能を示しています。特に、Online-Mind2Webなどのブラウザ制御評価では、最高精度を達成しながらも、業界最低水準の遅延を実現しており、実用性の高さが証明されています。

開発者は、Gemini APIの新しい「`computer_use`」ツールを通じてこの機能を利用可能です。エージェントは、ユーザー要求と環境のスクリーンショットを入力として受け取り、分析。モデルはクリックや入力などのUIアクションの関数コールを返し、タスクが完了するまでこのプロセスを反復します。

コンピューターを制御するAIエージェントには誤用や予期せぬ動作のリスクが伴うため、安全性は特に重視されています。モデルには、安全機能が直接組み込まれており、さらに開発者向けの多層的な安全制御機能が提供されます。セキュリティ侵害やCAPCHAs回避などの高リスクな行動は拒否またはユーザー確認を求められます。

Gemini 2.5 CUモデルは本日より、Google AI StudioおよびVertex AIを通じてパブリックプレビューとして利用可能です。Google内部では、既にUIテストの自動化や、Project Marinerなどのエージェント機能に本モデルのバージョンが活用されており、ソフトウェア開発における効率化への寄与が期待されています。