詳細を見る
米グーグルは6月24日、エージェントが画面を見て操作するコンピュータ操作機能を、主力モデルGemini 3.5 Flashに標準ツールとして搭載したと発表しました。これまでGemini 2.5の単独モデルでのみ提供していた機能を本体に統合し、エージェント用途で同社最高の性能を実現したとしています。開発者はブラウザやモバイル、デスクトップ環境を横断して自律的に動くエージェントを構築できます。
今回の統合により、3.5 Flashは画面を認識し、推論し、実際に操作を実行できるようになりました。グーグルはこれにより、継続的なソフトウェアテストや専門アプリをまたぐ知識労働といった、長時間にわたる企業の自動化タスクで性能が向上すると説明しています。実例として、Geminiアプリを解析して機能一覧を分類したり、自社ドキュメントのアクセシビリティ問題を自ら監査したりするデモが示されました。
開発者と企業はGemini APIおよびGemini Enterprise Agent Platform経由で、この機能を直ちに利用できます。Geminiはもともと関数呼び出しや検索・地図との連携に強みを持っており、そこに画面操作能力が加わった形です。ブラウザ自動化を手がけるBrowserbaseやUIPathといった顧客が、すでに価値を生み出していると同社は紹介しています。
ライブ環境で動くエージェントには、外部から悪意ある指示を紛れ込ませるプロンプト注入のリスクが伴います。グーグルはこれに対し、コンピュータ操作向けに的を絞った敵対的訓練を施したほか、企業向けの安全装置を2種類オプションで提供します。具体的には、機微または取り消せない操作にユーザーの明示的な確認を求める仕組みと、間接的なプロンプト注入を検知した際に自動でタスクを停止する仕組みです。
同社は多層防御の考え方を掲げ、これらの機能を安全なサンドボックスや人間による検証、厳格なアクセス制御と組み合わせるよう開発者に促しています。エージェントが現実の業務を代行する時代に向け、性能だけでなく安全面の整備を同時に進める姿勢がうかがえます。利用を始めるためのリファレンス実装やデモ環境も公開されました。