Hugging Face、軽量AIでGUI操作エージェント開発手法を公開

エージェントチューニングHugging Face
詳細を読む

AIプラットフォームのHugging Faceは2025年9月24日、軽量な視覚言語モデル(VLM)をGUI操作エージェントに進化させる新手法「Smol2Operator」を公開しました。この手法は2段階のファインチューニングを通じて、モデルに画面要素の認識能力と複雑なタスクの計画・実行能力を付与します。同社はGUI自動化技術の発展を促進するため、訓練手法やデータセット、モデルを全てオープンソース化し、開発の再現性を高めています。

GUI操作AIの開発では、データセットごとに操作の記述形式が異なり、統一的な学習が困難でした。この課題に対し、同社は多様なデータ形式を標準化された一つのアクション空間に変換するパイプラインを開発。これにより、様々なデータソースを一貫してモデル訓練に活用できるようになりました。企業の開発者は、独自の操作体系に合わせてデータセットを容易に変換できます。

訓練の第1段階では、モデルにGUI上の要素を正確に認識・特定する「グラウンディング能力」を付与します。「ボタンをクリックする」といった低レベルの指示と、画面上の座標を含む実行コードを対にしたデータで学習させ、モデルが画面を「見る」能力の基礎を築きます。これにより、AIは指示された対象を正確に特定できるようになります。

第2段階では、モデルに思考力と計画能力を植え付けます。より高レベルで複雑な指示に対し、次の行動を思考し、複数のステップに分解して実行するデータで訓練します。これにより、モデルは単なる要素認識から、主体的にタスクを遂行するエージェントへと進化し、より複雑な業務自動化への道を開きます。

この2段階訓練により、SmolVLM2-2.2Bという比較的小規模なモデルでも、GUI要素の認識ベンチマークで高い性能を達成しました。同社は、この成果の再現性を担保するため、データ処理ツール、統一されたデータセット、訓練済みモデルを全て公開しており、誰でも追試や応用開発が可能です。

今後の展望として、教師あり学習(SFT)だけでなく、強化学習(RL)や直接選好最適化(DPO)といった手法の活用が挙げられています。これらの手法により、エージェントが静的なデータから学ぶだけでなく、実環境でのインタラクションを通じて学習・改善する、より高度な能力の獲得が期待されます。