MS、長尺動画をAIで分析する新エージェント公開
詳細を読む
米Microsoft Researchは2025年11月12日、長尺動画や大規模な画像コレクションに対する複雑なマルチモーダル推論を可能にする新しいマルチエージェントシステム『MMCTAgent』を発表しました。この技術は、これまで困難だった大量の映像データからのインサイト抽出を自動化し、企業のデータ活用戦略を大きく前進させる可能性を秘めています。
MMCTAgentの最大の特徴は、『プランナー』と『批評家』という2つのエージェントが協調して動作するアーキテクチャです。プランナーがユーザーの要求をタスクに分解し、計画を立てて実行。その結果を批評家が多角的にレビューし、事実との整合性を検証して回答を修正します。この人間のような反復的な思考プロセスにより、高い精度と信頼性を実現しています。
このシステムは、Microsoftのオープンソース・マルチエージェントフレームワーク『AutoGen』を基盤に構築されています。動画分析用の『VideoAgent』や画像分析用の『ImageAgent』が、物体検出やOCRといった専門ツールを駆使して情報を処理。抽出されたデータはAzure AI Searchによってインデックス化され、高速な検索と分析を可能にしています。
性能評価では、既存のAIモデルを大幅に上回る結果を示しました。例えば、マルチモーダル評価ベンチマーク『MM-Vet』において、GPT-4Vと組み合わせることで精度が60.2%から74.2%へと大幅に向上。これは、MMCTAgentがベースモデルの能力を補完し、より高度な推論を可能にすることを証明しています。
MMCTAgentはモジュール式の設計を採用しており、開発者は医療画像分析や工業製品検査といったドメイン固有のツールを簡単に追加できます。これにより、様々な産業への応用が期待されます。Microsoftは今後、農業分野での評価を皮切りに、さらに多くの実社会での活用を目指すとしています。
監視カメラの映像分析や製品の品質管理、メディアコンテンツのアーカイブ検索など、企業が保有する膨大な映像データは「未開拓の資産」です。MMCTAgentは、この資産からビジネス価値を生み出すための強力なツールとなるでしょう。経営者やエンジニアは、この新しいエージェント技術が自社の競争力をいかに高めるか、注視すべきです。