Microsoft、AIエージェント行動テスト基盤ASSERTを公開
出典:TechCrunch
詳細を読む
Microsoftは2026年6月2日、AIエージェントの行動を自然言語でテストできるオープンソースフレームワーク「ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)」を公開しました。開発者が期待する振る舞いやポリシーを平易な文章で記述するだけで、テストケースの生成からスコアリングまでを自動化します。
ASSERTは、まず自然言語の記述を許容される行動と許容されない行動の構造化セットに変換します。次に問題シナリオとテストケースを生成し、対象システムに実行して結果をスコアリングします。AIシステムが辿った中間ステップやツール呼び出しの経路も記録されるため、どこで失敗が起きたかを開発者が特定できます。
Microsoft Responsible AIの最高プロダクト責任者Sarah Bird氏は、汎用的なモデル評価だけでは不十分であり、アプリケーション固有の多面的な評価が信頼性の鍵だと説明しました。ASSERTは開発時だけでなく、デプロイ後や継続的な監視にも活用できるとしています。
この発表は、AI業界全体で再現可能なテストと回帰チェックへの関心が高まるなかで行われました。StanfordのHELMやMLCommonsのAILuminate、評価団体METRなど、モデルの行動を多角的に測定するベンチマークの整備が進んでおり、エージェント型AIの普及とともに行動テスト基盤の重要性が増しています。