ServiceNow、企業向け音声AIの評価基盤EVA-Bench 2.0を公開
出典:Hugging Face
詳細を読む
ServiceNowは2026年6月4日、企業向け音声AIエージェントを評価するためのベンチマーク「EVA-Bench Data 2.0」をオープンソースで公開しました。航空カスタマーサービス、企業ITサービス管理、医療人事サービスの3領域にわたり、121のツールと213の評価シナリオを収録しています。初版から約4倍のシナリオ拡大となります。
音声エージェントの失敗はドメイン固有であるという課題意識がこのベンチマークの出発点です。航空業界で確認コードを正確に処理できるシステムでも、医療HR領域の複雑なポリシー対応では失敗することがあります。EVA-Bench 2.0は、各領域の実際の業務フローに基づいたシナリオを設計し、単一意図・複数意図・敵対的呼び出しの3タイプを網羅しています。
データの信頼性確保にも注力しています。すべてのシナリオは、OpenAI GPT-5.4、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6の3つのフロンティアモデルで解決可能であることを検証済みです。シナリオ生成にはグラフベースの合成データパイプライン「SyGra」を使用し、ユーザー目標・初期データベース・期待される最終状態を一貫して生成することで再現性を担保しています。
今後は英語以外の多言語対応も予定しています。名前や地名、電話番号をローカライズし、フランス語など各言語での評価を可能にする計画です。データセット、評価フレームワーク、リーダーボードはすべてMITライセンスでHugging FaceおよびGitHubから利用できます。