AIエージェントの信頼性を劇的向上 AUIが「確実な行動」実現の独自モデル発表

2025年10月07日 Google Amazon 推論ポリシースタートアップエージェント

現行AIエージェントの課題

タスク完了の信頼性が低い（企業レベル未達）

業界ベンチマークで成功率30〜56%に留まる

純粋な生成AIは「もっともらしいテキスト」を出力

特定の規則やポリシー遵守の「確実性」が欠如

信頼性を生む独自技術

基盤モデル「Apollo-1」を開発

ハイブリッドなニューロ・シンボリック推論を採用

言語能力と構造化された論理を融合

次トークン予測ではなく次アクション予測を実行

性能差が示す実力

TAU-Bench Airlineで92.5%の通過率を達成

既存トップモデルを大幅に上回る

AmazonやGoogle Flightsでのタスク実行も高精度

企業ポリシー遵守をシステムプロンプトで保証

出典：VentureBeat

詳細を読む

ステルススタートアップAugmented Intelligence（AUI）は、エンタープライズ向けAIエージェントの信頼性を劇的に高める基盤モデル「Apollo-1」を発表しました。従来のLLMが苦手としていた、タスクの確実な実行という課題を克服するため、独自開発のハイブリッドアーキテクチャを採用し、ベンチマークで圧倒的な性能差を示しています。

従来のLLMは、チャットや探索的な対話では優れた能力を発揮しますが、企業が求める複雑なタスクを確実に実行する能力が不足していました。AIエージェントの性能を測るベンチマーク「Terminal-Bench Hard」では、現在の最高モデルでも成功率は30%台に留まり、ビジネスルールが求められる場面で信頼性に欠ける点が大きな課題でした。

Apollo-1は「ステートフル・ニューロ・シンボリック推論」というハイブリッド構造に基づいています。これは言語の流暢さを担うニューラル層と、意図や制約といった構造化された論理を担うシンボリック層を統合し、タスク実行における「確実性（Certainty）」を保証するためのものです。

Transformerモデルが次のトークンを確率的に予測するのに対し、Apollo-1は会話の中で次に取るべき「アクション」を予測します。この構造により、エンコーダが自然言語をシンボリックな状態に変換し、決定エンジンが次の行動を決定するという、閉じた推論ループを実行。統計的な予測ではなく、決定論的な動作を実現しています。

この決定的な動作は、企業ポリシーの遵守において極めて重要です。例えば、銀行が「200ドル以上の返金には必ずID確認を義務付ける」といった制約を、Apollo-1では「System Prompt（振る舞い契約）」として定義し、確実に実行できます。これは、純粋な生成AIでは保証できない行動の信頼性を実現します。

ベンチマーク結果はその有効性を示しています。航空券予約タスクを評価する「TAU-Bench Airline」において、Apollo-1は92.5%という驚異的な通過率を達成。これは競合するトップモデルの56%を大きく引き離すものであり、金融、旅行、小売など、タスク実行の信頼性が求められる業界での応用が期待されます。