詳細を見る
企業のインフラを自律的に操作するAIエージェントが、既存の障害分類では捕捉できない新種の本番障害を静かに生み出しています。VentureBeatの報道によると、PwC調査で79%の組織がすでにAIエージェントを本番環境で稼働させており、96%が拡大を計画しています。一方でGartnerは、リスク管理の不備により2027年末までにエージェントプロジェクトの40%が中止されると予測しています。
問題の核心は、人間のエンジニアがカオス実験を実施する際に行う「今この瞬間にシステムが追加ストレスを吸収できるか」という判断を、自律型エージェントが完全にスキップしている点にあります。たとえば、レイテンシ上昇を検知したエージェントがサービスを再起動した結果、ピーク時のトラフィック処理中だった他の3サービスへ障害が連鎖する事例が報告されています。エージェントは自身の行動のブラストラジアス(影響範囲)を把握する設計になっていません。
この課題に対し、CiscoやSplunkでインフラ自動化に携わってきた筆者は「レジリエンス予算」モデルを提唱しています。これはシステムの吸収容量を静的な閾値ではなく、SLOバーンレート、P99レイテンシの傾向、依存関係の飽和状態、アプリケーション行動シグナルの4種類のライブデータから連続的に再計算する消費可能なリソースとして扱う手法です。カオス実験もエージェント行動も同一の台帳で消費を管理し、複数チームや複数エージェントの行動が重複した際の想定外のブラストラジアスを防ぎます。
LLMを活用したカオス仮説の生成も試みられていますが、依存関係グラフの鮮度という根本的な限界があります。スタンフォード大学のTrustworthy AI Research Labの研究では、モデルレベルのガードレールだけでは安全性の確保が不十分であることが示されました。特にシグナルが曖昧な場合、保留中のデプロイやオンコール体制といった監視システムの外にある情報が判断に不可欠であり、人間への即時エスカレーションが構造的に必要です。
実務としてまず取り組むべきは、インフラに触れるすべての自律エージェントを監査し、その行動範囲をライブSLOバーンレートと照合することです。レジリエンス予算が定義した下限を下回る場合にはエージェントの行動を待機またはエスカレーションに切り替える明示的なルールの設定が求められます。多くの組織では、リスク管理の台帳から完全に外れたエージェントがすでに複数稼働しているとみられ、本番障害が先に発見する前に対処することが急務です。