Cloudflare大規模障害の原因はボット管理設定ミスと判明
技術的な原因
ボット管理のクエリ変更
重複データでメモリ超過
プロキシシステムがダウン
再発防止策
設定ファイルの検証強化
キルスイッチの導入
出典:The Verge
詳細を読む
米Cloudflareは19日、ChatGPTやXを含む多数のサービスをダウンさせた大規模障害の原因を公表しました。2019年以来「最悪」とされるこの障害は、ボット管理システムの内部設定ミスによるもので、サイバー攻撃ではありません。
同社CEOによると、原因はボット対策機能の設定ファイル生成にありました。データベースへのクエリ変更により大量の重複データが発生し、メモリ制限を超過したことで、トラフィックを処理する中核システムが停止しました。
障害の影響は、同社のボット判定ルールを利用していた顧客に集中しました。誤検知により正常な通信が遮断され、主要AIサービスやSNSが数時間にわたり利用不能となる事態を招きました。
今回問題となったシステムは、生成AIの学習用クローラー等を制御するためのものでした。皮肉にも、AIボットを防ぐための仕組みが、AIサービス自体の停止を招く結果となりました。
同社は再発防止に向け、設定ファイルの検証プロセス強化や、問題発生時に機能を即座に遮断するグローバルキルスイッチの導入など、4つの具体的な対策を提示し、信頼回復に努めています。