GitHub、大規模障害の原因と再発防止策を公表

GitHub

障害の原因と経緯

急激な利用増がDB過負荷を誘発
キャッシュTTL変更が障害を増幅
サードパーティアプリのAPI負荷10倍増
Redis設定不備でActions長時間停止

再発防止の取り組み

ユーザーキャッシュのDB分離・再設計
Azure移行で水平スケーリング強化
7月までに全トラフィックの50%をAzure
モノリス分割で障害の連鎖を遮断
詳細を読む

GitHubのCTOであるVladimir Fedorov氏は2026年3月、2月2日・2月9日・3月5日に発生した大規模障害について原因と対策を公式ブログで公表しました。プラットフォーム全体の急激な利用増加がアーキテクチャの限界を露呈させたことが根本原因です。

2月9日の障害では、認証・ユーザー管理を担うコアデータベースクラスタが過負荷に陥りました。人気クライアントアプリの更新によりAPI読み取りトラフィックが10倍以上に急増したことに加え、新モデルリリースに伴うキャッシュTTLの短縮が書き込み負荷を増大させ、複合的に障害が拡大しました。

2月2日と3月5日にはGitHub Actionsで重大な障害が発生しました。前者はテレメトリの欠落がセキュリティポリシーの誤適用を引き起こし全リージョンに波及、後者はRedisクラスタのフェイルオーバー後に書き込み不能となる潜在的な設定不備が露呈しました。

短期的な対策として、ユーザーキャッシュシステムの再設計、重要インフラのキャパシティプランニング監査、主要サービスの依存関係分離、スパイク時の負荷制御メカニズムの強化を進めています。クリティカルパス間の分離不足や負荷制御の不備といった共通課題に対処します。

長期的にはAzureへのインフラ移行を加速し、現在全トラフィックの12.5%をAzure Central USリージョンから配信中で、7月までに50%到達を目指しています。さらにモノリスを独立したサービスとデータドメインに分割し、個別スケーリングと局所的なトラフィック制御を実現する方針です。