GitHub、大規模障害の原因と再発防止策を公表
障害の原因と経緯
急激な利用増がDB過負荷を誘発
キャッシュTTL変更が障害を増幅
サードパーティアプリのAPI負荷10倍増
Redis設定不備でActions長時間停止
再発防止の取り組み
ユーザーキャッシュのDB分離・再設計
Azure移行で水平スケーリング強化
7月までに全トラフィックの50%をAzureへ
モノリス分割で障害の連鎖を遮断
出典:GitHub公式
詳細を読む
GitHubのCTOであるVladimir Fedorov氏は2026年3月、2月2日・2月9日・3月5日に発生した大規模障害について原因と対策を公式ブログで公表しました。プラットフォーム全体の急激な利用増加がアーキテクチャの限界を露呈させたことが根本原因です。
2月9日の障害では、認証・ユーザー管理を担うコアデータベースクラスタが過負荷に陥りました。人気クライアントアプリの更新によりAPI読み取りトラフィックが10倍以上に急増したことに加え、新モデルリリースに伴うキャッシュTTLの短縮が書き込み負荷を増大させ、複合的に障害が拡大しました。
2月2日と3月5日にはGitHub Actionsで重大な障害が発生しました。前者はテレメトリの欠落がセキュリティポリシーの誤適用を引き起こし全リージョンに波及、後者はRedisクラスタのフェイルオーバー後に書き込み不能となる潜在的な設定不備が露呈しました。
短期的な対策として、ユーザーキャッシュシステムの再設計、重要インフラのキャパシティプランニング監査、主要サービスの依存関係分離、スパイク時の負荷制御メカニズムの強化を進めています。クリティカルパス間の分離不足や負荷制御の不備といった共通課題に対処します。
長期的にはAzureへのインフラ移行を加速し、現在全トラフィックの12.5%をAzure Central USリージョンから配信中で、7月までに50%到達を目指しています。さらにモノリスを独立したサービスとデータドメインに分割し、個別スケーリングと局所的なトラフィック制御を実現する方針です。