
KADOKAWAの大規模障害から1年
1年ほど前の2024年6月8日未明にKADOKAWAグループ内の複数のサーバーでアクセス障害が発生しました。
事態を把握した同社は、被害の拡大を防ぎデータを保全するため、関連するサーバーを緊急シャットダウンしました。
この結果、主要サービスを含む広範囲な事業活動が停止に追い込まれます。
KADOKAWAは、安全性を最優先に、汚染された既存のシステムやサーバーをそのまま復旧させるのではなく、システム全体を再構築する方針を決定しました。
特に被害が甚大だった「ニコニコ」は、システムの再構築に時間を要し、約2ヶ月後の8月5日に、視聴やコメントなど基本的な機能を備えた新バージョンとしてサービスを再開しました。
そのポストモーテムとして、バックエンド開発マネージャーの yanagi氏の記事が公開されました。
これがなかなかに興味深い内容でしたので共有します。
ニコニコ生放送がサービスを再開するまでの記録
サービス停止から復旧までの192日間の出来事の記録ですが、単なるシステム復旧プロジェクトに留まらず、コンシューマー向けのサービスを提供していることから、そのブランド管理的な意味での影響を考慮した復旧計画の検討をされているところが興味深い所です。
またニコニコ自体が17年と長期にわたるサービスであったことから、誰も詳細を知らないブラックボックス的な仕組みが存在し、「見通しを立てるための見通しが立たない」状況というのも、なかなかにスリリングです。
8/5に満を持してサービス再開を行い、その後も追加開発を継続して12/16に全ての対応が完了という復旧作業ですが、サービスの規模感を考えると、なかなかの対応速度だと思います。
- 仕掛かり中の新技術を投入するか旧来の仕組みを復活させるのか
- 関係者間の情報共有、コミュニケーションをどのように取っていくか
- いつまでに何を復旧させるか
さらにサービス復旧の参考事例としては、ちょっと毛色は違いますが2021年に発生したみずほ銀行の大規模障害を振り返る「ポストモーテム みずほ銀行システム障害 事後検証報告」といった本もあります。
情報セキュリティにおける事故対応という修羅場ならではの、いろいろな厳しい判断を迫られた状況とお察ししますが、どのような状況でどのような判断を行ったのかは大変参考になるのではないでしょうか。


