仮想CTOが怒号、疑似SNSで炎上 インシデント対応を「eSports」に? 企業対抗でバトル:PagerDutyが開催、狙いを聞いた
想像するだけで胃が痛くなるインシデント対応を、あえてeSportsのように競技化した企業対抗バトルが開催された。なぜインシデント対応を“エンタメ”に昇華したのか。仮想CTOの怒号が飛び、疑似SNSが炎上したコンテストの模様と、企画の裏側に迫った。
IT担当者が血眼になってログを追い、システム障害の原因究明に奔走している裏で、経営層や営業担当者からは「いつ復旧するんだ」「顧客になんて説明すればいい」と矢継ぎ早に問い合わせが殺到する。対外的な説明が遅れれば、SNSには「まだつながらない」「運営は何やってるの?」というユーザーの怒りの声があふれ、またたく間に炎上していく――。
ITがビジネスのあらゆる場面に浸透した結果、システムの障害はビジネスを揺るがす重大なリスクの一つだ。同時に、対応を迫られる現場や担当者にとって「インシデント対応」はできれば遭遇したくない、想像しただけでも胃が痛くなる出来事となっている。
しかし、そんなインシデント対応を、あえて「eSports」のようなエンタメ性あふれる企業対抗コンテストとして開催している企業がある。それが、インシデント管理プラットフォームを提供するPagerDutyだ。
なぜ、インシデント対応を“競技化”したのか? 同社が開催した「PagerDuty Tech Day」で開かれた企業対抗コンテスト「PagerDuty Challenge Cup」の企画者である草間一人氏に、企画の真意を聞くとともに、仮想CTO(最高技術責任者)の怒号と疑似SNSの炎上が入り乱れた、白熱した決勝戦の模様をお届けする。
「日本企業には『外部で学べる場』が必要」
サービスに障害が発生すると、運用・保守チームや開発チームが招集され、復旧と原因究明のための障害対応に奔走することになる。しかし、現代のシステムは、クラウドやクラウドネイティブ技術が普及し、コンテナやKubernetesといった複雑な要素によって構成されている。
障害が発生した際、クラウドプロバイダー側の問題なのか、自社側の問題なのかを切り分ける作業から始めなければならず、調査すべきポイントは多岐にわたる。IT担当者に求められる技術的プレッシャーは計り知れない。
しかも、障害対応に集中する担当者のもとには、経営層、カスタマーサポート、広報、営業といったステークホルダーが状況説明を求めて押し寄せてくる。障害が発生したとき、対応を迫られるのはIT担当者だけではないためだ。
顧客からは「今何が起きているのか」「いつ復旧するのか」という不安の声があふれる。広報の発信が遅れれば公式SNSは炎上し、サポートの情報が不十分であれば顧客離れを招く。経営層の意思決定が遅れれば、被害の長期化にもつながりかねない。
IT担当者の負担が大きいのは確かだ。しかし他の関係者も、それぞれの職務を果たすために必要な情報を求め、必死に動いているのである。
そこで草間氏が強調するのが、技術的な復旧にとどまらず、顧客への説明や社内調整まで含めた一連の取り組みであるインシデント対応の重要性だ。
「PagerDutyの調査によれば、インシデントによる国内1企業当たりの年間損害額は約52億円にも上ります。関係各所が連携し、組織としていかに早く対応できるかが、ビジネスの成否に直結しているのです」(草間氏)
インシデント対応力を高めるためには、技術力を磨くだけでは十分ではない。ビジネス全体に関わるからこそ、経営層、事業部門、顧客を含む多様なステークホルダーに、チームとして対応する力を磨くことが重要になるのだ。
起きないと学べない インシデント対応を学ぶ上でのジレンマ
その一方で草間氏は、インシデント対応力を高めようとした際に、構造的な難しさが立ちはだかると指摘する。
「企業としては、インシデントは起きない方がよいに決まっています。しかし、インシデントが起きないと学べないことがたくさんあります。この本質的な矛盾が、インシデント対応を学ぶことを難しくしています。机上の訓練が役に立つこともあります。ただ、ビジネスへ影響が及ぶ緊迫感の中での対応とは、心持ちがまったく違うのです」(草間氏)
具体的には、クイズ形式による机上シミュレーションや、ゲーム形式で学べるハンズオンのようなトレーニングが、さまざまなコミュニティーや企業の間で実施されている。それらは参加者のスキル向上に貢献しているものの、インシデント対応の核心はそれだけではない。
担当者が懸命に技術的な解決を図っている最中に、社内や顧客からの問い合わせが一斉に押し寄せる。そのような緊迫感を事前に体験できる場は、ほとんど存在しない。草間氏はその差を、実際の火災現場と避難訓練の違いに例える。
別のアプローチとして、「カオスエンジニアリング」のように、意図的に障害を起こすことで、障害へのレジリエンスを強化する手法も存在する。しかし、カオスエンジニアリングを実現するためには、自動化基盤や継続的改善の仕組み、さらにそれを支える組織文化が不可欠となる。多くの日本企業は手前の段階にとどまっているのが実情だと、草間氏は指摘する。
「実際のビジネスに近い環境を用意し、本物の障害に対処する仕組みを作りたかった」
こうした問題意識から草間氏が立ち上げたのが、PagerDuty Challenge Cupだ。インシデント対応を専門とするPagerDutyだからこそ実現できる、限りなく本番に近い訓練の場。それを企業の垣根を越えた共通の学びの機会として提供することが、企画の根底にある思いだと、草間氏は言う。
CTO、カスタマーサポート、広報担当役がインシデント対応に介入 現実を再現
PagerDuty Challenge Cupは、企業対抗でインシデント対応の腕を競うコンテストだ。2025年に第1回が開催され、2026年は2回目の開催となる。4月15日に開催された決勝戦には、楽天グループ、イオンスマートテクノロジーをはじめ、予選を勝ち抜いた6チームが集結した。
各チームは仮想チャットサービス「ペイジーチャット」を運用する担当者という設定で、全体指揮を執る「インシデントコマンダー」、実作業を担う「レスポンダー」、記録と情報集約をする「スクライブ」の3役に分かれ、襲い来るインシデントを制限時間内に処理しなくてはならない。競技の模様は、一般観戦者に公開され、各チームは衆目の中でインシデント対応に取り組むことになる。
コンテストのユニークな点は、障害だけでなく、主催者側が用意した「ステークホルダー」にも対応する必要があることだ。CTO、カスタマーサポート、広報担当のロールが存在し、それぞれの職責を果たすために、各チームに容赦なく連絡を入れてくる。障害への対処だけでなく、それぞれのステークホルダーにSlackで適切なコミュニケーションを行い、必要な情報を提供する義務がある。特に厄介なのは、Slackではなく、直接現場に押しかけてくるCTO役への対応だ。
こうしたコンテストの仕組みに合わせ、障害解消だけでなく、ステークホルダーへの適切なコミュニケーション、インシデント起票への応答速度(MTTA:Mean Time to Acknowledge)、そしてポストモーテムの内容が採点対象に含まれる。障害だけを黙々と直せば高得点を取れるわけではない、インシデント対応の総合力を評価する設計だ。
さらに、PagerDuty Challenge Cupには、観戦者を当事者として巻き込む仕掛けも用意されている。それが、今回のために開発された疑似SNS「PingPost」だ。観戦者は、外からインシデント対応を眺めるだけでなく、ペイジーチャットやPingPostに自由にアクセスできる。障害をユーザー目線で体験したり、感想を自由に書き込めるようにすることで、会場全体の一体感を生み出すことが目的の一つだ。
PingPostの役割は参加者体験の向上だけではない。裏ではAIボットが稼働しており、障害が発生すると「つながらないんだけど、どうなっているの?」といった投稿が自動的に流れる仕組みだ。時間の経過とともに投稿の熱量も高まり、当初の「運営、がんばって」といった応援ムードから、「今どうなっているんだ」という怒りの投稿へと変化する。草間氏によれば、これは実際にインシデントが発生した際、SNSが荒れていく状況を再現したものだという。
会場を揺らすCTOの怒号、炎上する疑似SNS
決勝戦は静かに始まった。現実の障害と同様、各チームも観戦者も、障害がいつ発生するかは誰も知らない。PingPostも、人間による応援コメントや、受け狙いのコミカルな投稿が流れるなど、平穏そのものだ。そこから、504タイムアウト、メッセージの二重表示、サービスへの接続エラーなど、チームの環境によってまちまちの障害が発生し始める。
障害は、プラットフォームが原因のものもあれば、アプリケーション自体のバグが原因であるものもあるなど、さまざまだ。自動アラートによる起票をすり抜ける「サイレント障害」もある。PingPostの投稿も、最初は「まだ直らないのかな。運営さん頑張って」という穏やかなトーンが、障害が長引くにつれて「こんなに長く利用できないのは異常でしょ」「放置されてる」と不満がにじみ出たトーンに変化していく。
各チームは、各ロールからのSlack連絡や、AIボットがPingPostに投げつける不満の声を見ながら、冷静に現状を把握し、インシデント対応に取り組まねばならない。そこに、サービスの停止に怒り心頭のCTO役の担当者が怒鳴り込んでくる。
「まだサービス復旧しねえの?」「これ、サーバの電源引っこ抜いたらいいんじゃねえの?」 CTO役は「一線を退いたエンジニア」という設定で、威圧だけでなく、時に的外れなアドバイスも投げかけ、チームをかき乱していた。半ばパワハラめいたCTO役の怒鳴り込みは、時に会場の笑いを誘っていたが、現実のインシデントでは笑い事では済まない。
現実のCTOがそうした行動を取るケースは少ないだろうが、多様なステークホルダーの存在、速やかにシステムを元通りにしなければならないといった切迫した状況を考慮すると、決してあり得ないとは言い切れないシチュエーションだ。
決勝戦は、主催者の想定を上回るハイレベルなものとなった。「制限時間ギリギリで全ての課題が解けるか解けないかぐらい」と難易度を設計した草間氏だが、多くのチームが余裕を持って課題をクリア。急きょ追加された5問目が優勝チームの明暗を分けた。激戦を制したのは、大手通信系SIer(システムインテグレーター)所属の「CTOに安眠を」チームだった。
優勝した「CTOに安眠を」チームのメンバーに、大会の感想を伺った。
「普段もインシデント対応をやっていますが、チーム内で役割を明確に分担して対応する経験は新鮮でした」
「障害への対処と、CTOやステークホルダーへの連絡対応の両立が一番ハードでした」
「ロールを分けて対応することの重要性を実感しました。今後、インシデントが起きたときにも、この経験を生かして対応できるようにしたいです」
メンバーの表情には、2時間にわたる修羅場を乗り切った達成感と、得られた学びへの確かな手応えに裏打ちされた充実感がにじんでいた。
AIが肩代わりする時代、それでも人が学び続けるべきワケ
草間氏に、AI時代に人がインシデント対応を学び続ける意味についても聞いてみた。というのも、「PagerDuty Operations Cloud」をはじめ、IT運用においてもAIエージェントを機能として取り入れる動きが業界全体で加速しつつあるためだ。
AIの浸透は、インシデント対応をする組織とエンジニアに、どのような影響をもたらすのか。草間氏の見解は、AIの浸透に対してポジティブだ。
「障害はささいなミスから生まれることが多く、対応方法も判明しているのに起きるものも多い印象です。AIは、こうしたものを探すのが得意です。うっかりミスの防止や軽微なインシデントの自動対応が進めば、『夜中に起こされずに済む』世界が訪れるでしょう」(草間氏)
ただし草間氏は、AIが全てを肩代わりできるとは考えていない。草間氏自身、運用エンジニアとして数々のインシデントに向き合ってきた経験から、「私はインシデント対応に育てられた」と語るほど、実体験を通じた学びの価値を重視している。
AIが軽微な障害を処理してくれれば、人間はより複雑で高度な判断を求められるインシデントに集中できるようになる。だからこそ、インシデント対応スキルを磨き続ける重要性は、AI時代においてもまったく変わらないのだ。
「ビジネス的な判断、技術的に難しい判断は、現在のAIにはできません。最後は、障害の内容を理解した上で、人間が対応する必要があるのです。そのためにも、引き続きインシデント対応スキルを学び続けなくてはなりません」(草間氏)
企業にとって、インシデント対応はもはや運用チームだけの関心事ではなく、ビジネスに直結する経営課題といえる。組織としてどう学ぶ機会を設計し、どう文化を育てるか。コンテストの取り組みは大きなヒントになるのではないだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
普通の組織で「脆弱性管理」を始めるには? 日本シーサート協議会WGが解説する4つのステップ
サイバー攻撃は事業継続を脅かす経営課題となって久しい。サイバー攻撃の被害を招く主要な原因の一つにあるのが、対策可能なはずの「既知の脆弱性」だ。では、普通の組織は既知の脆弱性管理をどう始めればよいのか。日本シーサート協議会の脆弱性管理WGが「Internet Week 2024」で、脆弱性管理を始めるための4つのステップを解説した。
事業停止50日、被害額17億円――物流の「関通」社長が語るランサムウェア感染、復旧までのいきさつと教訓
兵庫県尼崎市に本社を置く総合物流企業、関通。2024年9月にランサムウェア感染被害に遭い、約50日間にわたって事業が停止、被害額は17億円にも上ったという。2025年7月末に開かれたセミナーで、関通の代表取締役社長である達城久裕氏が、ランサムウェア攻撃被害に遭った当時の状況を振り返り、被害の教訓を紹介した。
ランサムウェア攻撃が相次ぐ今、100兆件超の兆候を分析したMicrosoftが10のセキュリティ対策を提言
Microsoftはサイバーセキュリティ動向に関する年次レポート「Microsoft Digital Defense Report 2025」を公開した。サイバー攻撃の現状、主要な標的、国家が関与する攻撃の脅威、AI活用の動向に焦点を当て、組織に求められる10の取り組みを紹介したものだ。
前橋赤十字病院、「ランサムウェアは防げない」前提の“医療を止めない”データ復旧を整備
医療機関を標的としたランサムウェア攻撃が国内外で相次いでいることを踏まえ、前橋赤十字病院はバックアップと復旧、脅威検知などの対策を導入し、サイバーレジリエンスの体制を見直した。
約4割の日本企業で「セキュリティインシデントに関する最終責任者が不明確」 ファストリー調査
ファストリーは2025年5月20日、企業の最高情報セキュリティ責任者の説明責任に関する調査結果を発表した。それによると「セキュリティインシデントに関する最終責任者が不明確」という企業が37%あった。







