インシデント管理ツールとして人気のPagerDuty。日本でメルカリ、LINE、NTTドコモ、JCBなど、数々の企業に使われている。そのストーリーはまさにリーンスタートアップを地で行くものだ。共同創業者のアレックス・ソロモン氏に、PagerDutyのこれまでとこれからを語ってもらった。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
インシデント管理ツールとして人気のPagerDuty。日本でもメルカリ、LINE、NTTドコモ、JCBなど、数々の企業に使われている。そのストーリーはまさにリーンスタートアップを地で行くものだ。共同創業者でプラットフォームのゼネラルマネジャーを務めるアレックス・ソロモン(Alex Solomon)氏に、PagerDutyのこれまでとこれからを語ってもらった。
PagerDutyは、実は3番目の起業アイデアだった。大学を卒業してAmazonに入社したソロモン氏は、後に同社の共同創業者となる2人とともに起業を目指した。スタートアップアクセラレーターとして著名なY Combinatorに2つのアイデアを持ち込むものの受け入れられず、次にたどりついたのがインシデント通報の自動化ツールだった。
ソロモン氏はAmazonでサプライチェーンシステムを運用していた。同社は障害などのインシデントを適切な担当者のページャー(ポケベル)に通知するシステムを持っていた。
「これは(ITサービス管理ツールの)Remedyを大幅にカスタマイズした社内開発のツールだった。GoogleやFacebookも同じようなツールを独自に作っていた。だから明らかなニーズがあると考え、起業を決断した」(ソロモン氏、以下同)
最初のターゲット顧客は、障害が評判や売り上げに直結するようなオンラインストアやオンラインサービスを提供する事業者だ。
こうした企業のための、さまざまな監視ツールが発するアラートを受け止めて、適切なエンジニアリング担当者のポケベルを鳴らす仕組み。これがソロモン氏たちにとっての、リーンスタートアップでいう「MVP(Minimum Viable Product:最低限の中核的な価値を持つプロダクト)」だった。
このプロダクトを開発する大きなヒントになったのはコミュニケーションサービスのTwillioの登場だ。
「TwillioではAPI一つで電話発信ができる。こうした設計なら、電話で通知する仕組みを構築するのはとても簡単だと分かった」
PagerDutyの基本的なコンセプトはとてもシンプルだったと、ソロモン氏は説明する。
「従来型のインフラ/システム管理ツールや『Amazon CloudWatch』『New Relic』『Datadog』など、企業は多数の監視ツールを使っている。PagerDutyはこうしたツールのアグリゲーターとしての機能を果たす。監視ツールが発する各種のアラートをAPIあるいは電子メールで受け、内容に基づいて適切な担当チームに通知する。また、誰を呼び出すかについては、週次などのスケジューリングが可能だ。これがPagerDutyの最初のバージョンだった」
Amazonの独自システムにも組み込まれていたエスカレーション機能も、PagerDutyは初期から搭載していた。最初に呼び出した担当者からの返事がなかった場合には別の担当者を呼び出す。それでも応答がない場合はチームのマネジャーに連絡する。放っておくと上司へ自動的にエスカレーションされてしまうため、担当者が対応するインセンティブになる、という。
PagerDutyは、ログやメトリックス自体を取り込んだり分析したりするわけではない。あくまでもアラートや変更イベントを取り込み、人による障害対応を迅速化、効率化することに徹する。このコンセプトは今でも変わっていない。
「だが、その後プラットフォームとして大きな進化を遂げることができた。現在われわれが提供している機能から言えば、これはほんの一部に過ぎなくなった」
当初は「障害通知ツール」だったPagerDuty。その後の機能拡充で、障害に対応する作業自体の迅速化や省力化を支援する機能が加わり、「インシデント管理プラットフォーム」と呼べるものに進化したという。さまざまな部署や担当者間の連携を円滑化したり、人が介在することなく問題を解決したりする機能を追加してきたとしている。
PagerDutyでは現在、次のようなことができる。
まず、障害通知はSMS、電子メールの他、モバイルアプリでも行える。モバイルアプリでは障害に関するより多くの情報を見ることができ、対応の意思表示もクリック1つでできる。対応できない場合はアプリ上でエスカレーションを選択することで、問題の迅速な解決につなげられる。
通知では、自動的な優先度付けが加わっている。複数のチームが関わるべき最も重大なレベルのインシデントについては、最高の優先度で取り組むように促すことができる。
アラート通知の数を減らす幾つかの工夫もある。まず、単一のインシデントに関連するアラートを自動的にまとめて通知できる。また、ある程度の時間が経過すれば解決すると分かっている場合、通知を遅らせることができる。
問題解決では、過去の対応履歴などに基づき、問題解決のヒントとなるような情報を提供するという。定型的な対応策があるものについてはルールを記述しておくことで、PagerDutyが自動的に解決することもできる。
「PagerDutyでは、各種のモニタリングツールからのアラートに加え、CI/CDツールやチケットシステム、その他から変更情報を取り込んでいる。統計的にいって障害は、何らかの変更に起因することが多い。そこで過去の対応履歴から発生中のインシデントと変更履歴を結び付けると、問題解決に役立てることができる」
複数のチームや部署が連携して障害に対応できる機能もある。
また、障害対応の担当者以外の社内関係者にも障害発生や対応状況を迅速に知らせ、社外とのコミュニケーションを円滑化する機能も追加している。
「営業担当者や顧客サポート担当者は、顧客から指摘される前に重大インシデントの発生を知ることができる。経営層も、ビジネスに影響を与えかねない問題について、いち早く知ることができる」
障害を収束させたら「ポストモーテム」などとも呼ばれる事後報告書を作成しなければならない。PagerDutyにはこの作業を支援する機能も付け加わっている。
「何が起こったのかについての分析、誰がどう対応したか、影響の度合いはどうだったかについて記録できる。この機能を活用し、企業は新たなテクノロジーを導入する、対応プロセスを改善する、トレーニングを強化するなど、次の同様なインシデントに備えることもできる」
こうして、アプリケーション/サービスの障害対応の基盤としての機能を充実させてきたPagerDuty。だが、最近では一部のモニタリングツールベンダーの間で、監視対象を広げるとともに問題解決を支援する取り組みも見られる。こうしたトレンドをどう見ているのか。
「まず、1つのモニタリングツールに標準化できる組織はいない。また、PagerDutyのように人の側面からアプローチする取り組みはあまり見られないと思う。われわれは個々のアラートを適切なチームと結び付け、問題解決を支援し、さらに重要な問題への対処で複数のチームが円滑に協力・役割分担できるようにすることがわれわれの基本的な価値だ」
PagerDutyは、新たな分野としてセキュリティにも取り組んでいる。セキュリティと運用のチームが協力し、双方のチームが適切なタイミングで適切なアクションを取れるようにしているという。
最近では生成AI機能の適用も進める。2023年7月にはΒ版として、障害ステータスアップデートや事後対応報告書を自動作成する機能や、構成自動化ツールのスクリプトをコーディングなしに作成できる機能をリリースした。
ソロモン氏は、「当初のビジョンは達成できた。そして市場の変化に追随し、守備範囲を広げることができている」と話す。
では、今後はどのような展開を考えているのか。1つの例として、ソロモン氏はワークフローの自動化を挙げた。
PagerDutyは2022年にCatalyticという企業を買収した。ノーコードのワークフロー自動化ツールを開発している会社だ。障害対応だけでなく、企業のあらゆる業務フローを自動化できるという。
「例えば大きなIT企業では、多数のエンジニアを契約で雇っている。こうした社員の雇用手続きから作業環境の整備、トレーニングなどの一連の作業を、開発者でなくても自動化できる。企業はCatalyticを導入することで、社内アプリケーションのための開発チームを雇ったかのようなメリットが得られる」
Copyright © ITmedia, Inc. All Rights Reserved.