障害対応の属人化を防ぐ――freeeのSREが実践する情報共有術:150分間のサービス全停止も教訓に
サービスで発生する障害をゼロにすることは難しい。では、障害をゼロに近づけるために誰が何をしていくか。freeeのSREが大規模障害で学んだことや、障害を減らすための取り組みを紹介した。
Webサービスで起きる障害の原因は、Webサーバやデータベース、キャッシュの設定ミス、ハードウェアの故障など多岐にわたるため、障害のリスクをゼロにしながらサービスを提供することは現実的には難しい。一方で、障害が起きた場合、社会的信頼の損失など悪影響は避けられない。
では、できるかぎり障害をゼロに近づけるためにどうすればいいのか。2020年1月に開かれた「SRE NEXT 2020 TOKYO」に登壇したfreeeでSRE プレイングマネージャー 坂井 学氏の講演内容を要約してお伝えする。
SaaSを提供するなら「障害ゼロ」にはできない
坂井氏は冒頭、講演のゴールを「障害解消に向けた取り組み(障害対応)に課題を感じている人が、改善のための第一歩を踏み出そうと思えるようになること」と説明。SRE(Site Reliability Engineer)として障害に対応した経験を「赤裸々に話すが、まだ課題も多い。ぜひ、みなさんの取り組みも共有いただきたい」と語り、セッションを始めた。
freeeは資金や個人情報に関するセンシティブな情報を多く取り扱っている。例えば「会計freee」は個人事業や法人の財務情報を扱うサービスで、電子決済等代行業に該当するため「銀行法等に基づく登録が必要で、金融庁に登録済み」(坂井氏)だという。freeeは2019年12月にマザーズへ上場し、プライベートカンパニーからパブリックカンパニーへ移行。「障害に対して、よりシビアかつオープンな情報公開が求められるようになった」(坂井氏)のだ。
たとえ障害が許されないような状況でも、坂井氏は「障害はゼロにはできない」と考えているという。
「新しいチャレンジをして、価値を生み出していく必要がある中で障害が一定数発生するのは避けられない。障害の発生を受け入れながら、安定したプロダクトを目指すという相反することの両立を目指しているのがfreeeだ」(坂井氏)
150分間のサービス全停止――大規模障害の発生から学んだこと
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 【リモートワーク自由自在】Windows 10 Wake On LAN(WoL)入門
在宅勤務や遠隔地のサポートで、PCの電源をオンにしたいことがあるのではないだろうか。そのような場合、Wake On Lan(WoL)機能を利用するとよい。ただし、WoLを利用するには事前の準備が必要になる。WoLの仕組みと設定方法などを解説する。 - 改元に伴うシステム改修関連の障害が17件 IPAが情報システム障害データを公開
IPAは「情報システムの障害状況 2019年前半データ」を公開した。この期間に報道された情報システムの障害は33件だった。それとは別に、改元に伴うシステム改修に関連する障害が17件報告された。 - Fluentd+Elasticsearch+Kibanaで作るログ基盤の概要と構築方法
ログ基盤を実現するFluentd+Elasticsearch+Kibanaについて、構築方法や利用方法、実際の案件で使ったときの事例などを紹介する連載。初回は、ログ基盤の構築、利用方法について。