New Relicは、SREの実践で重要なSLI、SLOを容易に設定し、エラーバジェットをモニターすることで開発・運用における攻めと守りのバランスをとれるようにするサービスレベル管理機能の提供を開始した。ユーザーに無償で提供する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
オブザーバビリティ(可観測性)ツールを提供するNew Relicは2022年5月17日、サービスレベル管理(SLM)が容易に行える機能を追加したと発表した。同社製品のユーザー(Free Tierを含む)に無償で提供される。既にサイバーエージェント、ぐるなび、NTTドコモなどが利用しているという。
New Relicはアプリケーションパフォーマンス管理(APM)をはじめとした機能を備える総合的なモニタリング/可観測性プラットフォーム「New Relic One」を提供している。今回の機能拡張では、サービスレベルの評価指標と目標を数分で設定し、即座にサービスレベルという観点からの監視ができるようになる。サービスレベルの達成状況が色分けで示され、「エラーバジェット」(後述)の確認も可能。さらにAPMとの連携で、ドリルダウンによる問題の原因究明ができる。
SRE(Site Reliability Engineering)の文脈では、「SLA(Service Level Agreement)」「SLI(Service Level Indicator)」「SLO(Service Level Objective)」といった言葉が使われる。広く知られているSLAは、対外的に(顧客に対して)約束するサービスレベル(パフォ−マンス、可用性など)のことで、SLIはSLAに関する判断を下すための計測指標。SLOは、SLIを計測指標として用いた内部的な達成目標数値を意味する。
「経営層は顧客満足度満点を目指したい。開発チームは新しい機能を最短のサイクルで投入していきたい。また、運用チームは高い稼働率を維持するため、開発チームがバグを含む可能性のある新バージョンを次々にリリースすることを嫌がる。これまで開発チームは『今月はバグを2回出してしまったので、これ以上出すと運用チームに怒られるからリリースを控えよう』などと、感覚で判断してきた。しかしSLOを実測値と照らし合わせることで『エラーバジェット』を使い、客観的な判断ができるようになる」(New Relic日本法人 CTO 執行役員松本大樹氏)
エラーバジェットはSLO達成に向けた余裕の大きさを表す。例えば年1時間のダウンタイムが許されるSLOで、5月末時点での累積ダウンタイムが20分であるなら、まだ40分相当のリスクを冒せる余地があることになる。エラーバジェットが残っている限り、開発チームは攻めの姿勢を保つことができる。一方で運用側も、工数や予算の無駄を減らせる。
New Relic Oneのサービスレベル管理機能では、SLOを設定する対象を指定すると、SLIが自動的に推奨される。これを選択すると、同製品で既に取得しているデータを基に、現状よりある程度高い数値が自動的に推奨SLOとして提示される(受け入れられなければカスタマイズも可能)。
SLOを設定すれば、即座にSLIとエラーバジェットの状況が一覧できるようになる。状況は赤、黄、緑で色分けされ、例えば赤に表示されているものをクリックすると、詳しい数値の確認や原因の分析が行える。
前出の松本氏は、「既にNew Relic Oneの開発言語でSLOを設定して活用している顧客はいるが、今回の機能で多数の企業が気軽に始められるようになる」と話している。
Copyright © ITmedia, Inc. All Rights Reserved.