システムがますます企業収益に密接に関連するようになる中で、「オブザーバビリティー」(可観測性)の重要性が高まっています。従来のモニタリングと何が違い、なぜ今ビジネス基盤として注目されているのかをまとめます。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
企業のサービスや業務におけるデジタル化が進み、ITシステムは売り上げや顧客体験を左右する“ビジネスの中核的な存在”となってきました。システム障害はもはやIT部門の問題にとどまらず、企業の収益やブランド価値に直結する経営リスクとして捉えられます。
そうした中で注目を集めるようになってきたのが、「オブザーバビリティー」(可観測性)という概念です。オブザーバビリティーとは、ごく簡単に言えばシステム内部の状態を観測可能にし、システムで何が起きているのかを把握・分析できるようにすることです。
システム障害はさまざまな要因によって引き起こされます。アプリケーションの不具合だけでなく、ネットワーク機器のトラブルやクラウドサービスの障害、ソフトウェア更新のミスなど、原因は多岐にわたります。
例えば、オブザーバビリティーを実現するツールを提供するNew Relicの調査では、システム停止の主な原因として以下が上位に挙がっています。
こうした要因によって引き起こされるシステム障害が、ビジネスに甚大な損失をもたらしている現状も同じ調査で示されています。一度システムが停止すると、企業の損失コストの中央値は1時間当たり200万ドル(約3億800万円)、1分当たり500万円以上に達する実態が示されています。障害が長引くほど損失は拡大し、顧客離脱や信頼低下という二次的ダメージも加わります。
こうした背景から、企業には障害発生後の対応だけでなく、異常の兆候を早期に把握し、サービス品質を継続的に最適化できる運用基盤が求められるようになっています。しかし、複雑化した現代のシステムでは、従来のモニタリングだけではこうした要件を満たすことが難しくなっています。
さらに近年では、システムの状態を継続的に可視化して改善を重ねることで、ユーザー体験の向上やサービスの品質改善といったビジネス価値の創出につなげるという考え方も広がりつつあります。
従来のモニタリングは、CPU使用率やメモリ消費量、レスポンスタイムといった個別の指標を監視し、しきい値超過時にアラートを出す、「ポイント」(点)の監視が中心です。
この方式は、システム構成が比較的単純で、問題箇所が特定しやすい環境では有効に機能してきました。しかしクラウドサービスが混在するなど稼働環境が複雑になるシステムでは、限界があります。
例えばサービス同士がAPI(アプリケーションプログラミングインタフェース)で連携し、コンピューティングリソースが動的に増減するクラウド環境では、リソース個別の異常を検知できたとしても、「どのサービスのどの処理が原因なのか」「影響範囲はどこまでか」を迅速に把握することは難しくなります。「アラートは出ているが原因特定に時間がかかる」という状況が生じやすいのです。
こうしたモニタリングの限界から必要性が高まってきたのが、オブザーバビリティーです。オブザーバビリティーは、単に監視項目を増やすことを意味するものではなく、インフラやアプリケーションの処理、サービス間の通信など複数のレイヤーから得られるデータを基に、システムの内部状態や振る舞いを総合的に把握できるようにするアプローチです。
その手法に用いられるのが、数値指標であるメトリクスや、何が起きたのかを記録するログ、処理経路に関するトレースといったデータです。これらを横断的に関連付けて分析することで、「どのサービスのどの処理で遅延が生じ、それがどの機能に影響しているのか」といった因果関係まで追跡できるようにします。
オブザーバビリティーは障害対応や運用効率の改善に効果をもたらします。しかし現在、企業にとって注目に値するのはそれだけではありません。デジタルビジネスでは、ユーザー体験のわずかな変化が売り上げに直接影響するからです。
例えばECサイトの表示遅延や決済処理の不安定さは、即座に離脱率の上昇や購買機会の損失につながりますし、金融サービスでも、応答性能や可用性は顧客満足度や継続利用率を左右する重要な要素です。
そのため企業では、「システムが正常に動いているか」だけでなく、「ユーザーが快適にサービスを利用できているか」、さらには「どの機能が体験価値に影響しているか」まで把握する価値が高まっています。システム挙動とユーザー行動、ビジネス指標を関連付けて分析できるオブザーバビリティーが企業のビジネスにとってますます重要になっていると言える背景には、こうしたオブザーバビリティーの一側面もあるのです。
近年のAI(人工知能)技術の利用拡大も、オブザーバビリティーの必要性を押し上げています。AIを組み込んだサービスやシステムは構成がより複雑になる他、判断や処理をAI技術に任せるようになるほど、その挙動や影響を把握しにくくなるためです。
デジタルビジネスにおいてシステムの品質とビジネス成果が不可分になった今、オブザーバビリティーはインフラ運用チームだけの課題ではなく、事業部門や経営視点でも横断的に捉えるべきアプローチになりつつあります。これは、ITシステムがビジネス成果を左右する重要な基盤になっていることの表れです。それと同時に、システムの内部状態を十分に可視化できない場合、サービス品質や顧客体験の競争で有利に立てない可能性があるという意味でもあるのです。
システム障害が発生すると「1分ごとに500万円が消える」 New Relic調査
「SQLをAIが書く」時代、ClickHouseが語る“なぜデータベースの高速性が求められる”のか
なぜ「モニタリング」ではなく「オブザーバビリティ」の重要性が高まっているのか? Splunkが解説Copyright © ITmedia, Inc. All Rights Reserved.
編集部からのお知らせ