Gartnerのアナリストが、インフラとオペレーション(I&O)のリーダーは、クラウド環境のレジリエンスを最大化するために、9つの原則を導入する必要があると強調した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Gartnerのアナリストは2023年11月21日(英国時間)、英国ロンドンで開催された「Gartner IT Infrastructure, Operations & Cloud Strategies Conference」で、インフラとオペレーション(I&O)のリーダーは、クラウド環境のレジリエンス(回復力)を最大化するために、9つの原則を導入する必要があると強調した。
「物理的な障害ではなくソフトウェアのバグが、ほとんどのクラウド停止の原因だ」と、Gartnerのシニアディレクターアナリストを務めるクリス・ソーンダーソン氏は指摘した。
「クラウドでは、障害がクラウドプロバイダー全体を巻き込むことはほとんどない。サービス全体が停止することもない。部分的な障害、サービスの低下、個々のサービスの問題、あるいは局所的な問題が発生するのが一般的だ」
I&Oチームは、クラウド障害の特徴と一般的な原因を理解する必要がある。Gartnerはクラウド障害の特徴として、「大半の障害は部分的である」「断続的である場合や、パフォーマンスの低下を伴う場合が多く、すぐに気付かれることはなかなかない」「クラウドプロバイダーが提供するサービスによって、レジリエンスは異なる」を挙げた。
「レジリエンスは1か0かではない。絶対的なレジリエンスというものは存在しない。クラウドは、オンプレミスインフラと同等以上のレジリエンスを持つはずだが、それはI&Oチームが、回復力のある方法でクラウドを使用した場合に限られる」(ソーンダーソン氏)
Gartnerのアナリストは、I&Oリーダーがクラウドのレジリエンスを向上させるために、9つの重要な原則を推進することを推奨した。
レジリエンスの要件をビジネスニーズと整合させる。この整合性がないと、レジリエンスに関する期待に応えられなかったり、過大なコストをかけたりしてしまう。
リスクを考慮したアプローチを取り、壊滅的な事象以外も広くカバーするレジリエンス計画を進める。組織が対策によって軽減できる余地が大きい、より一般的な障害に重点を置く。
全てのミドルウェアコンポーネント、データベース、クラウドサービス、統合ポイントをマッピングした依存関係グラフを作成する。これにより、レジリエンスを考慮してこれらの設計と構成を行い、これらを信頼性計画とディザスタリカバリー(DR)計画の両方に組み込む。
継続的可用性のアプローチは、アプリケーション、サービス、データの可用性を常に維持し、障害発生時もダウンタイムをゼロに抑え、影響を限定してサービスレベルを保つことに重点を置く。
アプリケーション自体も、レジリエンスを考慮して設計する必要がある。エンドユーザーが期待するダウンタイムなしのサービスを提供するには、インフラのレジリエンスだけでは十分ではない。
自社ツールまたはサードパーティーのクラウドネイティブDRツールを使って、完全に(またはほぼ完全に)自動化されたDRを実装する。これにより、積極的な復旧時間目標(RTO)の達成に必要な基盤が得られ、DRを定期的にテストできるようになる。
アーキテクチャとDR以外にもレジリエンス標準を採用する。レジリエンスのあるシステムは、チームが品質、自動化、継続的な改善に注力し、アプリケーションのライフサイクル全体に品質を浸透させることを要求する。
クラウドプロバイダーは、レジリエンスの向上に役立つソリューションを提供している。可能であれば、I&Oリーダーはこうしたソリューションを利用し、独自に代替ソリューションを開発して複雑さを増さないようにする。
環境を引き継ぐフェイルオーバーだけに限定して考えるのではなく、代替策を探る。その中には、必要最小限のビジネスクリティカルな機能を提供する、軽量な代替ITや代替アプリケーションなどが含まれる。
Copyright © ITmedia, Inc. All Rights Reserved.