本連載は、「Microsoft SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は、データベースシステムの可用性を高める「Always On」にまつわるトラブルに備え、「Always on フェイルオーバークラスタリング」とは何かを解説します。
本連載では、「Microsoft SQL Server(以下、SQL Server)」で発生するトラブルについて、「なぜ起こったか」の理由とともに具体的な対処方法を紹介していきます。
前回まではSQL Serverが用いる「トランザクションログ」にまつわるトラブル事例を紹介してきました。今回から、SQL Serverで発生する5大トラブルのうち、4つ目のカテゴリーとなる「フェイルオーバー」「Always on」に関するトラブル事例と解決策を紹介します。
「Always On」は、SQL Serverに搭載された可用性(*1)ソリューションの概念のことを指します。大きく、「フェイルオーバークラスタインスタンス(Failover Cluster Instance:FCI)」と「可用性グループ(Availability Group:AG)の2つに分類されます。このうち今回は、FCIの仕組みを解説します。
*1:可用性とは、システムに何らかの障害が発生した場合に、サービス/業務を停止させないようにするために工夫/対策されたシステムの特徴のことです。例えば、ディスクを冗長化する「RAID」もその1つです。RAIDは、仮に物理ディスクが1つ故障しても他のディスクで代替することで、データの読み書きを止めない=サービス/業務を止めないように対策できます
FCIは、Windows Serverが提供する「WSFC(Windows Server Failover Clustering)」上で動作する、SQL Serverの可用性を高めるための機能です。WSFCは複数のノード(サーバ)、ドメインコントローラー(*2)、共有ディスク、ネットワークを使って構成されます。複数のノードから1つのディスクを参照するように動作し、あるノードに障害が発生したら、他のノードで処理を肩代わりし、システム全体として処理/サービスを続行できるようにします。
*2:ドメインコントローラーは、Windows Serverが持つ機能であり、Active Directoryと呼ばれるディレクトリ構造の中にサーバ、クライアント、ユーザー、それらを統合するグループなどを定義し認証およびアクセス制御を行うための仕組みです。Windows Server 2016以降はドメイン環境でなくてもクラスタ構築が可能となっています
WSFCでは、ノード間でネットワークやディスクI/Oを通じて死活監視(マシンやシステムが正しく動作しているかどうかを外部から継続的に調べること)をしています。死活監視で異常を検知したら、該当するサービスを再起動、または別のノードへの移動を試みます。別のノードへ移動することを「フェイルオーバー」と呼びます。本稿におけるFCIは「WSFC上で動作しているSQL Server」のことを指しますので、フェイルオーバーされる対象は「SQL Serverのサービス丸ごと」です。なお、WSFCはグループ単位でフェイルオーバーを実行するので、正確に表現すると「SQL Serverインスタンスの含まれるグループが、別のノードへ移行される」となります。
Copyright © ITmedia, Inc. All Rights Reserved.