本連載は、「Microsoft SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は「FCI構成時のトラブル対処と今後の対策方法」を解説します。
本連載では、「Microsoft SQL Server(以下、SQL Server)」で発生するトラブルについて、「なぜ起こったか」の理由とともに具体的な対処方法を紹介していきます。
「Windows Server 2012 R2」で構成したWSFC(Windows Server Failover Clustering)上に「SQL Server 2016 RTM」をFCI(Failover Cluster Instance:フェイルオーバークラスタインスタンス)としてインストールした環境を想定して解説します。FCI構成の詳細については、以前紹介した「SQL Serverシステムの可用性を高める“Always On フェイルオーバークラスタリング”の仕組み」もご覧ください。
トラブルの実例:2ノードのFCI構成とするSQL Serverシステムとしているにもかかわらず、稼働中のアプリケーションがエラーを出力して、サービスを継続できなくなった。
データベースサーバやアプリケーションサーバの動作を確認しようとするも、そもそもSQL Serverの反応がなかった。Windows Serverの「フェールオーバー クラスター マネージャー」でリソースを確認すると、SQL Serverごとエラーが発生しており、正しく起動していないことが分かった(図25-1)。
今回は、FCIで可用性を高めた環境にもかかわらず、SQL Serverシステムのフェイルオーバーが正しく機能せず、サービス停止にまで陥るトラブルになった事例です。
FCIの環境は一般的に、ネットワークカードやディスクパスなどを冗長化してあるために、単一障害ではSQL Server全体が停止することはないはずです。では、なぜサービス停止にまで陥ったのでしょう。ともあれ、障害発生時のイベントログを確認します(図25-2)。
イベントログでも、ディスクアクセスのエラーが起こっていることを確認できました。図25-2のイベントログと、図25-1のフェールオーバー クラスター マネージャーで確認した結果から、サーバがディスクを認識できず、ディスクアクセスができないエラーが発生。その結果、SQL Serverのリソースが起動されない状態となっていました。
今回のトラブルは、共有ディスクへアクセスできなくなった状態に起因しています。前述した通り、FCI環境で別のノードがあるならば、構成要素が二重化されています。そのため、大抵の場合はフェイルオーバーすることで障害が回避されるので、システムの停止までには至りません。しかし、共有ディスクへの全アクセス経路や、RAIDで冗長化されているディスクが2本同時に故障するといった、想定を超えた二重障害が発生してしまったことが根本の原因と想定されます。
Copyright © ITmedia, Inc. All Rights Reserved.