FCI構成としていたにもかかわらず、SQL Serverが立ち上がらなくなった（フェイルオーバートラブル）：SQL Serverトラブルシューティング（32）（1/2 ページ）

本連載は、「Microsoft SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は「FCI構成時のトラブル対処と今後の対策方法」を解説します。

» 2016年12月20日 05時00分公開

[内ヶ島暢之，ユニアデックス株式会社]

　本連載では、「Microsoft SQL Server（以下、SQL Server）」で発生するトラブルについて、「なぜ起こったか」の理由とともに具体的な対処方法を紹介していきます。

トラブル 25（カテゴリー：フェイルオーバー）：FCI構成としていたにもかかわらずSQL Serverが立ち上がらなくなった

　「Windows Server 2012 R2」で構成したWSFC（Windows Server Failover Clustering）上に「SQL Server 2016 RTM」をFCI（Failover Cluster Instance：フェイルオーバークラスタインスタンス）としてインストールした環境を想定して解説します。FCI構成の詳細については、以前紹介した「SQL Serverシステムの可用性を高める“Always On フェイルオーバークラスタリング”の仕組み」もご覧ください。

トラブルの実例：2ノードのFCI構成とするSQL Serverシステムとしているにもかかわらず、稼働中のアプリケーションがエラーを出力して、サービスを継続できなくなった。

　データベースサーバやアプリケーションサーバの動作を確認しようとするも、そもそもSQL Serverの反応がなかった。Windows Serverの「フェールオーバークラスターマネージャー」でリソースを確認すると、SQL Serverごとエラーが発生しており、正しく起動していないことが分かった（図25-1）。

図25-1　フェールオーバークラスターマネージャーでリソースを確認したところ、「クラスターディスクで指定されたファイルが見つかりません」というエラーが発生していた

目次に戻る

トラブルの原因を探る

　今回は、FCIで可用性を高めた環境にもかかわらず、SQL Serverシステムのフェイルオーバーが正しく機能せず、サービス停止にまで陥るトラブルになった事例です。

　FCIの環境は一般的に、ネットワークカードやディスクパスなどを冗長化してあるために、単一障害ではSQL Server全体が停止することはないはずです。では、なぜサービス停止にまで陥ったのでしょう。ともあれ、障害発生時のイベントログを確認します（図25-2）。

図25-2　障害発生時のイベントログを確認

　イベントログでも、ディスクアクセスのエラーが起こっていることを確認できました。図25-2のイベントログと、図25-1のフェールオーバークラスターマネージャーで確認した結果から、サーバがディスクを認識できず、ディスクアクセスができないエラーが発生。その結果、SQL Serverのリソースが起動されない状態となっていました。

　今回のトラブルは、共有ディスクへアクセスできなくなった状態に起因しています。前述した通り、FCI環境で別のノードがあるならば、構成要素が二重化されています。そのため、大抵の場合はフェイルオーバーすることで障害が回避されるので、システムの停止までには至りません。しかし、共有ディスクへの全アクセス経路や、RAIDで冗長化されているディスクが2本同時に故障するといった、想定を超えた二重障害が発生してしまったことが根本の原因と想定されます。

目次に戻る

解決方法

「SQL Server 2016」に搭載される新たなセキュリティ対策を追う
パブリックプレビューが公開されているマイクロソフトのRDB次期版「SQL Server 2016」。特徴の1つとするセキュリティ対策機能のポイントと目指すところをキーパーソンに聞いた。
そもそも、リレーショナルデータベースとは何か？
データベースを基礎から勉強し理解を深めていくことは簡単なことではありません。本連載では、データベースに対するハードルを少しでも低くするために、初心者の方に必要なデータベースの基本から、障害対策やチューニングといった実践に即した内容までを幅広く解説していきます。今回は、データベースの役割と、それを管理するソフトウェアであるDBMSの基本機能について解説します。【更新】
データの登録を行うINSERT文
複数の条件を指定してSELECT文を実行する
前回は、SELECT文の初歩の初歩を解説しました。今回は、複数の条件を指定して、目的のデータを取り出す方法を解説します（編集部）
Oracle運用の基本「ログ」を理解しよう
本連載では、Oracle Database運用の鍵となるトラブル対処法について紹介していきます。第1回、第2回では情報収集の要となるログについて見ていきます。ログの出力情報は10gと11gとでは大きく異なる点がありますので、それぞれについても確認しておきましょう。