FCI構成のSQL Serverがなぜか「フェイルオーバー」した(フェイルオーバートラブル):SQL Serverトラブルシューティング(31)(1/2 ページ)
本連載は、「Microsoft SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は「FCI構成におけるフェイルオーバー関連トラブルの対処方法」を解説します。
本連載では、「Microsoft SQL Server(以下、SQL Server)」で発生するトラブルについて、「なぜ起こったか」の理由とともに具体的な対処方法を紹介していきます。
トラブル 24(カテゴリー:フェイルオーバー):FCI構成のSQL Serverがなぜか「フェイルオーバー」した
「Windows Server 2012 R2」で構成したWSFC(Windows Server Failover Clustering)上に「SQL Server 2016 RTM」をFCI(Failover Cluster Instance:フェイルオーバークラスタインスタンス)としてインストールした環境を想定して解説します。
トラブルの実例:前任の担当者から引き継いだ2ノードのFCI構成とするSQL Serverシステムが稼働して、5年ほどが経過する。これまでシステムはトラブルもなく、正常に動作していた。
そろそろハードウェアの更新を見据えて計画を立てなければならないと思っていたところ、突然アプリケーションの接続エラーが発生し、サービスが瞬断した。大規模なトラブルには陥らなかったが、「なぜ停止したのか」原因追及と「次に発生させない」ための根本解決策を求められている。
トラブルの原因を探る
トラブル例のシステムは、2ノードのFCIで構成されています。「フェールオーバー クラスター マネージャー」で各サーバの状態を、「イベントビューアー」でトラブル当時のイベントログを確認したところ、やはり1号機の動作が停止していました。しかし、もう1つのノードである2号機へSQL Serverのリソースが移る=正常にフェイルオーバーして、1号機の障害直後から2号機でサービスが正常に継続されていることを確認できました(図24-1)。
また、停止した1号機の起動をリモートで試みたところ、電源が入らず正常に起動しないことから、やはり1号機に何らかの理由で障害が発生し、停止したことがフェイルオーバーの理由であることが分かりました。
今回は、Always On フェイルオーバークラスタリング構成としてサービスを止めないための対策をしていたことが功を奏した、正しい動作です。今後対策すべきことは、再度発生させない/再度発生したときに再度正しく対処するために、「なぜ1号機にトラブルが発生したのか」に関する原因と対策をきちんと探っておくことになります。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「SQL Server 2016」に搭載される新たなセキュリティ対策を追う
パブリックプレビューが公開されているマイクロソフトのRDB次期版「SQL Server 2016」。特徴の1つとするセキュリティ対策機能のポイントと目指すところをキーパーソンに聞いた。 - そもそも、リレーショナルデータベースとは何か?
データベースを基礎から勉強し理解を深めていくことは簡単なことではありません。本連載では、データベースに対するハードルを少しでも低くするために、初心者の方に必要なデータベースの基本から、障害対策やチューニングといった実践に即した内容までを幅広く解説していきます。今回は、データベースの役割と、それを管理するソフトウェアであるDBMSの基本機能について解説します。【更新】 - データの登録を行うINSERT文
- 複数の条件を指定してSELECT文を実行する
前回は、SELECT文の初歩の初歩を解説しました。今回は、複数の条件を指定して、目的のデータを取り出す方法を解説します(編集部) - Oracle運用の基本「ログ」を理解しよう
本連載では、Oracle Database運用の鍵となるトラブル対処法について紹介していきます。第1回、第2回では情報収集の要となるログについて見ていきます。ログの出力情報は10gと11gとでは大きく異なる点がありますので、それぞれについても確認しておきましょう。