SQL Serverの可用性グループがフェイルオーバーしたが、発生した原因が分からない(フェイルオーバートラブル):SQL Serverトラブルシューティング(33)(1/2 ページ)
本連載は、「Microsoft SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は「可用性グループでフェイルオーバーが発生した原因の一例」を解説します。
本連載では、「Microsoft SQL Server(以下、SQL Server)」で発生するトラブルについて、「なぜ起こったか」の理由とともに具体的な対処方法を紹介していきます。
トラブル 26(カテゴリー:フェイルオーバー):SQL Serverの可用性グループがフェイルオーバーしたが、発生した原因が分からない
「Windows Server 2012 R2」上に「SQL Server 2016 RTM」をインストールした環境を想定して解説します。
トラブルの実例:SQL Serverの可用性グループを構築した環境で運用しており、アプリケーションの改修作業を実施。しばらくすると、全てのインスタンスが正常稼働しているにもかかわらず、可用性グループのフェイルオーバーが発生した。
旧プライマリー側のエラーログを確認したところ、直前までにSQL Serverのダンプが何度も出力されていたが、可用性グループについてはフェイルオーバーされた結果ログだけしかなく、発生した原因は記録されていなかった。
一応、フェイルオーバー後は正常稼働しているものの、「なぜフェイルオーバーが発生したか」の原因が不明なため、フェイルバックして問題ないかを判断できない。
トラブルの原因を探る
SQL Serverの可用性グループで何か問題が発生した場合は、普段確認するエラーログやWindowsイベントビューアーだけでなく、エラーログと同じディレクトリに格納されている「SQLDIAG(AlwaysOn Health Diagnostics Log)」(*1)の拡張イベント(*2)も合わせて確認するようにします。
例えば、SQLDIAGの「<ホスト名>_<インスタンス名>_SQLDIAG_X_XXXXXXXXX.xel」というファイルを「SQL Server Management Studio」で開くと、可用性グループの正常性チェックの様子と、その結果に伴うメッセージを確認できます。
今回の事例では、フェイルオーバーが発生した時間帯に「Failure detected, the state of system component is error.」というメッセージが記録されていました(図26-1)。
なお、可用性グループでは、自動的にフェイルオーバーする場合のエラー条件レベル(重要度別のしきい値)を変更できます。初期設定では、SQL Serverのサービス停止や無応答だった場合、もしくは正常性チェック/systemの項目でエラーが返された場合に自動フェイルオーバー(*3)を行います。正常性チェック/systemの項目でエラーが返されるシーンには、「孤立したスピンロック」「深刻な書き込みアクセス違反」「ダンプが多すぎる」などが挙げられます(*4)。
今回は、自動的にフェイルオーバーを行うエラー条件レベルが初期設定であること、正常性チェック/systemの項目でエラーとして記録されるダンプが多く発生していたことから、そのしきい値を超え、自動的にフェイルオーバーされたと考えられます。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「SQL Server 2016」に搭載される新たなセキュリティ対策を追う
パブリックプレビューが公開されているマイクロソフトのRDB次期版「SQL Server 2016」。特徴の1つとするセキュリティ対策機能のポイントと目指すところをキーパーソンに聞いた。 - そもそも、リレーショナルデータベースとは何か?
データベースを基礎から勉強し理解を深めていくことは簡単なことではありません。本連載では、データベースに対するハードルを少しでも低くするために、初心者の方に必要なデータベースの基本から、障害対策やチューニングといった実践に即した内容までを幅広く解説していきます。今回は、データベースの役割と、それを管理するソフトウェアであるDBMSの基本機能について解説します。【更新】 - データの登録を行うINSERT文
- 複数の条件を指定してSELECT文を実行する
前回は、SELECT文の初歩の初歩を解説しました。今回は、複数の条件を指定して、目的のデータを取り出す方法を解説します(編集部) - Oracle運用の基本「ログ」を理解しよう
本連載では、Oracle Database運用の鍵となるトラブル対処法について紹介していきます。第1回、第2回では情報収集の要となるログについて見ていきます。ログの出力情報は10gと11gとでは大きく異なる点がありますので、それぞれについても確認しておきましょう。