このトラブルの解決には、まず「可用性グループを復旧させる」ことが必要になります。単にセカンダリーレプリカのインスタンスが起動していなかっただけならば、セカンダリーレプリカのインスタンスを正しく起動して、しばらく待てば可用性グループも復旧されるでしょう。
しかし、インスタンスが起動されていなかった理由が「マシンの故障/障害」であった可能性も高いでしょう。もし、しばらく待っても復旧しない場合、あるいはマシンの障害発生が明らかである場合には、いったん可用性グループから対象の可用性データベースを削除し、障害対処などを済ませてから、再度データベースを可用性グループに追加します。こう手順を踏むことで、可用性グループとしての復旧も正常に行えます。可用性グループから可用性データベースを削除するには、SQL Server Management Studioから「AlwaysOn高可用性」を展開し、対象の可用性データベースに対して「可用性グループからデータベースを削除」を選ぶと実行できます。
なお、今回のトラブルのように、重要な可用性グループの同期が切れていたにもかかわらず、障害をやや長期間把握できていなかったならば、現在の運用体制を見直し、改善することも推奨します。こういった体制では、別の障害が発生した際の復旧も困難になる可能性が高くなります。
例えば、各サーバのイベントログでエラーを監視し、さらに「System Center Monitoring pack for SQL Server」や「dm_hadr_availability_replica_states」などのTransact-SQLを使用して可用性グループの状態変化も監視する習慣を付けることから始めましょう。これをルーティン化し、すぐに障害を検知できるよう運用体制を整えることが、トラブル対策の第一歩となります。
ユニアデックス株式会社所属。Microsoft MVP Data Platform(2011〜 )。OracleやSQL Serverなど商用データベースの重大障害や大型案件の設計構築、プリセールス、社内外の教育、新技術評価を行っていた。2016年4月よりIoTビジネス開発の担当となり、新しい仕事に奮闘中。ストレッチをして柔らかい身体を手に入れるのが当面の目標。
ユニアデックス株式会社所属。入社以来 SQL Serverの評価/設計/構築/教育などに携わりながらも、主にサポート業務に従事。SQL Serverのトラブル対応で社長賞の表彰を受けた経験も持つ。休日は学生時代の仲間と市民駅伝に参加し、銭湯で汗を流してから飲み会へと流れる。
Copyright © ITmedia, Inc. All Rights Reserved.