検索
Special

ゴールデンウィーク(GW)明けに発生するサーバ/RAIDトラブルで泣かないために――“復旧のプロ”が教えるチェックポイントと対処方法とは?長期休暇明けに潜むHDDトラブルの“落とし穴”

ゴールデンウィーク(GW)や年末年始など、長期休暇での旅行やレジャーを楽しみにしている人は多いだろう。だが、システムを運用するエンジニアやIT管理者は、この時期は特に注意が必要だ。長期休暇の余韻を一気に吹き飛ばす、思わぬサーバ/RAIDのトラブルに遭遇するかもしれないからだ。

PC用表示
Share
Tweet
LINE
Hatena
PR

長期休暇明けは、サーバ/RAIDのトラブルに要注意

 最大で10連休を取れる企業もある、2016年のゴールデンウィーク(GW)。だが、システム運用者や管理者は、連休に浮かれて気を抜くことはできない。GWの連休明けに、思わぬサーバ/RAIDのトラブルが待ちかまえているかもしれないからだ。

 データ復旧サービス「デジタルデータリカバリー」を提供しているデジタルデータソリューションによると、GWや年末年始などの長期休暇明けは“サーバやRAIDなどのHDD(Hard Disk Drive)障害”が急増し、同社に持ち込まれるサーバ機器のデータ復旧依頼件数が平時の倍以上になるという。

ALT
デジタルデータソリューション データ復旧事業部 エンジニアグループ 総責任者 太田高寛氏

 なぜHDD障害が長期休暇明けに多発するのか、万が一、トラブルが発生した場合には、どのように対処すればよいのかを、「データ復旧のプロ」であるデジタルデータソリューションの太田高寛氏(データ復旧事業部 エンジニアグループ 総責任者)に伺った。

 デジタルデータソリューションは、「NVCC7号投資事業有限責任組合」として独立系ベンチャーキャピタルの日本ベンチャーキャピタルの出資を受けている企業である。主な事業となる「デジタルデータリカバリー」は、2007年から(東京商工リサーチ調べ)9年間連続で日本一のデータ復旧件数を誇る、国内トップシェアのデータ復旧サービス業者で、96.2%の高い復旧率(2015年度実績 データ納品件数/データ復旧依頼件数 同社調べ)を保持し、累計11万6289件のデータ復旧に対応してきた。

 デジタルデータリカバリーは官公庁や国公立大学などの教育機関、大企業などからの依頼も多いという。また、個人向けのPC/Macやデジタル機器から、企業のWindows/Linuxサーバ、NAS(Network Attached Storage)、大型の仮想化サーバ、さらにはデータセンターや本番稼働中のサーバなどの外部へデータを持ち出せないシステムまで、幅広い機器/環境のデータ復旧に対応する。先ごろ発生した「平成28年 熊本地震」で被害を受けた自治体、企業、個人に対してデータ復旧サービスを無償で提供することをいち早く表明したことも大きなトピックだ。

正常に運用できているからといって、起動できるとは限らない

 今回、お話を伺った太田氏は、30名弱のエンジニアをまとめる、データ復旧エンジニアグループの責任者として、主にRAID機器の論理障害復旧を担当し、2015年1月からは新サービス「出張サービス」を行っているという。

 太田氏によると、企業ではGWやお盆休み、年末年始などの長期休暇の際に、社内システム用のサーバなどの電源を落として、休暇明けに電源を立ち上げるといった運用を行っている場合があるが、この電源オン/オフ時にHDDのトラブルが発生しやすいのだという。太田氏の経験では、多くの場合、トラブルが発生するのはしっかりとした運用が行われておらず、HDDに異常がないかどうかをきちんと確認していないケースがほとんどとのこと。

 例えば、RAID構成では、HDDに障害が発生しても、冗長構成によってシステムが問題なく稼働し続けることができる。しかし、障害が発生したHDDをそのまま使い続けたり、HDDが壊れていることに気が付いていなかったりすることもあるというのだ(画面1)。

画面1
画面1 「RAID障害時にやってはいけない4つのポイント」も公開されているので、参考にしておこう

 「システム運用上の問題がないからといって、連休前に電源をオフにし、いざ連休が明けて電源をオンにしたときに正常に起動するとは限りません。電源をオンにしたものの、正常に起動することができずに、休暇明けに私たちにお問い合わせいただくケースが非常に増えています」(太田氏)

休暇前に「これだけはやっておきたいこと」と障害時の対応

 それでは、このようなHDDのトラブルを未然に防ぐには、どのような対策を行っておけばよいのだろうか。

 太田氏は「これをやっておけば“絶対にHDD障害を防げる”という策は、残念ながらありません。ですから、最も重要なのは、しっかりとデータやシステムのバックアップを取っておくことです。ただし、注意点もあります。よく同じサーバ内やHDD内の別パーティションにバックアップを取っているケースもありますが、これでは物理障害が発生した際にデータを取り出す事はできません。できれば、物理的に別のサーバやHDDにバックアップを取っておくことをお勧めします」と話す。

 また、当然のことながら、HDDのエラーランプやソフトウェアからのアラートには常に気を配り、定期的にログチェックや稼働状況チェックを行うことも重要だという。

 「サーバやNASなどは、1〜2年間稼働し続けることも珍しくありません。ですが、可能であれば、定期的に再起動してみて、正常に起動するかどうかチェックすることも心掛けてください。HDD障害を検知するソフトウェアもありますが、実際にHDDが起動するかどうかはソフトウェアでは検知できないので、休暇前には再起動テストを行っておくことをお勧めします」(太田氏)

 「万が一、障害が発生してしまった場合は、なるべく触らずにそのままの状態にして、私たちにお問い合わせください」と太田氏は話を続ける。障害が発生した場合、エラーランプが点いているHDDに障害があるとは限らないそうだ。実際に太田氏が診断したところ、エラーランプとは関係のない別のHDDで障害が発生していたり、全てのHDDに障害が発生していたりしたこともあるそうなので、「何もしないで、すぐに問い合わせる」ことが復旧への近道になるのだという(画面2)。

画面2
画面2 障害が発生した場合は、何もせずにデジタルデータリカバリーに問い合わせることが復旧への近道に。初期診断までは無償で行ってくれる。また、Webサイトでは「3分カンタン自己診断」も提供されているのでこちらも確認しておこう

 太田氏が対応したトラブルケースでは、デジタルデータリカバリーに問い合わせる前にHDDを交換してシステムを再構築したものの、その再構築が終了しなかったり、再構築が成功してもデータは失われたままで、さらに症状を悪化させていたこともあったという。また、メーカーの修理とデータ復旧を勘違いしてしまい、修理を出したところデータを完全に消去されてしまった例もあるという。さらに、リース機器では、リース会社への返却後の処分やデータ消去が速やかに行われるため、後からデータを取り戻そうとしても手遅れになっていることが多いという。

 さらに、自分で市販のデータ復旧ソフトを使うことも避けてほしいと太田氏は説明する。「HDDの物理障害と論理障害を各自に切り分けることができて、論理障害であることが明確になった場合は、データ復旧ソフトを試しても問題は少ないと思います。ですが、しっかりとした診断を行わなければ、ごく小さな物理障害を見つけることはできません。データ復旧ソフトはHDD全体にアクセスするため、物理障害を悪化させるリスクもあります。障害だからといって原因を特定しないままでデータ復旧ソフトを使うのではなく、まずは初期診断だけでも受けてほしいと思います。デジタルデータリカバリーでは、専用の診断ツールで物理障害/論理障害を明確に切り分けています」(太田氏)

 デジタルデータリカバリーでは、障害の発生したHDD/機器を預かってから初期診断の結果を出すまでは無料で、出張診断も無償で提供している。初期診断では「障害内容」「復旧期間」「見積金額」が示されるので、障害内容を判断してからデータ復旧ソフトを使ってみても遅くはなく、それでも復旧できなければ再度デジタルデータリカバリーに依頼してもよい(画面3)。なお、依頼を受けた機器の復旧に関しては、80%以上が48時間以内に完了しているという。

画面3
画面3 デジタルデータリカバリーでのデータ復旧の流れ。機器持ち込みの場合は、最短で当日に復旧できる場合がある(「お問い合わせ〜納品まで」)

 また、実際にデータ復旧を依頼する際には、「拡張子での指定」「フォルダでの指定」「保存日時(期間)での指定」など、データ復旧の「成功定義」を決める。仮にデータを復旧できなかった場合には料金が掛からず、成功定義をどれだけ満たすかによって支払金額が決まる「完全成功報酬型サービス」であることも良心的だ。

重要なデータには使ってほしくない最新技術がある?

 メーカーはパフォーマンス重視でソフトウェアやハードウェアを開発し、さまざまな新技術が企業システムで利用されるようになっている。しかし、“データ復旧の視点”から、重要なデータには使ってほしくない技術があることも太田氏は教えてくれた。

 最近は企業システムでもSSD(Solid State Drive)の活用が増えているが、HDDがデータ格納を目的としている一方で、SSDはパフォーマンス重視であると太田氏は説明する。太田氏によると、SSDはコントローラーチップが壊れると復旧が非常に難しく、データの復旧率も大幅に低下するという。

 「現時点では、SSDをサーバに利用したり、SSDとHDDを階層化したりしているケースでの依頼は少ないですが、今後は増えてくると思います。私たちも、海外の提携会社と連絡を取りながらSSDの復旧技術を高める努力はしています。ですが、現状、重要なデータの格納場所としては、SSDはお勧めしません」(太田氏)

 また、仮想化ストレージなどの依頼も増えているが、こちらは復旧技術が確立されているので高い復旧率が望めるという。ただし、Windows Server 2008以降などで搭載されている「データ重複除去」機能を使っている場合は、復旧率が下がる可能性が高いという。これらの機能は、重要でないデータやシステムの格納先として活用し、重要なデータを格納するシステムでパフォーマンスを高めたい場合には、スペックの高いサーバを用意し、データはストレージに格納するといった運用を太田氏は勧める。

 さらに、LinuxはWindows Serverよりも復旧の難易度が上がると説明する太田氏。特に、まだ正式リリースされていない非公認のGPLである「Btrfs(B-tree file system)」というファイルシステムを使っている場合は、大きな論理障害が発生すると復旧の難易度が非常に高くなることも教えてくれた。

 「まずは、現状の運用状況を確認し、サーバやストレージからエラーログやアラートが上がっているのであれば、それに対応してから休暇に入ってください。問題がある場合は、メーカーやパートナーに相談しておくことも重要です。対応方法はさまざまですが、その時点で私たちにお問い合わせいただくのも1つの方法だと思います。また、データのバックアップ状況も確認し、直近のプロジェクトや直近に使用したデータがしっかりとバックアップされているかどうかも確認してください。それでも万が一、障害が発生した場合は、私たちの無償の問い合わせ窓口にご連絡いただければ、しっかりとヒアリングして状況に合わせた対処方法をお教えしますし、GW期間中でも24時間対応しますので、すぐにお問い合わせください」(太田氏)

Copyright © ITmedia, Inc. All Rights Reserved.


提供:デジタルデータソリューション株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2016年6月8日

ページトップに戻る