データ復旧のプロが教える、故障したHDDの症状を悪化させる“やってはいけない対応”とは?意外と知らないデータ復旧作業を妨げるエンジニアの行動

96.2%の高い復旧率で11万件以上の復旧に対応してきたデータ復旧サービス「デジタルデータリカバリー」では、法人向けに出張診断サービスも行っている。デジタルデータソリューションの太田高寛氏(同社エンジニアチーム総責任者)によれば、同社に問い合わせを行うまでに行った対応によっては、復旧の可能性を低下させたり、復旧までの時間が長くなったりすることがあるという。では、どんな対応がNGなのだろうか。

» 2016年07月06日 10時00分 公開
[PR/@IT]
PR

スムーズな復旧作業に必要なことは“正確な情報を伝えること”

 2007年から(東京商工リサーチ調べ)9年間連続で日本一のデータ復旧件数実績(累計11万6289件)と、96.2%の高い復旧率を(2015年度実績 データ納品件数/データ復旧依頼件数 同社調べ)を誇る国内トップシェアのデータ復旧サービス「デジタルデータリカバリー」。

ALT デジタルデータソリューション データ復旧事業部 エンジニアグループ 総責任者 太田高寛氏

 そのデジタルデータリカバリーを展開するデジタルデータソリューションでデータ復旧事業部の総責任者を務める太田高寛氏は、「データ復旧」という専門領域のエンジニアと、一般的なシステムエンジニアでは、考え方が違ってくると話す。

 「一般的なエンジニアは、すぐに問題を切り分けようとします。これ自体は別に悪いことではなく、正しいことです。ただし、“やり過ぎてしまう”ことが、我々のような専門領域のエンジニアにとっては非常識な行動となってしまうのです」(太田氏)

 法人向けの出張診断サービスで多くの現場に足を運んだ太田氏は、さまざまなケースに直面してきた。1日に静岡、神奈川、埼玉の3件の出張依頼に対応したこともあるという。デジタルデータリカバリーでは、問い合わせ時に症状や機器の型番などをヒアリングし、復旧が必要か、復旧の可能性があるかどうかをまずは判断する。その後、機器の持ち込み/郵送/出張(法人の場合)のいずれかでサービスを受けるかを決め、初期診断を行って見積もりを出すようにしている。しかし、出張の現場での状況が、ヒアリング時の内容と異なっているケースが少なくないという。

 例えば、HDDには、SCSI、iSCSI、ATA、SAS、SATAなど、さまざまなインタフェースが採用されているが、お客さま側でこれらの認識が間違っていることがあるという。また、RAIDレベルが異なっており、事前のヒアリングではRAID 5と聞かされていたのが、実際にはRAID 0だったこともあったそうだ。

 太田氏は、事前のヒアリング内容を元に診断/データ復旧用PCや接続用インタフェース、代替となるクローンHDD、工具・機器などを用意して出張診断を行っている。合計で40Kg以上となる荷物を携えて出張することになるのだが、それでもヒアリング内容と現地の状況が異なっていると、すぐには診断を始めることはできない。

ALT 太田氏が出張で持ち歩く診断/データ復旧用PC。あらゆるケースを想定してさまざまな機器を用意するため、荷物は40Kg以上になるという

 「ヒアリング時に、筐体の型番だけでHDDのインタフェースを判断してしまったり、セットアップした人と現在の担当者が違うために勘違いしていたりすることがあります。その場で対応できず、他のメンバーに道具を持ってきてもらうまで待つことになるので、迅速に対応ができず、結果的にご迷惑をおかけすることになることもあります」と太田氏は話す。

 RAIDの場合、例えば4本組みのRAID 5と聞けば、最悪の状況でも3本のHDDで復旧できる可能性が高いが、念のために4本のHDDを同時にこの診断/データ復旧用PCにつなげられるよう、さまざまな準備をして客先に向かうという。しかし、実際には16本組みで、物理的に接続するための機材が足りずに困ったこともあったという太田氏は、最初の問い合わせの際に、なるべく正しい情報を伝えてほしいとお願いする。

 「サーバを確認できる状況であれば、背面写真を撮ってもらえれば、こちらでインタフェースを判断できる可能性があります。また、RAIDに関しては、導入時の仕様書を確認したり、RAID情報閲覧用のコマンド(Linuxの場合は「mdadm」コマンド)などを使って確認したりしていただければ、よりスムーズな対応と復旧作業につながります」(太田氏)

ALT RAID障害時にやってはいけない4つのポイント(クリックで拡大します)

リビルドがデータ復旧の大きなリスクになることも

 太田氏に最も困った事例を聞くと、問い合わせ前に自力でさまざまな復旧対応をしてしまったがために、逆に手間がかかってしまったという案件を教えてくれた。

 この案件では、同じデータを格納するストレージを2台持っていて、1台が故障してしまった、担当者が問題を切り分けるために壊れている可能性があるHDDを筐体から取り外し、正常に稼働している筐体からもHDDを取り外して、壊れている可能性がある筐体に、正常に動いていたHDDを入れてしまったのだという。

 「これだけでも非常にリスキーな行動です。筐体が故障の原因であれば、正常なHDDも壊してしまうことにもなります。幸いなことに、正常に稼働していたので、故障の原因がHDDであることが分かりました」(太田氏)

 しかし、HDDに原因があると分かったにも関わらず、次に担当者は壊れたHDDを正常に稼働していたもう1台の筐体に入れてしまったのだという。この状態で起動してしまったため、リビルドが開始されてHDD上のデータが全て消去されたり、さらにHDDにダメージを与えてしまっていた。

 「お客さまは“壊れたHDDを接続してから(リビルドを開始してから)半日しかたっていない”と説明しましたが、私たちからすれば“半日もリビルドしていたのですか”ということになります。例えば、30TBのHDDのリビルドに3日かかるとした場合、半日接続していればその6分の1のリビルドが進行していることになり、5TB〜6TBのデータが消去されることになります。もし、このケースでリビルドを実行していなければ、半日以内にHDDを復旧して、1週間以内に30TBのデータ全てを取り出すことができたと思います」(太田氏)

 このケースでは結果的に必要なデータを復旧することはできたが、フォルダ構造が崩れてしまっていて、必要なデータを探して復旧するのに3週間以上かかる結果になってしまったという。

エラーランプが点灯したら、速やかにバックアップを!

 さらに、太田氏が指摘するのは「エラーランプに対する認識の違い」だ。障害が発生した場合、エラーランプが点灯しているHDDに障害が発生しているとは限らず、実際に診断してみたら他のHDDに障害が発生していたり、全てのHDDに障害が発生していることもあったという。エラーランプを信用し、正常なHDDを交換して再構築を行ってしまい、結果的に症状を悪化させることもあるので注意が必要だという。

 一方、エラーランプを全く信用せずに、無視してしまうケースも多いと太田氏は話を続ける。とあるデータセンターに太田氏が訪問したときに、保守メンテナンスの担当者から「エラーランプが点灯しているのはしょっちゅうなので、動いているのであれば手を出したりしない」と言われたことがあるという。

 「エラーランプが点灯していても、あまり意味がないと考えている人も少なくありません。もし、エラーランプが点灯していたら、バックアップを取ってデータの安全を確保してから対処方法を検討することをお勧めします」(太田氏)

 また、エラーランプの点灯や障害の発生時には、メーカーの保守に連絡することが多いと思われるが、その際にもバックアップをしっかりと取るか、元のHDDを確保しておいてほしいと太田氏は説明する。

 「サポート契約内容にもよると思いますが、基本的にはメーカーは機器の保守を主眼に考えています。以前も、私たちにお問い合わせいただいたときには、既にHDDが初期化されていて復旧が困難であったり、HDDが交換されてしまっていて、元のHDDをメーカーから返してもらうのに苦労したケースもありました」(太田氏)

 さらに、バックアップを取る際にも、必ず別の機器にバックアップすることにも留意しておきたい。同じ機器内にバックアップを取って、結果的に物理障害で意味のないバックアップとなってしまうケースも多いという。同様に、HDD障害が発生した際、復旧ソフトウェアを使って一部のデータを復旧できたものの、その復旧データをそのまま障害が発生したHDD上に保存してしまったために、データを取り出せなかったというケースもあるということだ。

 「速やかなバックアップは重要ですが、バックアップによってHDDへのアクセスも発生するので、場合によっては障害を拡大することにつながることもあります。私たちにご連絡いただいて無料の初期診断を行ってからでも、バックアップは遅くはないので、一度ご相談いただきたいですね」(太田氏)

スムーズな診断、復旧を行うために

 出張診断で最も困ったことを太田氏に聞くと、現地に到着しても“セキュリティ上の理由”で機器を置いてある場所に入れなかったことがあったと振り返る。また、サーバを落とすことができずに、診断作業をスムーズに行えなかったこともあったということだ。

 「HDDを取り出せないので、USBやLANなど、さまざまな接続方法を試行して診断することになりました。しかし、社内規定などで診断/データ復旧用PCを社内LANに接続できなかったり、物理的に離れていてUSB接続できなかったりする場合もあります。そのような場合は、担当者のPCをお借りして、そのPC上に診断環境を構築することになるのですが、この診断環境を構築するにはWindows環境が必要であるため、Linuxしかない環境では診断する術がなくなってしまうことになります」(太田氏)

 出張診断先に到着してからの作業をスムーズにするためにも、現場の担当者にはサーバへのアクセスや社内への入館など、事前に稟議を通し、決裁権のある上長に話を通しておいてほしいと太田氏は話す。

 「現地ですぐに復旧作業に取り掛かれるかどうかは、診断すればすぐに分かります。現地で復旧できるのであれば、お客さまのリスクも最小限に抑えられるので、すぐに復旧した方がよいと思います。スムーズな作業のためにも、稟議などのご協力をお願いしたいです」(太田氏)

 最後に、実際にHDDに障害が発生してしまった場合は、どのような行動を取ればよいのかを聞いた。

 「チェックディスクなどで何とか解決したいという気持ちは分かりますが、できるだけ何もせずに、すぐに私たちにご相談してください。バックアップも初期診断を受けてからでも遅くありませんし、初期診断で大まかな対処方法も分かるため、結果的に無料でデータを取り戻すこともできます。

 また、問い合わせの際には、お客さまの方で情報をカットせずに、全てを伝えていただければと思います。症状が起きた経緯と、起きてからお問い合わせいただくまでに行ったことは、どんなに小さなことであっても省略せずにお伝えください。機器の情報などで分からないところがあれば、問い合わせ時に何を見ればよいかをご質問いただく形で構いません。

 出張診断は、当日の交通手段がある限りは伺わせていただいていますので、遠慮なくお問い合わせください。私個人としては、エンジニアが直接お客さまと顔を合わせてサービスを提供できる、非常に良い機会と思っておりますので、率先して出張診断に行きたいと考えています」(太田氏)

Copyright © ITmedia, Inc. All Rights Reserved.


提供:デジタルデータソリューション株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2016年8月5日

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。