- - PR -
サーバフリーズ直前の情報取得について
1
投稿者 | 投稿内容 |
---|---|
|
投稿日時: 2007-05-02 13:45
いつもお世話になっております。linuxと申します。
【概要】 サーバがフリーズする直前の情報を取得したいと考えています。 (また、フリーズする場合に、注視したら良い項目も調査しております。) 【環境】 windows 2000 server sp4 iis5が稼動中 【現象】 Windows2000Serverにて、突如フリーズしてしまいます。 10分程放って置くと、操作できるようになりますが、 この間、アプリケーション、セキュリティ、システムログ等は全て フリーズ中は途切れてしまい、何が原因なのかを特定する事が出来ません。 (パフォーマンスログも取得していますが、やはり途切れてしまいます。) デバッグモード等の詳細ログの取得の仕方を調べていますが、ログ等からフリーズの 原因を追えない場合、どのような調査方法が有りますか。 良いアイディアがあれば、ぜひお教え下さい。 よろしく御願い致します。 |
|
投稿日時: 2007-05-03 20:36
チャブーンです。
> サーバがフリーズする直前の情報を取得したいと考えています。 原因がわからないのに、対策をとるは難しいのでは? 一般論といったものはなく、CPU 利用率や I/O まわり、メモリまわりなどを、地道にパフォーマンスモニタで記録解析して、まずは原因をおおむね特定するしかないでしょう。 もし、何が何でも考えろ、ということなら、サーバがフリーズする原因のひとつに "メモリーリーク" があるので、そのための調査をするかもしれません。 http://support.microsoft.com/kb/416469/ja また、何かのプロセスが「ハングアップした」のが確実なら、ADPlus といったダンプツールで強制的にダンプを取ることができるかもしれません。 http://support.microsoft.com/kb/286350/ja [ メッセージ編集済み 編集者: チャブーン 編集日時 2007-05-03 20:37 ] |
|
投稿日時: 2007-05-04 10:43
チャブーンさん、レスありがとうございます。
>> サーバがフリーズする直前の情報を取得したいと考えています。 > 原因がわからないのに、対策をとるは難しいのでは? > 一般論といったものはなく、CPU 利用率や I/O まわり、メモリまわりなどを、地道にパフォ> ーマンスモニタで記録解析して、まずは原因をおおむね特定するしかないでしょう。 おっしゃる通り突然ハングアップするようになり、原因が特定できていません。 しかも、アプリケーション、セキュリティ、システムログ等の記録はハングアップ中、 全て途絶えており、また、ハングアップ直前、直後にも異常なログは見当たりません。 (いつもと同じか、何も出ていないか) パフォーマンスログも、CPU負荷、メモリ、ディスクIOを取っていますが、 やはりハングアップしている時間帯はログが途絶えております。 > また、何かのプロセスが「ハングアップした」のが確実なら、ADPlus といったダンプツール> で強制的にダンプを取ることができるかもしれません。 > > http://support.microsoft.com/kb/286350/ja 直前、直後のログから、何も傾向すら見出せないという事は、何らかの原因で、 突如何かのプロセスがハングアップ、もしくは異常をきたすのだと考えています。 上記ツールにて、ハングアップ時のデータを解析しようと思います。 状況に進展がありましたら、またご報告させていただきます。 |
|
投稿日時: 2007-05-04 16:33
チャブーンです。
#う〜ん http://support.microsoft.com/kb/416469/ja うえのページの内容は、ご覧になりましたか?うえもそうですが、パフォーマンスログで見るべき点は、特定箇所で突然発生した変化ばかりでなく、"コンピュータ起動時から現在までどのようにデータが推移しているか" ということです。 たとえば、何らかのプロセスでメモリーリークが発生していても、イベントログに何かエラーがでるわけではありません。日頃のパフォーマンスログの内容の「推移」を確認してわかる内容となります。 また ADPlus でダンプを取る場合、問題となっているプロセスがわかっていないと取得できないので、闇雲に取ることもできないでしょう...。 |
|
投稿日時: 2007-05-05 18:32
ADPlusでハングモードのダンプを取れば、全てのプロセスのダンプが作成される
ので、もし何かのプロセスがハングしているとしたら、そのダンプは採取された物 の中に含まれるはずです。 ただし、ハングと言っても完全にプロセスが停止しているのか、無限ループのよう な状態で応答が無くなっているのか、あるいは何かの処理に非常に時間がかかって しまう状態になっているだけでプロセス自体は正常に動作しているのか(状況から すると最後の可能性が高そうですね)、いろいろ考えられる訳です。 エラーを起こして完全に停止しているのであればともかく、それ以外の場合はダン プを解析しても、それと確認できない可能性も高いですね。それから当然「何故 そうなったのか」はハングダンプだけではまず分かりません。 やはりまずはパフォーマンスモニタで、「ハング」直前に至る推移を正常動作が続 いている状態の推移と比較する事から始める方がよいと思います。 |
1