アットマーク・アイティ @IT@IT情報マネジメント@IT自分戦略研究所QA@ITイベントカレンダー  
 
 @IT > システム障害を事前に検知した事例に学ぶ「Systemwalker」のキャパシティ管理
 
@IT Special

 

PR

システム障害を事前に検知した事例に学ぶ
「Systemwalker」のキャパシティ管理
──システムが動かなくなる前に対応する秘訣とは?


 今日の企業経営や業務はITシステムへの依存度が高くなっており、日本版SOX法・内部統制対応でもIT全般統制が重要となる。そうした中でITILに基づいた安心・安全な運用管理を提供し、安定稼働の評価を含めて企業のシステム運用管理を強力に支援するのが、富士通の「Systemwalker」だ。
 「Systemwalker」が提供するキャパシティ管理機能は、システム管理者泣かせのトラブル対応に大きな変化をもたらす。今回は、実際に起きた問題事例をもとにして、「Systemwalker」のキャパシティ管理の魅力に迫る。

   

「キャパシティ管理」がシステムの異変をつかむ

 富士通の「Systemwalker」は、IT全般統制の評価項目のうち「システムの安全性の確保」「システムの運用・管理」「システムの開発、変更・保守」を支援する統合運用管理ソリューションだ。常にPDCAを回して、システムの安定性・安全性を高めていくマネジメントサイクルをシステム運用の現場に定着させる環境を提供する。

 今日のITシステムは「動いていて当たり前」と考えられているので、適切にシステムのキャパシティ(リソースやパフォーマンス)を監視・確認し、サービスレベルを維持する「キャパシティ管理」が大切になっている。「Systemwalker」のキャパシティ管理ツール「Service Quality Coordinator(SQC)」は、「しきい値」によるモニタリングと「基準値」による分析で、トラブルの兆候を事前に予見する。概要については、前回記事「性能トラブルを未然に防止する『Systemwalker』のキャパシティ管理」を参考にしてほしい。

 情報システム部門が、小さな異変をいち早くとらえることができれば、エンドユーザーから苦情が出る前に先手を打ち、対処することが可能になる。それこそが本当に求められているビジネスコンティニュティ(事業継続)や高品質なサービスレベルを提供するIT基盤サービスだといえよう。以下、実際にSQCを活用し、事前にトラブルの芽を摘んだ対応事例を紹介しよう。

   

<事例1>
「基準値比較による分析」で性能トラブルを未然に防止!

システムの概要

 メーカーの営業部門が利用する、商談支援・販売管理基幹システムで、利用者数は8000人、トランザクションは3000件/時間。財務・経理、手配先、工場系など20のシステムと連携する。システム構成は、図1のように、フロントにWebサーバ、中間にアプリケーションサーバが2段重なり、バックエンドにデータベースサーバが置かれているという一般的な3階層の構造である。

図1 システム構成図

サーバ機種見直しでCPU使用率が高くなった

 同社はデータセンターの移転に伴い、データベースサーバの見直しを行った。その際に、物理マシンを高性能CPUを搭載する機種へとリプレイスした。しかし、変更・稼働後にSQCで性能情報を見てみると、CPU性能は向上しているはずであるにもかかわらず、CPU使用率が大幅に上昇していたのだ。

「基準値比較による分析」による分析

 サーバを切り替える前と後とを「基準値比較」で分析すると、バッチプロセスが動くときに、特にCPU負荷がかかっていることが分かった。そこでさらにSQCが収集しているCPUの詳細情報へドリルダウンにより確認してみると、以前の状態に比べてCPUの待ち行列が非常に長くなっていることが明確になった。そこでサーバの物理構成を確認してみたところ、CPU性能が大幅に増強されたことで、机上の性能見積もりにより、CPU数を4から2へ見直しを行っていたが、CPU数の見積もりに誤りがあり、極端にCPU負荷が大きくなっていた。

対策

 同社では、年度末の負荷増加の対策としてCPU数を元に戻すなどの対処をして、問題解決を図った。

 もしも、ここで適切な対処ができずにいたらどうだったろうか。トラブルが生じたときに、サーバやCPUなどハードウエアの増強で解決を図るという手段をとったかもしれない。そうなると、新システムへの追加予算計上だけでなく、新システムやそのシステムを導入した情報システム部門への信頼がゆらぐ結果になったことだろう。また、今回はシステムそのものが問題なく稼働を続けていた。とはいえ、「Systemwalker」によりこの先の処理量の増加などによるシステムダウンといったトラブルを予測し、ことが起こる前にこの問題を見つけられた点は大きい。これが「Systemwalker」が目指す、未然防止の在り方だ。

   

<事例2>
「しきい値」監視で特定日に発生する負荷を軽減!

システムの概要

 5000人を超える利用者がある社内のWeb/アプリケーションサーバ。

月に数回、CPU負荷の急増により性能劣化が発生

 Web/アプリケーションサーバでは月に数回、特定の日にCPU使用率が急増しており、それに伴う性能劣化でWebシステムのスローダウンを招いていた。とはいえシステムは止まっておらず、月に数回のことなのでエンドユーザーからのクレームまでには至っていなかった。しかし、日々の運用でシステムの傾向をつかんでいたことと、「しきい値」監視によるアラートがあがったことで、この特定日のスローダウンを問題視することになった。

原因のドリルダウンに効果を発揮したSQCによる分析

 情報システム部門はアラートを受けて調査を開始した。そのとき、原因のドリルダウンに効果を発揮したのがSQCだ。

 まず、月全体でのCPU使用率の推移(画面1)から、70%を超える高負荷率の日があることが判明。そして、1ヶ月間のCPU使用率の推移を時系列で等高線表示するレポート(画面2)から、始業間もない朝の9時ごろがピークだと確認できた。SQCではプロセス単位でリソース(CPU、メモリ)の使用量を見ることができるため、その日をピンポイントでCPU使用量を調べてみると、そのシステムが動いているJavaプロセスでのCPU使用率が増えていることが判明したのだ。

画面1 Systemwalker Service Quality Coordinator「CPU使用率の推移」クリック >> 拡大

画面2 Systemwalker Service Quality Coordinator「CPU使用率等高線」クリック >> 拡大

 このWeb/アプリケーションサーバは、CPU使用率とネットワークトラフィック(パケット数)が比例することもあり、担当者はCPU使用率の増加は、トラフィック量の増加が原因ではないかと考え、トラフィック量とCPU使用率の相関分析による、乖離度測定を行った。その結果、問題発生日と同様にトラフィック量と乖離してCPU使用率が大きくなっている事象が他の日にも確認することができた。

 JavaプロセスでCPUの使用率が高いことから、「Javaの基盤となるガベージコレクション(GC)のメモリ処理が影響している」「利用者数増加により、関連するオブジェクトでの検索処理が多くなっているのではないか」「排他待ちのような負荷があったのではないか」という3つの仮説に絞り込んだ。

SQCで収集している情報をもとに調査

 SQCではアプリケーションサーバ(Interstage)の詳細を確認することができるため、Javaの詳細レポートでCPU負荷が増加した原因の1つとして想定した、その日のGCの状況を確認したところ、事象が発生していた朝の9時ごろにGC回数が多いことが確認できた。さらに、異なる2つのリソースの使用状況を並べて比較するレポートで、CPU負荷とGC回数との関係も確認したところ(画面3)、両者には相関関係があり、GCの増加がCPU負荷を招いたことが判明した。

画面3 Systemwalker Service Quality Coordinator「ガベージコレクション(GC)回数とCPU使用率」クリック >> 拡大

対策

 GCが増えたことにどう対処するか――。情報システム部門では、Javaのメモリサイズを増やす対処では、GCの処理コストが増加するため、プロセスを増やして処理可能ユーザー数を多くする対処を行った。8つだったJavaプロセスを16個に変更した。以前は、大量のアクセスにより、70%を超えるCPU使用率となっていたが、今回の対処を行うことでCPU使用率を50%以下に抑えることに成功した(画面4)

画面4 Systemwalker Service Quality Coordinator「CPU使用率とトラフィック」(改善後)クリック >> 拡大

 情報システム部門には将来に渡って、継続的なシステムの安定稼働が求められる。SQCは現在までの様々なリソースの使用状況から、将来のリソースの増加を回帰分析により予測することで、今後の投資の最適化を強力にサポートする。

 コンピュータシステムが人の作ったものである限り、どうしてもトラブルは起こるものだ。しかし、トラブルが顕在化してから対応するのと、未然に予兆を検知して対応するのでは雲泥の差だ。これらの2つの事例から分かるように、ノンストップで社内外にサービスを提供し続けるためには、システムは「動いてさえいればいい」というわけではなく、日ごろから「正常に動いている」ことを確認し続けることがIT統制として不可欠なのだ。それを効率よく、正確に行うためには富士通の「Systemwalker」のキャパシティ管理が有効だ。性能情報を監視・分析し、評価する「Systemwalker Service Quality Coordinator」を活用することで、トラブルの兆候を発見し、その問題の切り分けや原因究明、対処方法の妥当性を探ることが容易になる。それは企業の土台となっているITシステムの品質を高めることであり、ひいては情報システム部門の評価へとつながることだろう。

 ITシステムが健全に動いていることを保証し、それを通じてビジネスを止めない安心・安全なIT基盤を構築する──それこそがIT統制の真の意味だといえるだろう。


富士通 Systemwalker 関連リンク

富士通 Systemwalker セミナー情報

ITシステムの維持最適化を実現する性能管理ソリューション
〜トラブルの予兆検知と早期切り分けによるシステムの安定稼働実現および活用事例〜

開催日 2007年12月5日(水)
時間 14時〜16時15分 [受付開始 13時30分〜]

登録


提供:富士通株式会社
企画:アイティメディア 営業局
制作:@IT 編集部
掲載内容有効期限:2007年12月31日
 
富士通 Systemwalker 関連リンク

■セミナー情報■

ITシステムの維持最適化を実現する
性能管理ソリューション

〜トラブルの予兆検知と早期切り分けによるシステムの安定稼働実現および活用事例〜
開催日 2007年12月5日(水)
時間 14時〜16時15分 [受付開始 13時30分〜]

登録


Systemwalker Service Quality Coordinator

富士通 − Systemwalker

Systemwalker記事リンク

性能トラブルを未然に防止する 「Systemwalker」のキャパシティ管理 ──安心・安全なIT全般統制とは?

IT全般統制の重要ポイント、「クライアントの管理・統制」を考える

@IT/ITmedia記事リンク

ログ管理はルールに基づいて実施せよ〜富士通(@IT NewsInsight)

富士通、ITILに対応し、日本版SOX法や内部統制を支援する管理ソフト(@IT NewsInsight)

内部統制を見据えた運用管理ソフトウェア、Systemwalker V13.1が登場(ITmediaエンタープライズ)


 
@ITトップ@IT Special インデックス会議室利用規約プライバシーポリシーサイトマップ