JP1/Performance Management システム構築・運用ガイド
稼働監視システムの目的は,システムが危険域に達したことを事前に把握し,トラブルを未然に防止することです。そのために,システムの監視項目を検討することは最も重要な作業になります。監視項目の検討では,どのような監視項目をどのように監視するかを決めます。監視項目を選定する際は,各PFM - Agentのマニュアルを参照して検討してください。
監視項目を検討する流れを次に示します。
- アラームの検討
監視対象システムのどのような項目を監視するかを決めて,監視項目に対するしきい値を決めます。例えば,共有サーバ上での作業が正常にできなくなることがないように,共有サーバの論理ディスクドライブの空き容量の割合を監視項目とし,しきい値を決めます。
また,しきい値に達した場合にどのような方法でシステム管理者に通知させるかを決めます。例えば,EメールやSNMPトラップを送信できます。
- レポートの検討
設定したしきい値を超え,アラームが発生した場合に,原因分析や状況把握のためにどのようなレポートを表示させるかを決めます。例えば,共有サーバの論理ディスクドライブの空き容量が少ない上位10個を集合横棒グラフに表示する,などのように監視項目と表示形式を決めます。
なお,監視項目の選定には,Performance Managementで提供しているソリューションセットを利用できます。ソリューションセットをそのまま利用したり,一部の定義をカスタマイズしたりすることで,システム管理者の監視項目を定義する作業を軽減できます。
- ポイント
- 監視項目は,監視対象プログラムのパラメーターの選定など技術的なことだけでなく,システムの業務特性やシステムの運用体制を考えて検討することをお勧めします。
次に,アラームとレポートの検討についてそれぞれ説明します。
- <この項の構成>
- (1) アラームの検討
- (2) レポートの検討
(1) アラームの検討
アラームで検討する内容について説明します。
(a) しきい値をどう設定するか
Performance Managementでは,PFM - Agentで収集したパフォーマンスデータが,あらかじめ定義されたしきい値に達したときに,アラームイベントを発行させることができます。システム管理者はこの機能を利用して,どの監視項目が,どのような値を超えたらアラームイベントで警告させるかを決めてください。Performance Managementではアラームイベントを発生させる条件を時間帯ごとに定義することもできます。
例えば,次のような設定ができます。
- 昼間と夜間で監視するプロセスを別々に設定する
- 昼間は監視センターでシステム運用者が常時監視するため,監視コンソールのアイコンの点滅で通知し,夜間はシステム管理者の携帯電話にEメールを送信する
システム管理者は,必要に応じて,監視対象をどの時間帯に監視するかを決めてください。
また,Performance Managementでは,突発的な負荷によってしきい値が超過した場合にアラームイベントを発生させないように設定できます。「監視のインターバル何回中に何回しきい値を超過したら通知するか」という発生頻度を設定することで,継続的にCPUが高負荷となる状態のときだけ通知する,などの運用ができます。突発的で一時的な負荷の場合には通知を抑えることができるので,システムの特性を考慮した効率の良いアラームを発生させることができます。
(b) しきい値に達したらどう対処するか
監視対象プログラムが危険域に達したときに,どのように問題の個所を検知し,だれがどのような一次処置を行うのか,また,一次処置で解決しないときはどのような方法で解決するのかを決めます。Performance Managementでは,アラームイベントが発生したときに次のアクションを自動実行できます。
- システム管理者にEメールで通知する
- SNMPトラップを送信する
- Eメールや,SNMPトラップ以外の通知のためのコマンド(メッセンジャサービス(net sendコマンド)やwallコマンドなど)を実行する
- ほかのJP1製品と連携するためのJP1イベントを発行する
システム管理者は,これらのPerformance Managementの機能の利用を含めて,稼働監視システムからアラームが通知されたときの対処について検討してください。
次の図に,アラーム発生時の対処についての検討例を示します。
図3-9 監視対象システムが危険域に達したときの対処手順の例
- ポイント
- アラームイベントが発生したときに,自動で修復プログラムなどを実行してシステムを自律的に正常な状態にしたい場合は,JP1イベントを発行して,ジョブ管理システムなどと連携することをお勧めします。
(2) レポートの検討
レポートで検討する内容について説明します。
(a) どのようなレポートにするか
Performance Managementでは,現在の稼働状況をつかむためのリアルタイムレポートと長期的な稼働状況の傾向をとらえるための履歴レポートを作成できます。システム管理者は,パフォーマンスデータを基にどのようなレポートを作成して稼働状況を確認するかを検討してください。わかりやすいレポートを作成することで,システムの問題点を正しくとらえることができます。
Performance Managementでは,日次,週次,月次,および年次などの期間ごとのレポートを表示できます。また,アラームイベントが発生したときにアラームのアイコンからレポートが表示されるようにしたり,あるレポートに関連性のあるレポートをあらかじめ定義しておくことでレポートから別のレポートをドリルダウン表示させたりすることもできます。
なお,システムの稼働状況を総合的に判断したい場合に,複数のレポートを同じグラフ上に重ね合わせて表示させることもできます。
長期的な稼働分析のために,レポートを定期的に出力する必要がある場合は,出力方式を検討します。Performance Managementでは,レポートをPFM - Web Consoleの画面で表示するか,または運用コマンド(jpcrptコマンド)でCSVまたはHTML形式のテキストファイルに出力できます。
レポートの定義方法やレポートの出力方法については,「11. 稼働分析のためのレポートの作成」を参照してください。
(b) どの項目をデータベースに保存するか
システム管理者は,監視エージェントで収集されるパフォーマンスデータについて,次のことを決めてください。
- パフォーマンスデータをStoreデータベースに記録するかどうか
パフォーマンスデータを履歴レポートとして表示するには,レポートに表示するパフォーマンスデータをStoreデータベースに保存するように設定する必要があります。
- パフォーマンスデータの収集間隔とタイミング
監視項目が多数あると,収集処理および記録処理がある時点に集中するため,性能が低下することがあります。その場合には,パフォーマンスデータを収集するタイミングを監視項目ごとにずらすことでシステムの負荷を分散します。
例えば,1分間隔で収集するパフォーマンスデータが二つある場合,一方のデータのオフセットを0秒に設定し,もう一方のデータのオフセットを20秒に設定すると,パフォーマンスデータの収集開始時刻が20秒ずれます。オフセットの値を変更する場合は,収集処理の負荷を考慮した上で値を設定してください。
図3-10 パフォーマンスデータの収集間隔とオフセットの設定例
パフォーマンスデータの記録方法の詳細については,「10.1 パフォーマンスデータの管理」を参照してください。
All Rights Reserved. Copyright (C) 2006, 2008, Hitachi, Ltd.