3.4.3 監視項目の検討

稼働監視システムの目的は,システムが危険域に達したことを事前に把握し,トラブルを未然に防止することです。そのために,システムの監視項目を検討することは最も重要な作業になります。監視項目の検討では,どのような監視項目をどのように監視するかを決めます。監視項目を選定する際は,各PFM - Agentのマニュアルを参照して検討してください。

監視項目を検討する流れを次に示します。

  1. アラームの検討
    監視対象システムのどのような項目を監視するかを決めて,監視項目に対するしきい値を決めます。例えば,共有サーバ上での作業が正常にできなくなることがないように,共有サーバの論理ディスクドライブの空き容量の割合を監視項目とし,しきい値を決めます。
    また,しきい値に達した場合にどのような方法でシステム管理者に通知させるかを決めます。例えば,EメールやSNMPトラップを送信できます。
  2. レポートの検討
    設定したしきい値を超え,アラームが発生した場合に,原因分析や状況把握のためにどのようなレポートを表示させるかを決めます。例えば,共有サーバの論理ディスクドライブの空き容量が少ない上位10個を集合横棒グラフに表示する,などのように監視項目と表示形式を決めます。

なお,監視項目の選定には,Performance Managementで提供しているソリューションセットを利用できます。ソリューションセットをそのまま利用したり,一部の定義をカスタマイズしたりすることで,システム管理者の監視項目を定義する作業を軽減できます。

ポイント
監視項目は,監視対象プログラムのパラメーターの選定など技術的なことだけでなく,システムの業務特性やシステムの運用体制を考えて検討することをお勧めします。

次に,アラームとレポートの検討についてそれぞれ説明します。

<この項の構成>
(1) アラームの検討
(2) レポートの検討

(1) アラームの検討

アラームで検討する内容について説明します。

(a) しきい値をどう設定するか

Performance Managementでは,PFM - Agentで収集したパフォーマンスデータが,あらかじめ定義されたしきい値に達したときに,アラームイベントを発行させることができます。システム管理者はこの機能を利用して,どの監視項目が,どのような値を超えたらアラームイベントで警告させるかを決めてください。Performance Managementではアラームイベントを発生させる条件を時間帯ごとに定義することもできます。

例えば,次のような設定ができます。

システム管理者は,必要に応じて,監視対象をどの時間帯に監視するかを決めてください。

また,Performance Managementでは,突発的な負荷によってしきい値が超過した場合にアラームイベントを発生させないように設定できます。「監視のインターバル何回中に何回しきい値を超過したら通知するか」という発生頻度を設定することで,継続的にCPUが高負荷となる状態のときだけ通知する,などの運用ができます。突発的で一時的な負荷の場合には通知を抑えることができるので,システムの特性を考慮した効率の良いアラームを発生させることができます。

(b) しきい値に達したらどう対処するか

監視対象プログラムが危険域に達したときに,どのように問題の個所を検知し,だれがどのような一次処置を行うのか,また,一次処置で解決しないときはどのような方法で解決するのかを決めます。Performance Managementでは,アラームイベントが発生したときに次のアクションを自動実行できます。

システム管理者は,これらのPerformance Managementの機能の利用を含めて,稼働監視システムからアラームが通知されたときの対処について検討してください。

次の図に,アラーム発生時の対処についての検討例を示します。

図3-9 監視対象システムが危険域に達したときの対処手順の例

[図データ]

ポイント
アラームイベントが発生したときに,自動で修復プログラムなどを実行してシステムを自律的に正常な状態にしたい場合は,JP1イベントを発行して,ジョブ管理システムなどと連携することをお勧めします。

(2) レポートの検討

レポートで検討する内容について説明します。

(a) どのようなレポートにするか

Performance Managementでは,現在の稼働状況をつかむためのリアルタイムレポートと長期的な稼働状況の傾向をとらえるための履歴レポートを作成できます。システム管理者は,パフォーマンスデータを基にどのようなレポートを作成して稼働状況を確認するかを検討してください。わかりやすいレポートを作成することで,システムの問題点を正しくとらえることができます。

Performance Managementでは,日次,週次,月次,および年次などの期間ごとのレポートを表示できます。また,アラームイベントが発生したときにアラームのアイコンからレポートが表示されるようにしたり,あるレポートに関連性のあるレポートをあらかじめ定義しておくことでレポートから別のレポートをドリルダウン表示させたりすることもできます。

なお,システムの稼働状況を総合的に判断したい場合に,複数のレポートを同じグラフ上に重ね合わせて表示させることもできます。

長期的な稼働分析のために,レポートを定期的に出力する必要がある場合は,出力方式を検討します。Performance Managementでは,レポートをPFM - Web Consoleの画面で表示するか,または運用コマンド(jpcrptコマンド)でCSVまたはHTML形式のテキストファイルに出力できます。

レポートの定義方法やレポートの出力方法については,「11. 稼働分析のためのレポートの作成」を参照してください。

(b) どの項目をデータベースに保存するか

システム管理者は,監視エージェントで収集されるパフォーマンスデータについて,次のことを決めてください。

パフォーマンスデータの記録方法の詳細については,「10.1 パフォーマンスデータの管理」を参照してください。