稼働監視システムの目的は,システムが危険域に達したことを事前に把握し,トラブルを未然に防止することです。そのために,システムの監視項目を検討することは最も重要な作業になります。監視項目の検討では,どのような監視項目をどのように監視するかを決めます。監視項目を選定する際は,各PFM - Agentのマニュアルを参照して検討してください。
監視項目を検討する流れを次に示します。
なお,監視項目の選定には,Performance Managementで提供しているソリューションセットを利用できます。ソリューションセットをそのまま利用したり,一部の定義をカスタマイズしたりすることで,システム管理者の監視項目を定義する作業を軽減できます。
次に,アラームとレポートの検討についてそれぞれ説明します。
(1) アラームの検討
アラームで検討する内容について説明します。
(a) しきい値をどう設定するか
Performance Managementでは,PFM - Agentで収集したパフォーマンスデータが,あらかじめ定義されたしきい値に達したときに,アラームイベントを発行させることができます。システム管理者はこの機能を利用して,どの監視項目が,どのような値を超えたらアラームイベントで警告させるかを決めてください。Performance Managementではアラームイベントを発生させる条件を時間帯ごとに定義することもできます。
例えば,次のような設定ができます。
システム管理者は,必要に応じて,監視対象をどの時間帯に監視するかを決めてください。
また,Performance Managementでは,突発的な負荷によってしきい値が超過した場合にアラームイベントを発生させないように設定できます。「監視のインターバル何回中に何回しきい値を超過したら通知するか」という発生頻度を設定することで,継続的にCPUが高負荷となる状態のときだけ通知する,などの運用ができます。突発的で一時的な負荷の場合には通知を抑えることができるので,システムの特性を考慮した効率の良いアラームを発生させることができます。
(b) しきい値に達したらどう対処するか
監視対象プログラムが危険域に達したときに,どのように問題の個所を検知し,だれがどのような一次処置を行うのか,また,一次処置で解決しないときはどのような方法で解決するのかを決めます。Performance Managementでは,アラームイベントが発生したときに次のアクションを自動実行できます。
システム管理者は,これらのPerformance Managementの機能の利用を含めて,稼働監視システムからアラームが通知されたときの対処について検討してください。
次の図に,アラーム発生時の対処についての検討例を示します。
図3-9 監視対象システムが危険域に達したときの対処手順の例
(2) レポートの検討
レポートで検討する内容について説明します。
(a) どのようなレポートにするか
Performance Managementでは,現在の稼働状況をつかむためのリアルタイムレポートと長期的な稼働状況の傾向をとらえるための履歴レポートを作成できます。システム管理者は,パフォーマンスデータを基にどのようなレポートを作成して稼働状況を確認するかを検討してください。わかりやすいレポートを作成することで,システムの問題点を正しくとらえることができます。
Performance Managementでは,日次,週次,月次,および年次などの期間ごとのレポートを表示できます。また,アラームイベントが発生したときにアラームのアイコンからレポートが表示されるようにしたり,あるレポートに関連性のあるレポートをあらかじめ定義しておくことでレポートから別のレポートをドリルダウン表示させたりすることもできます。
なお,システムの稼働状況を総合的に判断したい場合に,複数のレポートを同じグラフ上に重ね合わせて表示させることもできます。
長期的な稼働分析のために,レポートを定期的に出力する必要がある場合は,出力方式を検討します。Performance Managementでは,レポートをPFM - Web Consoleの画面で表示するか,または運用コマンド(jpcrptコマンド)でCSVまたはHTML形式のテキストファイルに出力できます。
レポートの定義方法やレポートの出力方法については,「11. 稼働分析のためのレポートの作成」を参照してください。
(b) どの項目をデータベースに保存するか
システム管理者は,監視エージェントで収集されるパフォーマンスデータについて,次のことを決めてください。
図3-10 パフォーマンスデータの収集間隔とオフセットの設定例
パフォーマンスデータの記録方法の詳細については,「10.1 パフォーマンスデータの管理」を参照してください。