2.4.3 監視項目の検討
稼働監視システムの目的は,システムが危険域に達したことを事前に把握し,トラブルを未然に防止することです。そのために,システムの監視項目を検討することは最も重要な作業になります。監視項目の検討では,どのような監視項目をどのように監視するかを決めます。監視項目を選定する際は,各PFM - AgentまたはPFM - RMマニュアルを参照して検討してください。
監視項目を検討する流れを次に示します。
-
アラームの検討
監視対象システムのどのような項目を監視するかを決めて,監視項目に対するしきい値を決めます。例えば,共有サーバ上での作業が正常にできるように,共有サーバの論理ディスクドライブの空き容量の割合を監視項目とし,しきい値を決めます。
次に,アラームの通知方法を決めます。アラームの通知方法を次に示します。
-
監視項目の値が最初にしきい値に達したときにアラームを通知する
-
しきい値を超えている間アラームを評価するたびにアラームを通知する
また,しきい値に達した場合にどのような方法でシステム管理者に通知させるかを決めます。例えば,EメールやSNMPトラップを送信できます。
-
-
レポートの検討
設定したしきい値を超え,アラームが発生した場合に,原因分析や状況把握のためにどのようなレポートを表示させるかを決めます。例えば,共有サーバの論理ディスクドライブの空き容量が少ない上位10個を集合横棒グラフに表示する,などのように監視項目と表示形式を決めます。
なお,監視項目の選定には,Performance Managementで提供している監視テンプレートを利用できます。監視テンプレートをそのまま利用したり,一部の定義をカスタマイズしたりすることで,システム管理者の監視項目を定義する作業を軽減できます。
- ヒント
-
監視項目は,監視対象プログラムのパラメーターの選定など技術的なことだけでなく,システムの業務特性やシステムの運用体制を考えて検討することをお勧めします。
- 〈この項の構成〉
(1) アラームの検討
(a) しきい値をどう設定するか
Performance Managementでは,PFM - AgentやPFM - RMで収集したパフォーマンスデータが,あらかじめ定義されたしきい値に達したときに,アラームイベントを発行させることができます。システム管理者は,どの監視項目が,どのような値を超えたらアラームイベントで警告させるかを決めてください。Performance Managementではアラームイベントを発生させる条件を時間帯ごとに定義することもできます。
例えば,次のような設定ができます。
-
昼間と夜間で監視するプロセスを別々に設定する
-
昼間は監視センターでシステム運用者が常時監視するため,監視コンソールのアイコンの点滅で通知し,夜間はシステム管理者の携帯電話にEメールを送信する
システム管理者は,必要に応じて,監視対象をどの時間帯に監視するかを決めてください。
また,Performance Managementでは,一時的な負荷によってしきい値を超えた場合にアラームイベントを発生させないように設定できます。「監視のインターバル何回中に何回しきい値を超えたら通知するか」という発生頻度を設定することで,継続的にCPUが高負荷となる状態のときだけ通知する,などの運用ができます。一時的な負荷の場合には通知を抑えることができるので,システムの特性を考慮した効率の良いアラームを発生させることができます。
(b) アラームをどのように通知するか
アラームイベントは次の方法で通知できます。システム管理者は,監視要件に合わせて適切な通知方法を選択してください。
-
監視項目の値が最初にしきい値に達したときにアラームを通知する
この場合,さらに,次の通知方法があります。
-
アラームの状態が変わったときに通知する
-
レコードのインスタンス単位で状態が変わったときに通知する
-
-
しきい値を超えている間アラームを評価するたびにアラームを通知する
(c) アラームが通知されたらどう対処するか
監視項目の値が危険域に達したときに,どのように問題の個所を検知し,誰がどのような一次処置を実施するのか,また,一次処置で解決しないときはどのような方法で解決するのかを決めます。Performance Managementでは,アラームイベントが発生したときに次のアクションを自動実行できます。
-
システム管理者にEメールで通知する
-
SNMPトラップを送信する
-
Eメールや,SNMPトラップ以外の通知のためのコマンド(メッセンジャサービス(net sendコマンド)やwallコマンドなど)を実行する
-
ほかのJP1製品と連携するためのJP1イベントを発行する
システム管理者は,これらのPerformance Managementの機能の利用を含めて,稼働監視システムからアラームが通知されたときの対処について検討してください。
次の図に,アラーム発生時の対処についての検討例を示します。
|
- ヒント
-
アラームイベントが発生したときに,自動で修復プログラムなどを実行してシステムを自律的に正常な状態にしたい場合は,JP1イベントを発行して,ジョブ管理システムなどと連携することをお勧めします。
(2) レポートの検討
(a) どのようなレポートにするか
Performance Managementでは,現在の稼働状況をつかむためのリアルタイムレポートと長期的な稼働状況の傾向を捉えるための履歴レポートを作成できます。システム管理者は,パフォーマンスデータを基にどのようなレポートを作成して稼働状況を確認するかを検討してください。わかりやすいレポートを作成することで,システムの問題点を正しく捉えることができます。
Performance Managementでは,日次,週次,月次,および年次などの期間ごとのレポートを表示できます。また,アラームイベントが発生したときにアラームのアイコンからレポートが表示されるようにしたり,あるレポートに関連性のあるレポートをあらかじめ定義しておくことでレポートから別のレポートをドリルダウン表示させたりすることもできます。
なお,システムの稼働状況を総合的に判断したい場合に,複数のレポートを同じグラフ上に重ね合わせて表示させることもできます。
長期的な稼働分析のために,レポートを定期的に出力する必要がある場合は,出力方式を検討します。Performance Managementでは,レポートをPFM - Web Consoleの画面で表示するか,または運用コマンド(jpcrptコマンド)でCSVまたはHTML形式のテキストファイルに出力できます。
レポートの定義方法やレポートの出力方法については,マニュアル「JP1/Performance Management 運用ガイド」の,稼働分析のためのレポートの作成について説明している章を参照してください。
(b) どの項目をデータベースに保存するか
システム管理者は,監視エージェントで収集されるパフォーマンスデータについて,次のことを決めてください。
-
パフォーマンスデータをStoreデータベースに記録するかどうか
パフォーマンスデータを履歴レポートとして表示するには,レポートに表示するパフォーマンスデータをStoreデータベースに保存するように設定する必要があります。
-
パフォーマンスデータの収集間隔とタイミング
監視項目が多数あると,収集処理および記録処理がある時点に集中するため,性能が低下します。その場合には,パフォーマンスデータを収集するタイミングを監視項目ごとにずらすことでシステムの負荷を分散します。
例えば,1分間隔で収集するパフォーマンスデータが2つある場合,一方のデータのオフセットを0秒に設定し,もう一方のデータのオフセットを20秒に設定すると,パフォーマンスデータの収集開始時刻が20秒ずれます。オフセットの値を変更する場合は,収集処理の負荷を考慮した上で値を設定してください。
図2‒11 パフォーマンスデータの収集間隔とオフセットの設定例
パフォーマンスデータの記録方法の詳細については,マニュアル「JP1/Performance Management 運用ガイド」の,稼働監視データの管理について説明している章を参照してください。