4.6.3 監視対象サービスのシステム性能の異常の予兆検知と対処の支援の実行例(JP1/PFMとの連携)
ここでは,JP1/SLMを使用した監視対象サービスに対するシステム性能の異常の予兆検知と対処の支援について,ある条件に基づいて具体的にどのように実行するとよいかを,例を用いて説明します。
(1) 前提条件
この実行例の条件は,次のとおりです。
監視対象サービスの登録,および予兆検知に必要な設定は完了していて,すでに監視が開始されている。
この作業に関わる担当者の関係は次の図のとおり。
図4‒13 監視対象サービスのシステム性能の異常の予兆検知と対処の支援(実行例)に関わる担当者の関係 すべてのサービスの監視者
監視員に監視を指示する。また,システム性能に異常の予兆があるとの報告を受けた際に原因を調査する。しかし,さらに詳細な調査が必要と判断した場合は,システム管理者へ調査を依頼する。
監視員
[ホーム]画面で,すべてのサービスの監視者が設定したすべての監視対象サービスの監視項目を監視する。警告やエラーが発生した場合はすぐにすべてのサービスの監視者へ報告する。
システム管理者
すべてのサービスの監視者から監視対象サービスを提供するシステムに関する調査依頼を受けた際,ホストやミドルウェアの状態を調査して,対処する。
(2) 監視対象サービスのサービス性能の異常の予兆検知
- JP1/SLMでの作業
監視員が[ホーム]画面を表示して監視対象サービスの状況を監視していたところ,サービス性能の異常の予兆である警告が表示されました。
監視対象サービスに警告が表示されたときの[ホーム]画面での表示例を次の図に示します。
図4‒14 監視対象サービスに警告が表示されたときの[ホーム]画面での表示例 この図で表示されている警告の内容は次のとおりです。
-
検出日時:2020-02-14 01:14:00
-
種別:OUTLIER
-
現象:UPPER LIMIT
-
サービスグループ:Group01
-
監視対象サービス:Service01
-
監視対象:Agent01
-
監視項目:CPU<Drive name>=<C>
この警告は,2020年2月14日の1時14分00秒に,Group01に属するService01のCPU<Drive name>=<C>について,ふだんの監視対象サービスの状況と大きく異なる外れ値(上限値を上回った)を検知したことを示しています。
また,監視対象のホストについても同様に異常を検知したことを示しています。
-
- 作業の結果
監視員は,警告が表示されたことをすべてのサービスの監視者へ報告しました。
警告を放置すると,エラーにつながるおそれがあるため,すべてのサービスの監視者は,早速対処することにしました。
(3) 監視対象サービスのサービス性能の異常の予兆を検知したあとの対処
- JP1/SLMでの作業
すべてのサービスの監視者は,[ホーム]画面に警告が表示されたことを受け,警告として検知された事象の発生時期を[問題調査]画面を利用して調査し,対処することにしました。
監視対象サービスに警告が表示されたときの[問題調査]画面での表示例を次の図に示します。
図4‒15 監視対象サービスに警告が表示されたときの[問題調査]画面での表示例 この図では,CPU<Drive name>=<C>の性能グラフから,警告の原因となった事象が01:04:26〜01:48:26の間に発生したと考えられます。
すべてのサービスの監視者は,システム性能を確認するため,構成情報を表示して確認することにしました。構成情報を表示した[問題調査]画面での表示例を次の図に示します。
図4‒16 構成情報を表示したときの[問題調査]画面での表示例 この図では,「Agent01」のCPUに警告が発生しています。このことから,監視対象サービスを提供しているマシンに何らかの問題が発生したと考えられます。
- 作業の結果
[問題調査]画面で,警告として表示された内容,およびその原因となった事象が発生したと考えられる時期から,システム性能に問題がある可能性が高いことがわかりました。このため,すべてのサービスの監視者はシステム管理者に連絡し,根本的な原因の調査・対処を依頼しました。
(4) 対処後のサービス性能の確認
- JP1/SLMでの作業
システム管理者による根本的な原因の対処後,すべてのサービスの監視者は,システム性能が正常な状態に回復しているかを[リアルタイム監視]画面で確認することにしました。
対処が完了し,システム性能が正常な状態に回復したときの[リアルタイム監視]画面での表示例を次の図に示します。
図4‒17 システム性能が正常な状態に回復したときの[リアルタイム監視]画面での表示例 この図のように,システム性能が正常な状態に回復したときは,[システム性能情報]エリアに(正常)アイコンが表示されます。
- 作業の結果
すべてのサービスの監視者は,サービス性能およびシステム性能が正常な状態に回復したことを確認でき,監視対象サービスの異常の予兆について対処できました。