Hitachi

JP1 Version 11 JP1/Service Level Management


4.6.3 監視対象サービスのシステム性能の異常の予兆検知と対処の支援の実行例(JP1/PFMとの連携)

ここでは,JP1/SLMを使用した監視対象サービスに対するシステム性能の異常の予兆検知と対処の支援について,ある条件に基づいて具体的にどのように実行するとよいかを,例を用いて説明します。

〈この項の構成〉

(1) 前提条件

この実行例の条件は,次のとおりです。

(2) 監視対象サービスのサービス性能の異常の予兆検知

JP1/SLMでの作業

監視員が[ホーム]画面を表示して監視対象サービスの状況を監視していたところ,サービス性能の異常の予兆である警告が表示されました。

監視対象サービスに警告が表示されたときの[ホーム]画面での表示例を次の図に示します。

図4‒14 監視対象サービスに警告が表示されたときの[ホーム]画面での表示例

[図データ]

この図で表示されている警告の内容は次のとおりです。

  • 検出日時:2020-02-14 01:14:00

  • 種別:OUTLIER

  • 現象:UPPER LIMIT

  • サービスグループ:Group01

  • 監視対象サービス:Service01

  • 監視対象:Agent01

  • 監視項目:CPU<Drive name>=<C>

この警告は,2020年2月14日の1時14分00秒に,Group01に属するService01のCPU<Drive name>=<C>について,ふだんの監視対象サービスの状況と大きく異なる外れ値(上限値を上回った)を検知したことを示しています。

また,監視対象のホストについても同様に異常を検知したことを示しています。

作業の結果

監視員は,警告が表示されたことをすべてのサービスの監視者へ報告しました。

警告を放置すると,エラーにつながるおそれがあるため,すべてのサービスの監視者は,早速対処することにしました。

(3) 監視対象サービスのサービス性能の異常の予兆を検知したあとの対処

JP1/SLMでの作業

すべてのサービスの監視者は,[ホーム]画面に警告が表示されたことを受け,警告として検知された事象の発生時期を[問題調査]画面を利用して調査し,対処することにしました。

監視対象サービスに警告が表示されたときの[問題調査]画面での表示例を次の図に示します。

図4‒15 監視対象サービスに警告が表示されたときの[問題調査]画面での表示例

[図データ]

この図では,CPU<Drive name>=<C>の性能グラフから,警告の原因となった事象が01:04:26〜01:48:26の間に発生したと考えられます。

すべてのサービスの監視者は,システム性能を確認するため,構成情報を表示して確認することにしました。構成情報を表示した[問題調査]画面での表示例を次の図に示します。

図4‒16 構成情報を表示したときの[問題調査]画面での表示例

[図データ]

この図では,「Agent01」のCPUに警告が発生しています。このことから,監視対象サービスを提供しているマシンに何らかの問題が発生したと考えられます。

作業の結果

[問題調査]画面で,警告として表示された内容,およびその原因となった事象が発生したと考えられる時期から,システム性能に問題がある可能性が高いことがわかりました。このため,すべてのサービスの監視者はシステム管理者に連絡し,根本的な原因の調査・対処を依頼しました。

(4) 対処後のサービス性能の確認

JP1/SLMでの作業

システム管理者による根本的な原因の対処後,すべてのサービスの監視者は,システム性能が正常な状態に回復しているかを[リアルタイム監視]画面で確認することにしました。

対処が完了し,システム性能が正常な状態に回復したときの[リアルタイム監視]画面での表示例を次の図に示します。

図4‒17 システム性能が正常な状態に回復したときの[リアルタイム監視]画面での表示例

[図データ]

この図のように,システム性能が正常な状態に回復したときは,[システム性能情報]エリアに[図データ](正常)アイコンが表示されます。

作業の結果

すべてのサービスの監視者は,サービス性能およびシステム性能が正常な状態に回復したことを確認でき,監視対象サービスの異常の予兆について対処できました。