4.6.2 監視対象サービスの処理ごとのサービス性能の異常の予兆検知と対処の支援の実行例
ここでは,JP1/SLMを使用した監視対象サービスの処理ごとのサービス性能の異常の予兆検知と対処の支援について,ある条件に基づいて具体的にどのように実行するとよいかを,例を用いて説明します。
- 〈この項の構成〉
(1) 前提条件
この実行例の条件は,次のとおりです。
監視対象サービスおよびWebトランザクションの登録,および予兆検知に必要な設定は完了していて,すでに監視が開始されている。
この作業に関わる担当者の関係は次の図のとおり。
図4‒8 監視対象サービスの処理ごとのサービス性能の異常の予兆検知と対処の支援(実行例)に関わる担当者の関係 すべてのサービスの監視者
監視員に監視を指示する。また,サービス性能に異常の予兆があるとの報告を受けた際に原因を調査する。しかし,さらに詳細な調査が必要と判断した場合は,監視対象サービスの保守担当者へ調査を依頼する。
監視員
[ホーム]画面ですべてのサービスグループの監視対象サービスおよび監視対象サービスの処理ごとの状況を監視する。
監視対象サービスの保守担当者
すべてのサービスの監視者から監視対象サービスに関する調査依頼を受けた際,監視対象サービスを調査して,必要に応じて対処する。
(2) 監視対象サービスの処理ごとのサービス性能の異常の予兆検知
- JP1/SLMでの作業
すべてのサービスの監視者が[ホーム]画面を表示して監視対象サービスおよび監視対象サービスの処理ごとの状況を監視していたところ,処理に対応するWebトランザクションで,サービス性能の異常の予兆である警告が表示されました。
監視対象サービスのWebトランザクションに警告が表示されたときの[ホーム]画面での表示例を次の図に示します。
図4‒9 監視対象サービスのWebトランザクションに警告が表示されたときの[ホーム]画面での表示例 この図で表示されている警告の内容は次のとおりです。
-
検出日時:2020-02-14 12:30:15
-
種別:OUTLIER
-
現象:UPPER LIMIT
-
サービスグループ:Group02
-
監視対象サービス:Service02
-
監視対象:Transaction1
-
監視項目:平均応答時間
この警告は,2020年2月14日の12時30分15秒に,Group02に属するService02のTransaction1の平均応答時間について,ふだんの監視対象サービスの状況と大きく異なる外れ値(上限値を上回った)を検知したことを示しています。
-
- 作業の結果
監視員は,警告が表示されたことをすべてのサービス監視者へ報告しました。
警告を放置すると,エラーにつながるおそれがあるため,すべてのサービスの監視者は,早速対処することにしました。
(3) 監視対象サービスの処理ごとのサービス性能の異常の予兆を検知したあとの対処
- JP1/SLMでの作業
すべてのサービス監視者は,[ホーム]画面に警告が表示されたことを受け,警告として検知された事象の発生時期を[問題調査]画面を利用して調査し,対処することにしました。
監視対象サービスのWebトランザクションに警告が表示されたときの[問題調査]画面での表示例を次の図に示します。
図4‒10 監視対象サービスのWebトランザクションに警告が表示されたときの[問題調査]画面での表示例 この図では,平均応答時間の性能グラフから,警告の原因となった事象が12:28:15〜12:36:15の間に発生したと考えられます。
監視対象サービスのWebトランザクションに警告が表示された時間帯のアクセス履歴を確認し,問題となるWebシステム処理を調査します。
図4‒11 監視対象サービスのWebトランザクションに警告が表示されたときの[アクセス履歴]表示例 - 作業の結果
[問題調査]画面で,警告として表示された内容,およびその原因となった事象が発生したと考えられる時期が明らかになったため,すべてのサービスの監視者はそれらの情報を監視対象サービスの保守担当者に連絡し,根本的な原因の調査・対処を依頼しました。
(4) 対処後のサービス性能の確認
- JP1/SLMでの作業
監視対象サービスの保守担当者による根本的な原因の対処後,すべてのサービスの監視者は,Webトランザクションのサービス性能が正常な状態に回復しているかを[リアルタイム監視]画面で確認することにしました。
対処が完了し,Webトランザクションのサービス性能が正常な状態に回復したときの[リアルタイム監視]画面での表示例を次の図に示します。
図4‒12 Webトランザクションのサービス性能が正常な状態に回復したときの[リアルタイム監視]画面での表示例 この図のように,Webトランザクションのサービス性能が正常な状態に回復したときは,[サービス性能情報]エリアに
(正常)アイコンが表示されます。
- 作業の結果
すべてのサービスの監視者は,Webトランザクションのサービス性能が正常な状態に回復したことを確認できました。これによって,監視対象サービスの処理ごとのサービス性能の異常の予兆について対処できました。