Hitachi

JP1 Version 10 JP1/IT Service Level Management


3.1.4 しきい値監視によるしきい値超過の検知

しきい値監視は,監視項目ごとに監視します。監視項目については「3.1.1 JP1/ITSLMの監視方法および監視対象の種類」を参照してください。

ここでは,しきい値監視について説明します。

〈この項の構成〉

(1) しきい値監視とは

しきい値監視は,監視対象サービスのサービス性能が設定したしきい値を超過した場合に検知する監視方法です。

SLOが定義されている場合,しきい値としてSLOの値を設定することで,SLOの超過を検知できます。また,SLOが設定されていない場合も,基準となる値をしきい値として設定することで,サービス性能が想定していた基準を超過したことを検知できます。

しきい値監視でしきい値の超過が検知された例を次の図に示します。

図3‒18 しきい値の超過が検知された例

[図データ]

この図では平均応答時間を監視しています。時間の経過に伴ってサービス性能の値が増加していき,しきい値を超過したため検知されました。

検知された場合,エラーとなって画面に表示されます。

画面にエラーが表示された例を次の図に示します。

図3‒19 画面にエラーが表示された例(しきい値監視)

[図データ]

画面には,エラーのアイコン,検出日時,エラーの対象となったサービスグループの名称,サービスの名称などの情報が表示されます。サービス性能がしきい値を超過し続ける場合は,最初に検知された時点のエラーだけが表示されます。表示されたエラーの前後のサービス性能はグラフで確認できます。

グラフを表示した例を次の図に示します。

図3‒20 グラフを表示した例(しきい値監視)

[図データ]

グラフでは,しきい値を超過した時刻がエラーのアイコンで,しきい値を超過する原因の事象が発生したと推測される時刻が色付きの帯で表示されます。

しきい値監視をするためには,[設定]画面でしきい値を設定する必要があります。

しきい値

監視対象サービスの状況を判断する基準となるしきい値を設定します。

JP1/PFMと連携する場合

JP1/PFMと連携することで,システム性能についてもしきい値監視ができます。システム性能のしきい値監視では,次の2種類の監視項目があります。

  • しきい値を上回った場合に通知する監視項目

  • しきい値を下回った場合に通知する監視項目

どちらの監視項目に該当するかは,[設定]画面の[監視設定]エリアで確認できます。[しきい値]列のアイコンが[図データ]の場合はしきい値を上回った場合に通知する監視項目,[図データ]の場合はしきい値を下回った場合に通知する監視項目になります。

(2) 検知される基準

しきい値監視では,一過性のしきい値超過を検知することを防止するため,継続的にしきい値超過が発生した場合に検知されます。しきい値超過が検知される基準を,サービス性能を監視する場合とシステム性能を監視する場合のそれぞれについて説明します。

サービス性能を監視する場合

検知される基準は,60秒間に測定したサービス性能の数と,JP1/ITSLM - Managerのシステム定義ファイル(jp1itslm.properties)中のsloThresholdRateプロパティの指定値によって変化します。sloThresholdRateプロパティの値はすべての監視対象サービスのしきい値監視に適用されます。

システム定義ファイルを編集する場合は,「5.6.1 システム定義ファイルを編集する」を参照してください。

sloThresholdRateプロパティの値としきい値監視の挙動の関係を次の表に示します。

表3‒5 sloThresholdRateプロパティの値としきい値監視の挙動の関係

項番

sloThresholdRateプロパティの値(n)

しきい値監視の挙動

1

1

1回でもしきい値を超過したら検知されます。

60秒間で1回もしきい値を超過しなければ正常に戻ったと判断されます。

2

2〜98

60秒間でS×n/100(小数点以下切り上げ)回しきい値を超過したら検知されます。

60秒間の超過がS×n/100(小数点以下切り上げ)回未満になったら正常に戻ったと判断されます。

3

99〜100

60秒の間,常にしきい値を超過し続けたら検知されます。

1回でもしきい値より低い値になったら正常に戻ったと判断されます。

(凡例)

S:60秒間に測定したサービス性能の数

n:JP1/ITSLM - Managerのシステム定義ファイル(jp1itslm.properties)中のsloThresholdRateプロパティの指定値

システム性能を監視する場合

検知される基準は,直近の測定回数で何回超過したらイベントを発生させるかで決めます。超過回数と測定回数は,[設定]画面の[監視設定]エリアのSLO監視設定の[発生頻度]で設定します。設定した値としきい値超過が検知される基準の対応を次の表に示します。

表3‒6 しきい値超過が検知される基準

項番

[発生頻度]の設定

しきい値超過が検知される基準

1

超過回数と測定回数の両方に1を設定している

現在時刻の性能データがしきい値を超過している場合は,しきい値超過が検知されます。

2

超過回数と測定回数のどちらか,または超過回数と測定回数の両方に1以外の値を設定している

次の両方の条件を満たす場合に,しきい値超過が検知されます。

  • 現在時刻の性能データがしきい値を超過している。

  • 測定回数で,超過回数以上しきい値を超過している。取得回数が測定回数未満のときは,その時点での全計測値で超過回数以上しきい値を超過している。

しきい値超過の検知を判定する際の注意事項について次に示します。

  • 通知の実施後,正常に戻るまでは,条件を満たしても通知はしません。

  • 監視を停止した場合,計測値の取得回数としきい値の超過回数は0に初期化されます。再度監視を開始したあとの判定にそれまでの計測値は使用しません。

  • 直近にエラーが発生し計測値を取得できなかった時刻がある場合,その時刻は無視して指定回数分の判定ができるまで計測値をさかのぼって判定します。

(3) 正常に戻ったと判断される基準

しきい値超過から回復して正常に戻ったことを判断する基準を,サービス性能を監視する場合とシステム性能を監視する場合のそれぞれについて説明します。

サービス性能を監視する場合

しきい値超過から回復したことを判断する基準は,60秒前から現在時刻までの期間のサービス性能のうち,しきい値超過の件数がS×n/100(小数点以下切り上げ)件以下になった場合です。

Sは60秒間に測定したサービス性能の数,nはJP1/ITSLM - Managerのシステム定義ファイル(jp1itslm.properties)中のsloThresholdRateプロパティの指定値です。

システム定義ファイルを編集する場合は,「5.6.1 システム定義ファイルを編集する」を参照してください。

例えば,Sが60,nが10の場合,60秒間のサービス性能のうちしきい値超過が6件未満になったときに正常に回復したと判断されます。一時的にしきい値より小さな値になっても,回復したとは判断されません。

システム性能を監視する場合

しきい値超過から回復したことを判断する基準は,[設定]画面の[監視設定]エリアで監視対象サービスに設定した,SLO監視設定の[発生頻度]の値によって変化します。

SLO監視設定の[発生頻度]の設定については「3.2.8 システム性能の監視項目を設定する(JP1/PFMと連携する場合)」を参照してください。

設定した値と回復したと判断される基準の対応を次の表に示します。

表3‒7 しきい値超過から回復したと判断される基準

項番

[発生頻度]の設定

回復したと判断される基準

1

MNの両方に1を設定している

現在時刻の性能データがしきい値を超過していない場合は,しきい値超過から回復したと見なされます。

2

MNのどちらか,またはMNの両方に1以外の値を設定している

直近のM回の計測値で,しきい値超過がN回未満のときはしきい値超過から回復したと見なされます。

取得回数がM回未満の場合は,その時点での全計測値でしきい値超過がN回未満のときに,しきい値超過から回復したと見なされます。

(凡例)

M:SLO監視設定の[発生頻度]に設定した測定回数

N:SLO監視設定の[発生頻度]に設定した超過回数

しきい値超過からの回復の判定は,通知した監視項目の値が更新されるときに実施されます。そのため,回復の判定はその監視項目の収集間隔で実施となります。

状態の回復については,[ホーム]画面または[リアルタイム監視]画面で確認できます。[ホーム]画面の確認方法については「4.3.1 すべてのサービスグループの監視対象サービスの状況を確認する」を,リアルタイム画面の確認方法については,「4.3.2 特定のサービスグループの監視対象サービスの状況を確認する」を参照してください。

(4) 補足事項

(5) 関連項目