JP1/IT Service Level Management

[目次][用語][索引][前へ][次へ]

3.1.4 しきい値監視によるしきい値超過の検知

しきい値監視は,監視項目ごとに監視します。監視項目については「3.1.1 JP1/ITSLMの監視方法および監視対象の種類」を参照してください。

ここでは,しきい値監視について説明します。

<この項の構成>
(1) しきい値監視とは
(2) 検知される基準
(3) 正常に戻ったと判断される基準
(4) 補足事項
(5) 関連項目

(1) しきい値監視とは

しきい値監視は,監視対象サービスのサービス性能が設定したしきい値を超過した場合に検知する監視方法です。

SLOが定義されている場合,しきい値としてSLOの値を設定することで,SLOの超過を検知できます。また,SLOが設定されていない場合も,基準となる値をしきい値として設定することで,サービス性能が想定していた基準を超過したことを検知できます。

しきい値監視でしきい値の超過が検知された例を次の図に示します。

図3-16 しきい値の超過が検知された例

[図データ]

この図では平均応答時間を監視しています。時間の経過に伴ってサービス性能の値が増加していき,しきい値を超過したため検知されました。

検知された場合,エラーとなって画面に表示されます。

画面にエラーが表示された例を次の図に示します。

図3-17 画面にエラーが表示された例(しきい値監視)

[図データ]

画面には,エラーのアイコン,検出日時,エラーの対象となったサービスグループの名称,サービスの名称などの情報が表示されます。サービス性能がしきい値を超過し続ける場合は,最初に検知された時点のエラーだけが表示されます。表示されたエラーの前後のサービス性能はグラフで確認できます。

グラフを表示した例を次の図に示します。

図3-18 グラフを表示した例(しきい値監視)

[図データ]

グラフでは,しきい値を超過した時刻がエラーのアイコンで,しきい値を超過する原因の事象が発生したと推測される時刻が色付きの帯で表示されます。

しきい値監視をするためには,[設定]画面で次の項目を設定する必要があります。

しきい値
監視対象サービスの状況を判断する基準となるしきい値を設定します。

(2) 検知される基準

しきい値監視では,一過性のしきい値超過を検知することを防止するため,継続的にしきい値超過が発生した場合に検知されます。

検知される基準は,60秒間に測定したサービス性能の数と,JP1/ITSLM - Managerのシステム定義ファイル(jp1itslm.properties)中のsloThresholdRateプロパティの指定値によって変化します。sloThresholdRateプロパティの値はすべての監視対象サービスのしきい値監視に適用されます。

システム定義ファイルを編集する場合は,「5.4.1 システム定義ファイルを編集する」を参照してください。

sloThresholdRateプロパティの値としきい値監視の挙動の関係を次の表に示します。

表3-3 sloThresholdRateプロパティの値としきい値監視の挙動の関係

項番 sloThresholdRateプロパティの値(n) しきい値監視の挙動
1 1 1回でもしきい値を超過したら検知されます。
60秒間で1回もしきい値を超過しなければ正常に戻ったと判断されます。
2 2〜98 60秒間でS×n/100(小数点以下切り上げ)回しきい値を超過したら検知されます。
60秒間の超過がS×n/100(小数点以下切り上げ)回未満になったら正常に戻ったと判断されます。
3 99〜100 60秒の間,常にしきい値を超過し続けたら検知されます。
1回でもしきい値より低い値になったら正常に戻ったと判断されます。
(凡例)
S:60秒間に測定したサービス性能の数
n:JP1/ITSLM - Managerのシステム定義ファイル(jp1itslm.properties)中のsloThresholdRateプロパティの指定値

(3) 正常に戻ったと判断される基準

しきい値超過から回復したことを判断する基準は,60秒前から現在時刻までの期間のサービス性能のうち,しきい値超過の件数がS×n/100(小数点以下切り上げ)件以下になった場合です。

Sは60秒間に測定したサービス性能の数,nはJP1/ITSLM - Managerのシステム定義ファイル(jp1itslm.properties)中のsloThresholdRateプロパティの指定値です。

システム定義ファイルを編集する場合は,「5.4.1 システム定義ファイルを編集する」を参照してください。

例えば,Sが60,nが10の場合,60秒間のサービス性能うちしきい値超過が6件未満になったときに正常に回復したと判断されます。一時的にしきい値より小さな値になっても,回復したとは判断されません。

状態の回復については,[ホーム]画面または[リアルタイム監視]画面で確認できます。[ホーム]画面の確認方法については「4.3.1 すべてのサービスグループの監視対象サービスの状況を確認する」を,リアルタイム画面の確認方法については,「4.3.2 特定のサービスグループの監視対象サービスの状況を確認する」を参照してください。

(4) 補足事項

(5) 関連項目