Hitachi

JP1 Version 11 パフォーマンス管理 基本ガイド(サービスレベル管理編)


4.5 外れ値検知によるふだんと異なる監視対象サービスの状態の検知とは

外れ値検知は,監視対象サービスのサービス性能がふだんのサービス性能と大きく異なっている場合に,サービス性能の異常の予兆として検知する監視方法です。外れ値検知は,監視項目ごとに監視します。また,複数の監視項目を組み合わせて監視することもできます。

過去に蓄積したサービス性能から平均値を算出して,平均値と大きく異なる値を外れ値として検知します。なお,過去に蓄積されたサービス性能から算出した平均値をベースラインといいます。

外れ値検知では,ベースラインを基に上下に幅を持たせた値を上下限値として使用します。現在のサービス性能が上限値を上回ったか,または下限値を下回ったら外れ値として検知することで,現在のサービス性能がベースラインから大きく離れていないか,つまりふだんのサービス性能と異なっていないかを判断します。ベースラインおよび上下限値は,60秒ごとに更新されます。

外れ値検知は,標準偏差を用いた統計手法に基づいて行います。ベースラインには過去に蓄積されたサービス性能の平均値を用いており,上下限値は過去に蓄積されたサービス性能の平均値および標準偏差を基に算出した値を用いています。

外れ値検知でふだんと異なるサービス性能が検知された例を次の図に示します。

図4‒9 外れ値検知でふだんと異なるサービス性能が検知された例

[図データ]

図では平均応答時間を監視しています。時間の経過に伴ってサービス性能の値が増加していき,上限値を上回ったため検知されました。

上下限値は,監視対象サービスのサービス性能がベースラインからどれだけ離れたら検知するかを示す,感度を設定することで決定されます。感度の設定によって,検知のされやすさが変化します。

また,外れ値検知では,複数の監視項目を組み合わせて監視することもできます。

複数の監視項目を組み合わせた外れ値検知では,監視項目の相関関係を考慮することで,サービス性能の異常の予兆検知の精度を高められます。組み合わせられる監視項目は,平均応答時間とスループットです。

監視項目に相関関係がある場合,1つの監視項目だけを見ると異常に見えても,相関関係を考慮すると異常ではないことがあります。例えば,平均応答時間が増加傾向であっても,原因が監視対象サービスの利用者の増加によるスループットの増加である場合には,平均応答時間の増加はシステムの負荷の増加による正常なサービス性能の変化と見なすこともあります。複数の監視項目を組み合わせた外れ値検知では,このような相関関係に基づいたサービス性能の変化は問題ないと判断し,検知しないことで,検知の精度を高められます。

複数の監視項目を組み合わせた外れ値検知でふだんと異なるサービス性能が検知された例を次の図に示します。

図4‒10 複数の監視項目を組み合わせた外れ値検知でふだんと異なるサービス性能が検知された例

[図データ]

図のAのように,同じ時間に平均応答時間またはスループットのどちらか片方だけが異常な増加をした場合は,サービス性能の異常の予兆として検知されます。しかし,図のBのように,同じ時間に両方とも異常な増加をした場合は,相関関係が見られるため,正常だと判断され,検知されません。

複数の監視項目を組み合わせた外れ値検知では,2つのサービス性能の相関関係がベースラインとして算出されます。このベースラインを基に算出された予兆検知の上限値を上回ったか,下限値を下回ったら,相関関係がないと見なされて,検知されます。

複数の監視項目を組み合わせた外れ値検知では,ベースラインおよび上下限値は,1時間ごとに更新されます。

外れ値検知で検知された場合,警告となって画面に表示されます。

画面に警告が表示された例を次の図に示します。

図4‒11 画面に警告が表示された例(外れ値検知)

[図データ]

画面には,警告のアイコン,検出日時,警告の対象となったサービスグループの名称,サービスの名称などの情報が表示されます。サービス性能が連続して上限値を上回り続ける場合,または下限値を下回り続ける場合は,最初に検知された時点の警告だけが表示されます。表示された警告の前後のサービス性能はグラフで確認できます。

グラフを表示した例を次の図に示します。

図4‒12 グラフを表示した例(外れ値検知)

[図データ]

グラフでは,上限値を上回ったか,または下限値を下回ったサービス性能を検知した時刻が警告のアイコンで,外れ値の原因の事象が発生したと推測される時刻が色付きの帯で表示されます。

なお,外れ値検知をするためには,[設定]画面で次の項目を設定する必要があります。

開始日数

サービス性能を何日分蓄積したら外れ値検知を開始するかを設定します。外れ値検知では,ベースラインを算出するに当たって,本番環境で稼働している監視対象サービスのサービス性能を蓄積する必要があります。蓄積した日数が1日以上あれば外れ値を検知できますが,蓄積日数がベースライン算出日数より少ない場合は,ベースラインの基となるデータが不足するため,実態に合わないベースラインとなるおそれがあります。そのため,開始日数にはベースライン算出日数以上の値を設定することを推奨します。

ベースライン算出日数

ベースラインの算出に使用するサービス性能について,蓄積した過去のサービス性能から何日分を使用するか,日数を設定します。

感度

ベースラインから上下限値までの幅を調整して,外れ値検知での検知のされやすさを設定します。感度は高・中・低から設定でき,感度を高くすると上下限値の幅が狭くなって検知されやすくなり,感度を低くすると上下限値の幅が広くなって検知されにくくなります。上下限値の幅は,高は中の1/2倍,低は中の3/2倍となります。

感度を調整して,上下限値の幅を広くした場合と狭くした場合の例を次の図に示します。

図4‒13 上下限値の幅を広くした場合と狭くした場合の例

[図データ]

この図では平均応答時間を監視しています。左のグラフと右のグラフのサービス性能は同じですが,左のグラフのように上下限値の幅が狭い場合は,右のグラフのように上下限値の幅が広い場合に比べて,外れ値となるサービス性能が多くなります。

監視項目については「4.2 JP1/SLMの監視方法および監視項目について」を参照してください。

外れ値検知の詳細については,マニュアル「JP1/Service Level Management」の外れ値検知の説明を参照してください。