Hitachi

JP1 Version 11 JP1/Service Level Management


3.3.1 監視対象サービスのサービス性能の異常の予兆検知と対処の支援の設定例

ここでは,「1.1.2 サービスの状況を監視します」の監視対象サービスのサービス性能の異常の予兆検知と対処の支援の例について説明します。

監視対象サービスに対するサービス性能の異常の予兆検知と対処の支援について,ある条件に基づいて具体的にどのように検討・設定するとよいかを,例を用いて説明します。

〈この項の構成〉

(1) 前提条件

この設定例の条件は,次のとおりです。

(2) SLAからのSLOの定義

JP1/SLMでの監視項目の設定に向けた作業

すべてのサービスの監視者は,SLAの内容を確認して,しきい値とするSLOを検討することにしました。

その結果,SLAの契約内容に,応答性能達成率95%以上,サービス可用性99.8%以上などの項目があったため,SLOは次のように定義しました。

  • 平均応答時間:3000ミリ秒

  • スループット:800件/秒

  • エラー率:1.0%

また,SLOというしきい値での監視だけでなく,サービス性能の異常を予兆段階で検知・対処する必要があったため,外れ値検知もすることにしました。

作業の結果

SLOが定義できたため,すべてのサービスの監視者は各監視対象サービスについて,監視項目を設定することにしました。

(3) 監視項目の設定

JP1/SLMでの作業

すべてのサービスの監視者は,JP1/SLM - Managerにログインして[設定]画面を表示し,定義したSLOに基づき,監視対象サービスの監視項目を設定することにしました。

SLOに基づいた監視対象サービスの監視項目の設定例を次の図に示します。

図3‒31 SLOに基づいた監視対象サービスの監視項目の設定例

[図データ]

この図では,サービスグループ「Group01」のサービス「Service01」に対して監視項目を設定しています。監視項目の設定内容は,次のとおりです。

[SLO監視設定]
表3‒11 [SLO監視設定]での設定内容例

チェックボックス

項目名

しきい値

チェックボックス

傾向監視

チェックする

平均応答時間

3000

チェックする

5

チェックする

スループット

800

チェックする

5

チェックする

エラー率

1.0

(凡例)

−:設定できません。

 

[SLO監視設定]では,SLOの定義内容をしきい値として設定した上で,平均応答時間とスループットについて監視対象サービスのサービス性能の異常をいち早く察知するために,傾向監視を設定しました。

また,サービス性能の異常発生時には,別の担当者にも連絡を取って対処しなければならないため,少なくとも5時間前までにサービス性能の異常を察知する必要がありました。そのため,傾向監視の設定時間は5時間としました。

[予兆検知設定]
表3‒12 [予兆検知設定]での設定内容例

ベースライン算出日数

開始日数

チェックボックス

項目名

感度

相関項目

20

5

チェックする

平均応答時間

スループット

チェックする

スループット

チェックする

エラー率

(凡例)

−:設定できません。

 

[予兆検知設定]では,できるだけふだんのサービス性能に基づいた監視をするために,20日分のサービス性能でベースラインを算出することにしました。ただし,監視は5日後から開始したいと要望があったため,開始日数は5日としました。

また,すべての監視項目について外れ値検知をすることにした上で,ベースラインから離れたサービス性能が得られた場合に,敏感に検知できるよう感度を高く設定することにしました。さらに,複数の監視項目を組み合わせた外れ値検知も実施して,外れ値検知の精度を上げるよう設定しました。

作業の結果

サービスグループ「Group01」のサービス「Service01」について設定が完了したため,残りの監視対象サービスについても同様に監視項目の設定をすることにしました。

すべての監視対象サービスの設定が完了したあと,監視を実行することにしました。監視の実行例については,「4.6.1 監視対象サービスのサービス性能の異常の予兆検知と対処の支援の実行例」を参照してください。