3.3.1 監視対象サービスのサービス性能の異常の予兆検知と対処の支援の設定例
ここでは,「1.1.2 サービスの状況を監視します」の監視対象サービスのサービス性能の異常の予兆検知と対処の支援の例について説明します。
監視対象サービスに対するサービス性能の異常の予兆検知と対処の支援について,ある条件に基づいて具体的にどのように検討・設定するとよいかを,例を用いて説明します。
- 〈この項の構成〉
(1) 前提条件
この設定例の条件は,次のとおりです。
サービスの提供品質(サービスレベル)についてサービスの委託元(サービスの提供者)と委託先(データセンター)の間でSLA(Service Level Agreement)を締結しており,データセンターでは,SLAに基づいたサービスレベルの維持が求められている。
委託されたサービスは,次のとおり監視対象サービスとして登録されていて,監視対象サービスの監視は停止している。
サービスグループ:Group01
サービスグループGroup01に属するサービス:Service01〜Service03
サービスグループ:Group02
サービスグループGroup02に属するサービス:Service04,Service05
サービスグループ:Group03
サービスグループGroup03に属するサービス:Service06
サービスグループ:Group04
サービスグループGroup04に属するサービス:Service07
この作業に関わる担当者の関係は次の図のとおり。
図3‒30 監視対象サービスのサービス性能の異常の予兆検知と対処の支援(設定例)に関わる担当者の関係 すべてのサービスの監視者
締結したSLAに基づき,各監視項目についてSLOを決定した上で,[設定]画面で監視項目を設定する。
サービスの委託元の担当者
契約を交わしてサービスを委託した,サービスの提供者である。委託したサービスのサービスレベルの管理などは,すべてのサービスの監視者に一任している。
(2) SLAからのSLOの定義
- JP1/SLMでの監視項目の設定に向けた作業
すべてのサービスの監視者は,SLAの内容を確認して,しきい値とするSLOを検討することにしました。
その結果,SLAの契約内容に,応答性能達成率95%以上,サービス可用性99.8%以上などの項目があったため,SLOは次のように定義しました。
平均応答時間:3000ミリ秒
スループット:800件/秒
エラー率:1.0%
また,SLOというしきい値での監視だけでなく,サービス性能の異常を予兆段階で検知・対処する必要があったため,外れ値検知もすることにしました。
- 作業の結果
SLOが定義できたため,すべてのサービスの監視者は各監視対象サービスについて,監視項目を設定することにしました。
(3) 監視項目の設定
- JP1/SLMでの作業
すべてのサービスの監視者は,JP1/SLM - Managerにログインして[設定]画面を表示し,定義したSLOに基づき,監視対象サービスの監視項目を設定することにしました。
SLOに基づいた監視対象サービスの監視項目の設定例を次の図に示します。
図3‒31 SLOに基づいた監視対象サービスの監視項目の設定例 この図では,サービスグループ「Group01」のサービス「Service01」に対して監視項目を設定しています。監視項目の設定内容は,次のとおりです。
- [SLO監視設定]
-
表3‒11 [SLO監視設定]での設定内容例 チェックボックス
項目名
しきい値
チェックボックス
傾向監視
チェックする
平均応答時間
3000
チェックする
5
チェックする
スループット
800
チェックする
5
チェックする
エラー率
1.0
−
−
(凡例)
−:設定できません。
[SLO監視設定]では,SLOの定義内容をしきい値として設定した上で,平均応答時間とスループットについて監視対象サービスのサービス性能の異常をいち早く察知するために,傾向監視を設定しました。
また,サービス性能の異常発生時には,別の担当者にも連絡を取って対処しなければならないため,少なくとも5時間前までにサービス性能の異常を察知する必要がありました。そのため,傾向監視の設定時間は5時間としました。
- [予兆検知設定]
-
表3‒12 [予兆検知設定]での設定内容例 ベースライン算出日数
開始日数
チェックボックス
項目名
感度
相関項目
20
5
チェックする
平均応答時間
高
スループット
チェックする
スループット
高
−
チェックする
エラー率
高
−
(凡例)
−:設定できません。
[予兆検知設定]では,できるだけふだんのサービス性能に基づいた監視をするために,20日分のサービス性能でベースラインを算出することにしました。ただし,監視は5日後から開始したいと要望があったため,開始日数は5日としました。
また,すべての監視項目について外れ値検知をすることにした上で,ベースラインから離れたサービス性能が得られた場合に,敏感に検知できるよう感度を高く設定することにしました。さらに,複数の監視項目を組み合わせた外れ値検知も実施して,外れ値検知の精度を上げるよう設定しました。
- 作業の結果
サービスグループ「Group01」のサービス「Service01」について設定が完了したため,残りの監視対象サービスについても同様に監視項目の設定をすることにしました。
すべての監視対象サービスの設定が完了したあと,監視を実行することにしました。監視の実行例については,「4.6.1 監視対象サービスのサービス性能の異常の予兆検知と対処の支援の実行例」を参照してください。