3.3.3 監視対象サービスのシステムの異常の予兆検知と対処の支援の設定例(JP1/PFMとの連携)
ここでは,「1.2 JP1/PFMと連携してサービスの状況を監視します(JP1/PFMとの連携)」を例に説明します。
監視対象サービスを提供するホストやミドルウェアに対して,システム性能の異常の予兆検知と対処の支援をするために,具体的にどのように検討・設定するとよいかを,ある条件に基づいた例を用いて説明します。
- 〈この項の構成〉
(1) 前提条件
この設定例の条件は,次のとおりです。
サービスの提供品質(サービスレベル)についてサービスの委託元(サービスの提供者)と委託先(データセンター)の間でSLA(Service Level Agreement)を締結しており,データセンターでは,SLAに基づいたサービスレベルの維持が求められている。SLAの内容から定義したSLOの内容は,「3.3.1 監視対象サービスのサービス性能の異常の予兆検知と対処の支援の設定例」と同じように設定されている。
サービスグループおよび監視対象サービスは,「3.3.1 監視対象サービスのサービス性能の異常の予兆検知と対処の支援の設定例」と同じように登録されている。なお,監視対象サービスの監視は停止している。
この作業に関わる担当者の関係は次の図のとおり。
図3‒40 監視対象サービスのシステム性能の異常の予兆検知と対処の支援(設定例)に関わる担当者の関係 すべてのサービスの監視者
SLOが定義されたサービスに対し,システム性能の監視項目を追加する。
JP1/SLMでシステム性能の監視項目を監視するために,システム管理者にJP1/PFMでの設定内容を確認する。
システム管理者
JP1/PFMのシステム性能に関する監視項目を定義している。すべてのサービスの監視者に,JP1/SLMでシステム性能を監視するために必要な情報を提供する。
(2) 監視項目のキーフィールド情報の収集
監視項目が複数インスタンスの場合の例を基に説明します。監視項目が単数インスタンスの場合は,キーフィールド情報の定義は不要です。
- JP1/SLMでの監視項目の設定に向けた作業
すべてのサービスの監視者は,JP1/SLMでシステム性能を監視するために必要な情報をシステム管理者に提供してもらうよう依頼しました。システム管理者は,JP1/PFMで収集したキーフィールド情報(複数インスタンスレコード)を確認し,すべてのサービスの監視者に提供します。JP1/PFMで収集した複数インスタンスレコードの例は,「(7) システム性能の監視項目」を参照してください。
- 作業の結果
キーフィールド情報が確認できたため,すべてのサービスの監視者は各監視対象サービスを提供しているシステムに関する,監視項目を設定することにしました。
(3) 監視項目の設定
- JP1/SLMでの作業
監視項目の設定作業には,構成情報の設定および監視の設定の2種類があります。それぞれについて説明します。
構成情報の設定
すべてのサービスの監視者は,JP1/SLM - Managerにログインして[設定]画面を表示し,構成情報を設定することにしました。
システム性能を監視するためには,まず,監視対象サービスの構成情報を設定します。構成情報の設定では,監視対象サービスに業務グループを関連づけ,監視対象を設定します。また,設定した監視対象に対して,監視項目(CPU,HDD,HEAPなどの項目)も設定します。
設定例を次の図に示します。
図3‒41 構成情報(業務グループ設定)の設定例 この図では,サービスグループ「Group01」のサービス「Service01」に対して,関連づける業務グループを選択しています。
業務グループ「BGroup2」は,ホスト「Host03」と関連づいています。ホスト「Host03」上では,「Agent02」および「Agent03」が稼働しているため,JP1/SLMで監視する対象は「Agent02」および「Agent03」が収集するデータとなります。
業務グループを選択したら,[監視項目設定へ]ボタンをクリックして,監視対象に監視項目を設定します。
設定例を次の図に示します。
図3‒42 構成情報(監視項目設定)の設定例 監視対象である「Agent03」に対して,監視項目を設定できます。監視項目の設定では,業務グループを設定した監視対象サービスに対して,JP1/PFMが計測しているシステム情報を関連づけるかどうかを設定します。
この図では,「Agent03」に対して,「CPU」という監視項目が設定されています。キーフィールド1の値には,JP1/PFMで設定されている「C」を指定します。
監視の設定
構成情報が設定できたので,すべてのサービスの監視者は,監視の内容を設定することにしました。
定義したSLOに基づき,監視対象サービスを提供するシステムに関する監視項目を設定します。
設定例を次の図に示します。
図3‒43 SLOに基づいた監視対象サービスを提供するシステムに関する監視項目の設定例
この図では,サービスグループ「Group01」のサービス「Service01」に関連づけた「Agent03」に対して監視項目を設定しています。監視項目の設定内容は,次のとおりです。
- [SLO監視設定]
-
表3‒15 [SLO監視設定]での設定内容例 監視項目
監視
しきい値
発生頻度
(超過回数/測定回数)
傾向監視
CPU
チェックする
30%
1/2
5
[SLO監視設定]では,SLOの定義内容をしきい値として設定した上で,監視対象サービスのシステム性能の異常をいち早く察知するために,傾向監視を設定しました。
測定期間中,しきい値を超えた回数が1/2以上の確率を検知した場合に,警告するように設定しています。
また,システム性能の異常発生時には,別の担当者にも連絡を取って対処しなければならないため,少なくとも5時間前までにサービス性能の異常を察知する必要があります。そのため,傾向監視の設定時間は5時間としました。
- [予兆検知設定]
-
表3‒16 [予兆検知設定]での設定内容例 監視項目
監視
ベースライン算出日数
開始日数
感度
発生頻度
(超過回数/測定回数)
CPU
チェックする
20日
5日
高
1/5
[予兆検知設定]では,できるだけふだんのシステム性能に基づいた監視をするために,20日分のサービス性能でベースラインを算出することにしました。ただし,監視は5日後から開始したいと要望があったため,開始日数は5日としました。
測定期間中,ベースラインを超えた回数が1/5以上の場合に,警告するように設定しています。
また,すべての監視項目について外れ値検知をすることにした上で,ベースラインから離れたサービス性能が得られた場合に,敏感に検知できるよう感度を高く設定することにしました。
- 作業の結果
サービスグループ「Group01」のサービス「Service01」について設定が完了したため,残りの監視対象サービスについても同様に監視項目の設定をすることにしました。
すべての監視対象サービスの設定が完了したあと,監視を実行することにしました。監視の実行例については,「4.6.3 監視対象サービスのシステム性能の異常の予兆検知と対処の支援の実行例(JP1/PFMとの連携)」を参照してください。