3.1.5 可用性監視によるサービスの稼働状況の確認(JP1/PFMとの連携)
可用性監視は,JP1/PFMと連携する場合にできる監視です。
ここでは,可用性監視について説明します。
(1) 可用性監視とは
可用性監視は,監視対象サービスが停止することなく稼働できているかを確認する監視方法です。
監視対象サービスの稼働状況はJP1/PFM - Agent for Service Responseで監視します。ユーザーが監視対象サービスにアクセスしていない時間帯でも,稼働状況を監視できます。
可用性監視の仕組みを次の図に示します。
現在の稼働状況は,[ホーム]画面または[リアルタイム監視]画面で確認できます。監視対象サービスが停止していた場合,エラーとなって画面に表示されます。画面にエラーが表示された例を次の図に示します。
|
(2) レポート出力できる可用性項目
可用性監視をしている監視対象サービスは,可用性項目をレポートに出力できます。可用性項目とは,可用性の評価の指標となる項目のことです。可用性監視でレポート出力できる可用性項目は次のとおりです。
サービス稼働率
MTTR(平均復旧時間)
MTBF(平均故障間隔)
可用性監視でレポート出力できる可用性項目の詳細について,次の表に示します。
項番 |
評価指標(SLO) |
定義 |
算出式 |
---|---|---|---|
1 |
サービス稼働率 |
レポート期間中にサービスが稼働していた時間の割合 |
サービス稼働率(単位:パーセント)=A/(A+B)×100 A=レポート期間中の稼働期間の総和(単位:分) B=レポート期間中の障害期間の総和(単位:分) |
2 |
MTTR(平均復旧時間) |
レポート期間中で,障害の発生から障害の回復までに掛かった時間の平均 |
平均復旧時間(単位:分)=B/C B=レポート期間中の障害期間の総和(単位:分) C=レポート期間中に障害が発生した数 |
3 |
MTBF(平均故障間隔) |
レポート期間中で,障害が回復してから次の障害が発生するまでの時間の平均 |
平均故障間隔(単位:分)=A/C A=レポート期間中の稼働期間の総和(単位:分) C=レポート期間中に障害が発生した数 |
- (凡例)
レポート期間:[レポート]画面の[レポート]エリアでユーザーが入力した起点時刻と期間から算出されるレポート対象の全期間
稼働期間:正常稼働を確認した時刻から,監視対象サービスの停止を検知または監視を停止した時刻までの期間
障害期間:監視対象サービスの停止を検知した時刻から,正常稼働を確認した時刻または監視停止した時刻までの期間
次に,可用性監視をする際に想定される3つの場合について,可用性項目がどのように算出されるかを説明します。
レポートの開始時刻および終了時刻に監視対象サービスが停止している場合
異常が発生して監視対象サービスが停止した時刻が,レポートの開始時刻より前の場合は,レポート開始時刻を監視対象サービスが停止した時刻として可用性項目を算出します。
監視対象サービスが停止した時刻が,レポートの終了時刻よりもあとの場合は,レポートの終了時刻を監視対象サービスが停止した時刻として可用性項目を算出します。
レポートの開始時刻および終了時刻に監視対象サービスが停止している場合の例を次の図に示します。
この場合,可用性項目は次のように算出されます。
サービス稼働率=(T3−T1)/{(T3−T1)+(T1−TM)+(TN−T3)}=(T3−T1)/(TN−TM)
平均復旧時間={(T1−TM)+(TN−T3)}/2
平均故障間隔=(T3−T1)/2
レポート期間中に監視を停止する期間がある場合
レポート作成期間中に監視を停止する期間がある場合,その期間は稼働状況の判断をしないため,可用性項目を算出する期間には含まれません。
また,エラーの期間に監視の停止期間がある場合は,監視の停止前後で別のエラーの期間として計算されます。
レポート期間中に監視を停止する期間がある場合の例を次の図に示します。
この場合,可用性項目は次のように算出されます。
サービス稼働率=(T1−TM)/{(T1−TM)+(T3−T2)+(TN−T4)}
平均復旧時間={(T3−T2)+(TN−T4)}/2
平均故障間隔=(T1−TM)/2
レポート期間中に情報の取得に失敗した期間がある場合
稼働情報を取得してから次に稼働情報を取得するまでの期間,および監視中に通信エラーやJP1/PFM - Agent for Service Responseの停止などで稼働情報が取得できなかった期間は,その直前にJP1/PFM - Agent for Service Responseから取得した稼働状況が継続しているものとして判断されます。
レポート期間中に情報の取得に失敗した期間がある場合の例を次の図に示します。
この場合,可用性項目は次のように算出されます。
サービス稼働率={(T2−TM)+(TN−T4)}/{(T2−TM)+(TN−T4)+(T4−T2)}
平均復旧時間=(T4−T2)/1
平均故障間隔={(T2−TM)+(TN−T4)}/1
(3) 通知される基準
可用性監視の監視対象サービスが停止するとエラーが通知されます。次のどちらかの基準を満たすときに,監視対象サービスが停止したと見なされます。
監視を開始して最初に取得した計測結果にエラーが発生した場合
前回の計測結果が正常,かつ現在時刻の計測結果にエラーが発生した場合
監視を停止した場合,それまでの計測結果は一度リセットされます。そのため,監視対象サービスが停止した状態で監視を停止した場合,監視を再開したあとの計測結果がエラーでも別の監視対象サービスの停止として通知されます。
(4) 正常に戻ったと判断される基準
次のすべての基準を満たすときに,監視対象サービスは停止から回復して正常に戻ったと見なされます。
前回の計測結果にエラーが発生した場合
現在時刻の計測結果が正常の場合
監視を停止した場合,それまでの計測結果は一度リセットされます。そのため,監視対象サービスが停止した状態で監視を停止した場合,監視を再開したあとの計測結果が正常でも,回復は通知されません。
(5) 補足事項
JP1/PFM - Agent for Service Responseによる監視では,監視対象サービスが停止している要因が異常の発生による停止か計画的な停止かが判断できないため,同じように停止が通知されます。
そのため,可用性監視をしている監視対象サービスを計画停止する場合は,その前に必ず監視を停止するように注意してください。
可用性監視は,JP1/PFM - Agent for Service Responseから稼働情報を受信した時点で開始されます。そのため,監視対象サービスの監視を開始してから最初の稼働情報を受信するまでに監視を停止した場合,その期間は可用性監視を開始していないことになります。この場合,レポートのサービス稼働概要に,監視対象サービスの開始および停止の情報は出力されません。