10.3.1 停止・再起動時の注意事項
(1) Prometheus serverを停止・再起動したときの注意事項
アラートが発火の状態で,Alertmanagerを稼働させたままPrometheus serverを再起動,または停止させた場合,アラートの回復を表す正常のJP1イベントを発行する場合があります。
次の条件を満たすとき,正常のJP1イベントを発行します。
-
発火であるアラートの定義のforに設定されている時間※と,Prometheus serverのサービスが停止または再起動により動作していない時間を足した値が,Prometheus設定ファイルのevaluation_intervalの値よりも大きくなった場合
注※ アラートのforを設定していない場合は0とします。
(2) Exporterを再起動したときの注意事項
-
運用中に監視対象が存在しない状態となった場合
Exporterの稼働中または停止中に,Exporterの監視対象が存在しない状態となった場合,Exporterを再起動したあと,その監視対象のメトリックが生成されなくなることがあります。
例えば,Process exporterでプロセスAを監視している場合,プロセスAが起動している状態では,Process exporterはメトリックを生成しますが,プロセスAが停止して存在しない状態になっても,Process exporterを再起動するまでは,Process exporterはプロセスAのメトリックの生成を継続します。しかし,Process exporterを再起動した場合,そのときに動作していないプロセスAについては,メトリックが生成されなくなります。この場合,プロセスAを起動すると,再びプロセスAのメトリックが生成されるようになります。
統合オペレーション・ビューアーで時系列データを表示した場合,メトリックが生成されていない期間のデータは表示されません。また,アラートを設定していた場合,発火状態であったアラートが回復することがあります。
-
再起動中にスクレイプが行われた場合
Exporterの再起動処理中に,Prometheus Serverによるスクレイプが行われた場合,起動が完了しスクレイプが可能となるまでは,そのExporterのメトリックは生成されません。
統合オペレーション・ビューアーで時系列データを表示した場合,スクレイプに失敗した期間のデータは表示されません。また,アラートを設定していた場合,アラートの条件によって一時的に状態が変化することがあります。