アラート設定ファイル(jpc_alerting_rules.yml)
形式
YAML形式で記述します。
groups: - name: グループ名 rules: - alert: アラート名 expr: 条件式 for: 期間 labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: JP1イベントの重大度 jp1_pc_eventid: JP1イベントのイベントID jp1_pc_metricname: メトリック名 annotations: jp1_pc_firing_description: 発火条件を満たしたときのメッセージ jp1_pc_resolved_description: 発火条件を満たさなくなったときのメッセージ
ファイル
jpc_alerting_rules.yml
jpc_alerting_rules.yml.model(モデルファイル)
格納先ディレクトリ
■統合エージェントホスト
- Windowsの場合
-
-
物理ホストのとき
Agentパス\conf\
-
論理ホストのとき
共有フォルダ\jp1ima\conf\
-
- Linuxの場合
-
-
物理ホストのとき
/opt/jp1ima/conf/
-
論理ホストのとき
共有ディレクトリ/jp1ima/conf/
-
説明
Prometheus serverが実行するアラート評価のルールを定義するファイルです。
文字コード
UTF-8(BOM無し)
改行コード
Windowsの場合:CR+LF
Linuxの場合:LF
定義の反映時期
Prometheus serverを再起動したとき,およびPrometheus serverにリロードを指示したときに反映されます。
記述内容
下記の表で使用している一般的なプレースホルダーの定義については,「ymlファイルの記述項目で使用している一般的なプレースホルダーの定義について」を参照してください。
項目名 |
説明 |
変更可否 |
JP1/IM - Agentでユーザーが設定する内容 |
JP1/IM - Agentのデフォルト値 |
|||
---|---|---|---|---|---|---|---|
groups: |
− |
△ |
− |
"groups:" |
|||
name: <string> |
アラートのグループ名を255バイト以内で指定します。グループ名は,監視エージェントホスト内で一意である必要があり,同じグループ名を指定したnameを重複して指定できません。なお,異なる監視エージェントホスト間では,それぞれに同じグループ名を指定したnameを指定できます。 |
○ |
任意のグループ名を指定します。 |
指定なし |
|||
rules: |
アラートルールを設定します。100個まで指定できます。 |
△ |
− |
指定なし |
|||
alert: <string> |
アラートの名前を指定します。 |
○ |
ユーザーが作成したアラートの名前を指定します。 |
指定なし |
|||
expr: <string> |
アラートの条件式を255バイト以内で指定します。 PromQL文を指定します。 |
○ |
評価するPromQL文を指定します。※ PromQL文に関する注意事項については,「PromQL文に関する注意事項」を参照してください。 |
指定なし |
|||
for: <duration> |
アラートが発火状態となるまでにかかる時間を0秒から24時間の範囲で指定します。 値は数字と単位で指定します。指定できる単位はs(秒)とm(分)です。 アラートの条件式に該当しても,forに指定した期間内に該当しなくなった場合は発火と扱われません。 |
○ |
アラートが発火状態となるまでにかかる時間を指定します。 |
指定なしbvg |
|||
labels: |
アラートごとに追加または上書きするラベルを設定します。 |
△ |
− |
指定なし |
|||
jp1_pc_product_name: <string> |
JP1イベントのプロダクト名に設定する値を指定します。 |
○ |
"/HITACHI/JP1/JPCCS2",または,"/HITACHI/JP1/JPCCS2/xxxx" xxxxは,ユーザーが指定できます。 |
指定なし |
|||
jp1_pc_component: <string> |
JP1イベントのコンポーネント名に設定する値を指定します。 |
○ |
JP1イベントを処理する製品プラグインに応じて,次の値を指定します。 jp1pccs_azure.js:"/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1pccs_kubernetes.js:"/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1pccs.js:"/HITACHI/JP1/JPCCS/CONFINFO" |
指定なし |
|||
jp1_pc_severity: <string> |
JP1イベントの重大度に設定する値を指定します。 |
○ |
次のどれかを指定します。
|
指定なし |
|||
jp1_pc_eventid: <string> |
JP1イベントのイベントIDに設定する値を指定します。 |
○ |
JP1イベントのイベントIDとして指定できる「0〜1FFF,7FFF8000〜7FFFFFFF」の範囲内の任意の値を指定します。 |
指定を省略した場合,JP1イベントのID属性の値に「00007600」を設定します。 |
|||
jp1_pc_metricname: <string> |
JP1イベントのメトリック名に設定する値を指定します。 Yet another cloudwatch exporterの場合,メトリック名(コンマ区切りで複数指定されている場合は先頭のメトリック名)に対応するAWS名前空間のIM管理ノードに対して,JP1イベントの関連付けを行います。 |
○ |
コンマ区切りでメトリック名を指定します。 |
指定なし |
|||
annotations: |
各アラートに追加する注釈を設定します。 |
△ |
− |
指定なし |
|||
jp1_pc_firing_description: <string> |
アラートの発火条件を満たしたとき,JP1イベントのメッセージに設定する値を指定します。 値の長さが1,024バイト以上の場合,先頭から1,023バイト目までの文字列を設定します。 指定を省略した場合,JP1イベントのメッセージの内容は「The alert is firing.(alert=アラート名)」となります。 |
○ |
任意のメッセージを指定します。 |
指定を省略した場合,JP1イベントのメッセージの内容は「The alert is firing.(alert=アラート名)」となります。 |
|||
jp1_pc_resolved_description: <string> |
アラートの発火条件を満たさなくなったとき,JP1イベントのメッセージに設定する値を指定します。 値の長さが1,024バイト以上の場合,先頭から1,023バイト目までの文字列を設定します。 指定を省略した場合,JP1イベントのメッセージの内容は「The alert is resolved.(alert=アラート名)」となります。 |
○ |
任意のメッセージを指定します。 |
指定を省略した場合,JP1イベントのメッセージの内容は「The alert is resolved.(alert=アラート名)」となります。 |
- (凡例)
-
〇:変更可 △:変更不可 −:該当なし
- 注※
-
次に示すラベルはJP1イベントの属性に設定するため,集計演算子などでラベルが取り除かれないようにしてください。
-
instance
-
job
-
jp1_pc_nodelabel
-
jp1_pc_exporter
-
jp1_pc_remote_monitor_instance
-
account
-
region
-
dimension_任意の文字列
なお,accout,region,dimension_任意の文字列のラベルは,Yet another cloudwatch exporterのメトリックを監視する場合にだけ該当します。
-
定義例
メトリック定義ファイルのモデルファイルに記述されている各メトリックのアラート定義例を,次に示します。
■「Node exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
cpu_used_rate※
groups: - name: node_exporter rules: - alert: cpu_used_rate(Node exporter) expr: 80 < (avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu_seconds_total{mode="system"}[2m])) + avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu_seconds_total{mode="user"}[2m]))) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0301" jp1_pc_metricname: "node_cpu_seconds_total" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"
-
memory_unused※
groups: - name: node_exporter rules: - alert: memory_unused(Node exporter) expr: 1024 > node_memory_MemAvailable_bytes/1024/1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0302" jp1_pc_metricname: "node_memory_MemAvailable_bytes" annotations: jp1_pc_firing_description: "空きメモリ量がしきい値(1024メガバイト)を下回りました。value={{ $value }}メガバイト" jp1_pc_resolved_description: "空きメモリ量がしきい値(1024メガバイト)を上回りました。"
-
memory_unused_rate※
groups: - name: node_exporter rules: - alert: memory_unused_rate(Node exporter) expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0303" jp1_pc_metricname: "node_memory_MemAvailable_bytes,node_memory_MemTotal_bytes" annotations: jp1_pc_firing_description: "空きメモリ率がしきい値(10%)を下回りました。value={{ $value }}%" jp1_pc_resolved_description: "空きメモリ率がしきい値(10%)を上回りました。"
-
disk_unused※
groups: - name: node_exporter rules: - alert: disk_unused(Node exporter) expr: 10 > node_filesystem_free_bytes/(1024*1024*1024) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0304" jp1_pc_metricname: "node_filesystem_free_bytes" annotations: jp1_pc_firing_description: "空きディスク領域がしきい値(10ギガバイト)を下回りました。value={{ $value }}ギガバイト,mountpoint={{ $labels.mountpoint }}" jp1_pc_resolved_description: "空きディスク領域がしきい値(10ギガバイト)を上回りました。mountpoint={{ $labels.mountpoint }}"
- 注
-
1つのPrometheusでNode exporterとNode exporter for AIXを両方監視する場合,Node exporterとNode exporter for AIXのメトリックを区別するため,次の下線部分のように,Node exporterのアラート定義のdisk_unusedのexprにjobラベルを指定します。
10 > node_filesystem_free_bytes{job="jpc_node"}/(1024*1024*1024)
-
disk_unused_rate※
groups: - name: node_exporter rules: - alert: disk_unused_rate(Node exporter) expr: node_filesystem_free_bytes / node_filesystem_size_bytes * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0305" jp1_pc_metricname: "node_filesystem_free_bytes,node_filesystem_size_bytes" annotations: jp1_pc_firing_description: "空きディスク率がしきい値(10%)を下回りました。value={{ $value }}%,mountpoint={{ $labels.mountpoint }}" jp1_pc_resolved_description: "空きディスク率がしきい値(10%)を上回りました。mountpoint={{ $labels.mountpoint }}"
- 注
-
1つのPrometheusでNode exporterとNode exporter for AIXを両方監視する場合,Node exporterとNode exporter for AIXのメトリックを区別するため,次の下線部分のように,Node exporterのアラート定義のdisk_unused_rateのexprにjobラベルを指定します。
node_filesystem_free_bytes{job="jpc_node"} / node_filesystem_size_bytes{job="jpc_node"} * 100 < 10
-
disk_busy_rate※
groups: - name: node_exporter rules: - alert: disk_busy_rate(Node exporter) expr: 70 < rate(node_disk_io_time_seconds_total[2m])*100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0306" jp1_pc_metricname: "node_disk_io_time_seconds_total" annotations: jp1_pc_firing_description: "ディスクビジー率がしきい値(70%)を上回りました。value={{ $value }}%,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスクビジー率がしきい値(70%)を下回りました。device={{ $labels.device }}"
-
disk_read_latency※
groups: - name: node_exporter rules: - alert: disk_read_latency(Node exporter) expr: rate(node_disk_read_time_seconds_total[2m]) / rate(node_disk_reads_completed_total[2m]) > 0.1 and rate(node_disk_reads_completed_total[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0307" jp1_pc_metricname: "node_disk_read_time_seconds_total,node_disk_reads_completed_total" annotations: jp1_pc_firing_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"
-
disk_write_latency※
groups: - name: node_exporter rules: - alert: disk_write_latency(Node exporter) expr: rate(node_disk_write_time_seconds_total[2m]) / rate(node_disk_writes_completed_total[2m]) > 0.1 and rate(node_disk_writes_completed_total[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0308" jp1_pc_metricname: "node_disk_write_time_seconds_total,node_disk_writes_completed_total" annotations: jp1_pc_firing_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"
-
disk_io_latency※
groups: - name: node_exporter rules: - alert: disk_io_latency(Node exporter) expr: (rate(node_disk_read_time_seconds_total[2m]) + rate(node_disk_write_time_seconds_total[2m])) / (rate(node_disk_reads_completed_total[2m]) + rate(node_disk_writes_completed_total[2m])) > 0.1 and (rate(node_disk_writes_completed_total[2m]) > 0 or rate(node_disk_read_completed_total[2m]) > 0) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0309" jp1_pc_metricname: "node_disk_write_time_seconds_total,node_disk_writes_completed_total,node_disk_read_time_seconds_total,node_disk_reads_completed_total" annotations: jp1_pc_firing_description: "ディスクIOレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスクIOレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"
-
network_sent※
groups: - name: node_exporter rules: - alert: network_sent(Node exporter) expr: 100 < rate(node_network_transmit_packets_total[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0310" jp1_pc_metricname: "node_network_transmit_packets_total" annotations: jp1_pc_firing_description: "ネットワークの送信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ネットワークの送信速度がしきい値(100パケット/秒)を下回りました。device={{ $labels.device }}"
-
network_received※
groups: - name: node_exporter rules: - alert: network_received(Node exporter) expr: 100 < rate(node_network_receive_packets_total[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0311" jp1_pc_metricname: "node_network_receive_packets_total" annotations: jp1_pc_firing_description: "ネットワークの受信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ネットワークの受信速度がしきい値(100パケット/秒)を下回りました。device={{ $labels.device }}"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Process exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
process_pgm_process_count※
groups: - name: process_exporter rules: - alert: process_pgm_process_count(Processs exporter) expr: 1 > sum by (program, instance, job, jp1_pc_nodelabel, jp1_pc_exporter) (namedprocess_namegroup_num_procs) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "1308" jp1_pc_metricname: "namedprocess_namegroup_num_procs" annotations: jp1_pc_firing_description: "プロセス数がしきい値(1個)を下回りました。value={{ $value }}個" jp1_pc_resolved_description: "プロセス数がしきい値(1個)を上回りました。"
- 注※
-
しきい値が1の例です。値は監視対象に合わせて変更してください。
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Node exporter(サービス監視)のメトリック定義ファイル」のメトリックのアラート定義例
-
service_state※
監視対象のユニットの自動起動設定が有効(systemctl enableを実行している)の場合
groups: - name: node_exporter rules: - alert: service_state(Node exporter) expr: node_systemd_unit_state{state="active"} == 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0320" jp1_pc_metricname: "node_systemd_unit_state" annotations: jp1_pc_firing_description: "サービスの状態が実行中ではありません。" jp1_pc_resolved_description: "サービスの状態が実行中になりました。"
監視対象のユニットの自動起動設定が無効の場合
groups: - name: node_exporter rules: - alert: service_state_サービス名(Node exporter) expr: absent(node_systemd_unit_state{instance="統合エージェントホスト名:Node exporterのポート番号", job="jpc_node", jp1_pc_exporter="JPC Node exporter", jp1_pc_nodelabel="サービス名", state="active"}) == 1 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0320" jp1_pc_metricname: "node_systemd_unit_state" annotations: jp1_pc_firing_description: "サービスの状態が実行中ではありません。" jp1_pc_resolved_description: "サービスの状態が実行中になりました。"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Windows exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
cpu_used_rate※
groups: - name: windows_exporter rules: - alert: cpu_used_rate(Windows exporter) expr: 80 < 100 - (avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(windows_cpu_time_total{mode="idle"}[2m])) * 100) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0401" jp1_pc_metricname: "windows_cpu_time_total" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"
-
memory_unused※
groups: - name: windows_exporter rules: - alert: memory_unused(Windows exporter) expr: 1 > windows_memory_available_bytes/1024/1024/1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0402" jp1_pc_metricname: "windows_memory_available_bytes" annotations: jp1_pc_firing_description: "空きメモリ量がしきい値(1ギガバイト)を下回りました。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "空きメモリ量がしきい値(1ギガバイト)を上回りました。"
-
memory_unused_rate※
groups: - name: windows_exporter rules: - alert: memory_unused_rate(Windows exporter) expr: windows_memory_available_bytes / windows_cs_physical_memory_bytes * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0403" jp1_pc_metricname: "windows_memory_available_bytes,windows_cs_physical_memory_bytes" annotations: jp1_pc_firing_description: "空きメモリ率がしきい値(10%)を下回りました。value={{ $value }}%" jp1_pc_resolved_description: "空きメモリ率がしきい値(10%)を上回りました。"
-
disk_unused※
groups: - name: windows_exporter rules: - alert: disk_unused(Windows exporter) expr: 10 > windows_logical_disk_free_bytes{volume!~"HarddiskVolume.*"} / (1024*1024*1024) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0404" jp1_pc_metricname: "windows_logical_disk_free_bytes" annotations: jp1_pc_firing_description: "空きディスク領域がしきい値(10ギガバイト)を下回りました。value={{ $value }}ギガバイト,volume={{ $labels.volume }}" jp1_pc_resolved_description: "空きディスク領域がしきい値(10ギガバイト)を上回りました。volume={{ $labels.volume }}"
-
disk_unused_rate※
groups: - name: windows_exporter rules: - alert: disk_unused_rate(Windows exporter) expr: windows_logical_disk_free_bytes{volume!~"HarddiskVolume.*"} / windows_logical_disk_size_bytes * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0405" jp1_pc_metricname: "windows_logical_disk_free_bytes,windows_logical_disk_size_bytes" annotations: jp1_pc_firing_description: "空きディスク率がしきい値(10%)を下回りました。value={{ $value }}%,volume={{ $labels.volume }}" jp1_pc_resolved_description: "空きディスク率がしきい値(10%)を上回りました。volume={{ $labels.volume }}"
-
disk_busy_rate※
groups: - name: windows_exporter rules: - alert: disk_busy_rate(Windows exporter) expr: 70 < 100 - rate(windows_logical_disk_idle_seconds_total{volume!~"HarddiskVolume.*"}[2m])/(rate(windows_logical_disk_write_seconds_total[2m]) + rate(windows_logical_disk_read_seconds_total[2m])+rate(windows_logical_disk_idle_seconds_total[2m])) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0406" jp1_pc_metricname: "windows_logical_disk_idle_seconds_total,windows_logical_disk_write_seconds_total,windows_logical_disk_read_seconds_total" annotations: jp1_pc_firing_description: "ディスクビジー率がしきい値(70%)を上回りました。value={{ $value }}%,volume={{ $labels.volume }}" jp1_pc_resolved_description: "ディスクビジー率がしきい値(70%)を下回りました。volume={{ $labels.volume }}"
-
disk_read_latency※
groups: - name: windows_exporter rules: - alert: disk_read_latency(Windows exporter) expr: rate(windows_logical_disk_read_seconds_total[2m]) / rate(windows_logical_disk_reads_total[2m]) > 0.1 and rate(windows_logical_disk_reads_total[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0407" jp1_pc_metricname: "windows_logical_disk_read_seconds_total,windows_logical_disk_reads_total" annotations: jp1_pc_firing_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,volume={{ $labels.volume }}" jp1_pc_resolved_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を下回りました。volume={{ $labels.volume }}"
-
disk_write_latency※
groups: - name: windows_exporter rules: - alert: disk_write_latency(Windows exporter) expr: rate(windows_logical_disk_write_seconds_total[2m]) / rate(windows_logical_disk_writes_total[2m]) > 0.1 and rate(windows_logical_disk_writes_total[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0408" jp1_pc_metricname: "windows_logical_disk_write_seconds_total,windows_logical_disk_writes_total" annotations: jp1_pc_firing_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,volume={{ $labels.volume }}" jp1_pc_resolved_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を下回りました。volume={{ $labels.volume }}"
-
disk_io_latency※
groups: - name: windows_exporter rules: - alert: disk_io_latency(Windows exporter) expr: (rate(windows_logical_disk_read_seconds_total[2m]) + rate(windows_logical_disk_write_seconds_total[2m])) / (rate(windows_logical_disk_reads_total[2m]) + rate(windows_logical_disk_writes_total[2m])) > 0.1 and (rate(windows_logical_disk_writes_total[2m]) > 0 or rate(windows_logical_disk_reads_total[2m]) > 0) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0409" jp1_pc_metricname: "windows_logical_disk_write_seconds_total,windows_logical_disk_writes_total,windows_logical_disk_read_seconds_total,windows_logical_disk_reads_total" annotations: jp1_pc_firing_description: "ディスクIOレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,volume={{ $labels.volume }}" jp1_pc_resolved_description: "ディスクIOレイテンシーがしきい値(0.1秒)を下回りました。volume={{ $labels.volume }}"
-
network_sent※
groups: - name: windows_exporter rules: - alert: network_sent(Windows exporter) expr: 100 < rate(windows_net_packets_sent_total[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0410" jp1_pc_metricname: "windows_net_packets_sent_total" annotations: jp1_pc_firing_description: "ネットワークの送信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,nic={{ $labels.nic }}" jp1_pc_resolved_description: "ネットワークの送信速度がしきい値(100パケット/秒)を下回りました。nic={{ $labels.nic }}"
-
network_received※
groups: - name: windows_exporter rules: - alert: network_received(Windows exporter) expr: 100 < rate(windows_net_packets_received_total[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0411" jp1_pc_metricname: "windows_net_packets_received_total" annotations: jp1_pc_firing_description: "ネットワークの受信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,nic={{ $labels.nic }}" jp1_pc_resolved_description: "ネットワークの受信速度がしきい値(100パケット/秒)を下回りました。nic={{ $labels.nic }}"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Windows exporter(プロセス監視)のメトリック定義ファイル」のメトリックのアラート定義例
-
process_pgm_process_count※
groups: - name: windows_exporter rules: - alert: process_pgm_process_count(Windows exporter) expr: absent(windows_process_start_time{instance="統合エージェントホスト名:Windows exporterのポート番号", job="jpc_windows", jp1_pc_exporter="JPC Windows exporter", jp1_pc_nodelabel="監視対象プロセス名",process="監視対象プロセス名"}) == 1 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0414" jp1_pc_metricname: "windows_process_start_time" annotations: jp1_pc_firing_description: "プロセス数がしきい値(1個)を下回りました。" jp1_pc_resolved_description: "プロセス数がしきい値(1個)を上回りました。"
- 注※
-
しきい値が1の例です。値は監視対象に合わせて変更してください。
複数のアラートを同一の統合エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Windows exporter(サービス監視)のメトリック定義ファイル」のメトリックのアラート定義例
-
service_state※
groups: - name: windows_exporter rules: - alert: service_state(Windows exporter) expr: windows_service_state{state="running"} == 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0420" jp1_pc_metricname: "windows_service_state" annotations: jp1_pc_firing_description: "サービスの状態が実行中ではありません。" jp1_pc_resolved_description: "サービスの状態が実行中になりました。"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Node exporter for AIXのメトリック定義ファイル」のメトリックのアラート定義例
-
cpu_used_rate※
groups: - name: node_exporter_AIX rules: - alert: cpu_used_rate(Node exporter for AIX) expr: 80 < ((avg by(instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu{mode="sys"}[2m])))+(avg by(instance,job,jp1_pc_nodelabel,jp1_pc_exporter) ((rate(node_cpu{mode="user"}[2m])))))*100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0901" jp1_pc_metricname: "node_cpu" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"
-
memory_unused※
groups: - name: node_exporter_AIX rules: - alert: memory_unused(Node exporter for AIX) expr: 1 > aix_memory_real_avail/1024/1024/1024*4096 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0902" jp1_pc_metricname: "aix_memory_real_avail" annotations: jp1_pc_firing_description: "空きメモリ量がしきい値(1ギガバイト)を下回りました。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "空きメモリ量がしきい値(1ギガバイト)を上回りました。"
-
memory_unused_rate※
groups: - name: node_exporter_AIX rules: - alert: memory_unused_rate(Node exporter for AIX) expr: aix_memory_real_avail / aix_memory_real_total * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0902" jp1_pc_metricname: "aix_memory_real_avail,aix_memory_real_total" annotations: jp1_pc_firing_description: "空きメモリ率がしきい値(10%)を下回りました。value={{ $value }}%" jp1_pc_resolved_description: "空きメモリ率がしきい値(10%)を上回りました。"
-
disk_unused※
groups: - name: node_exporter_AIX rules: - alert: disk_unused(Node exporter for AIX)) expr: 10 > node_filesystem_free_bytes{job="jpc_node_aix"}/(1024*1024*1024) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0903" jp1_pc_metricname: "node_filesystem_free_bytes" annotations: jp1_pc_firing_description: "空きディスク領域がしきい値(10ギガバイト)を下回りました。value={{ $value }}ギガバイト,mountpoint={{ $labels.mountpoint }}" jp1_pc_resolved_description: "空きディスク領域がしきい値(10ギガバイト)を上回りました。mountpoint={{ $labels.mountpoint }}"
- 注
-
1つのPrometheusでNode exporterとNode exporter for AIXを両方監視する場合,Node exporterとNode exporter for AIXのメトリックを区別するため,Node exporterのアラート定義のdisk_unusedのexprにjobラベルを指定します。詳細については,上記の「「Node exporterのメトリック定義ファイル」のメトリックのアラート定義例」の「disk_unused」を参照してください。
-
disk_unused_rate※
groups: - name: node_exporter_AIX rules: - alert: disk_unused_rate(Node exporter for AIX) expr: node_filesystem_free_bytes{job="jpc_node_aix"} / node_filesystem_size_bytes{job="jpc_node_aix"} * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0903" jp1_pc_metricname: "node_filesystem_free_bytes,node_filesystem_size_bytes" annotations: jp1_pc_firing_description: "空きディスク率がしきい値(10%)を下回りました。value={{ $value }}%,mountpoint={{ $labels.mountpoint }}" jp1_pc_resolved_description: "空きディスク率がしきい値(10%)を上回りました。mountpoint={{ $labels.mountpoint }}"
- 注
-
1つのPrometheusでNode exporterとNode exporter for AIXを両方監視する場合,Node exporterとNode exporter for AIXのメトリックを区別するため,Node exporterのアラート定義のdisk_unused_rateのexprにjobラベルを指定します。詳細については,上記の「「Node exporterのメトリック定義ファイル」のメトリックのアラート定義例」の「disk_unused_rate」を参照してください。
-
disk_busy_rate※
groups: - name: node_exporter_AIX rules: - alert: disk_busy_rate(Node exporter for AIX) expr: 70 < rate(aix_disk_time[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0904" jp1_pc_metricname: "aix_disk_time" annotations: jp1_pc_firing_description: "ディスクビジー率がしきい値(70%)を上回りました。value={{ $value }}%,disk={{ $labels.disk }}" jp1_pc_resolved_description: "ディスクビジー率がしきい値(70%)を下回りました。disk={{ $labels.disk }}"
-
disk_read_latency※
groups: - name: node_exporter_AIX rules: - alert: disk_read_latency(Node exporter for AIX) expr: rate(aix_disk_rserv[2m]) / rate(aix_disk_xrate[2m])/1000/1000/1000 > 0.1 and rate(aix_disk_xrate[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0904" jp1_pc_metricname: "aix_disk_rserv,aix_disk_xrate" annotations: jp1_pc_firing_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,disk={{ $labels.disk }}" jp1_pc_resolved_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を下回りました。disk={{ $labels.disk }}"
-
disk_write_latency※
groups: - name: node_exporter_AIX rules: - alert: disk_write_latency(Node exporter for AIX) expr: rate(aix_disk_wserv[2m]) / (rate(aix_disk_xfers[2m]) - rate(aix_disk_xrate[2m]))/1000/1000/1000 > 0.1 and (rate(aix_disk_xfers[2m]) - rate(aix_disk_xrate[2m])) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0904" jp1_pc_metricname: "aix_disk_wserv,aix_disk_xfers,aix_disk_xrate" annotations: jp1_pc_firing_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,disk={{ $labels.disk }}" jp1_pc_resolved_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を下回りました。disk={{ $labels.disk }}"
-
disk_io_latency※
groups: - name: node_exporter_AIX rules: - alert: disk_io_latency(Node exporter for AIX) expr: (rate(aix_disk_rserv[2m]) + rate(aix_disk_wserv[2m])) / rate(aix_disk_xfers[2m])/1000/1000/1000 > 0.1 and (rate(aix_disk_xfers[2m]) > 0) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0904" jp1_pc_metricname: "aix_disk_wserv,aix_disk_rserv,aix_disk_xfers" annotations: jp1_pc_firing_description: "ディスクIOレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}秒,disk={{ $labels.disk }}" jp1_pc_resolved_description: "ディスクIOレイテンシーがしきい値(0.1秒)を下回りました。disk={{ $labels.disk }}"
-
network_sent※
groups: - name: node_exporter_AIX rules: - alert: network_sent(Node exporter for AIX) expr: 100 < rate(aix_netinterface_opackets[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0905" jp1_pc_metricname: "aix_netinterface_opackets" annotations: jp1_pc_firing_description: "ネットワークの送信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,netinterface={{ $labels.netinterface }}" jp1_pc_resolved_description: "ネットワークの送信速度がしきい値(100パケット/秒)を下回りました。netinterface={{ $labels.netinterface }}"
-
network_received※
groups: - name: node_exporter_AIX rules: - alert: network_received(Node exporter for AIX) expr: 100 < rate(aix_netinterface_ipackets[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0905" jp1_pc_metricname: "aix_netinterface_ipackets" annotations: jp1_pc_firing_description: "ネットワークの受信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,netinterface={{ $labels.netinterface }}" jp1_pc_resolved_description: "ネットワークの受信速度がしきい値(100パケット/秒)を下回りました。netinterface={{ $labels.netinterface }}"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Blackbox exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
probe_success※
groups: - name: blackbox_exporter rules: - alert: probe_success(Blackbox exporter) expr: 0 == probe_success for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0501" jp1_pc_metricname: "probe_success" annotations: jp1_pc_firing_description: "通信に失敗しました。value={{ $value }}" jp1_pc_resolved_description: "通信に成功しました。"
-
probe_duration_seconds※
groups: - name: blackbox_exporter rules: - alert: probe_duration_seconds(Blackbox exporter) expr: 5 < probe_duration_seconds for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0502" jp1_pc_metricname: "probe_duration_seconds" annotations: jp1_pc_firing_description: "プローブ期間がしきい値(5秒)を上回りました。value={{ $value }}秒" jp1_pc_resolved_description: "プローブ期間がしきい値(5秒)を下回りました。"
-
probe_icmp_duration_seconds※
groups: - name: blackbox_exporter rules: - alert: probe_icmp_duration_seconds(Blackbox exporter) expr: 3 < probe_icmp_duration_seconds for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0503" jp1_pc_metricname: "probe_icmp_duration_seconds" annotations: jp1_pc_firing_description: "ICMP期間がしきい値(3秒)を上回りました。value={{ $value }}秒,phase={{ $labels.phase }}" jp1_pc_resolved_description: "ICMP期間がしきい値(3秒)を下回りました。"
-
probe_http_duration_seconds※
groups: - name: blackbox_exporter rules: - alert: probe_http_duration_seconds(Blackbox exporter) expr: 3 < probe_http_duration_seconds for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0504" jp1_pc_metricname: "probe_http_duration_seconds" annotations: jp1_pc_firing_description: "HTTPリクエスト期間がしきい値(3秒)を上回りました。value={{ $value }}秒,phase={{ $labels.phase }}" jp1_pc_resolved_description: "HTTPリクエスト期間がしきい値(3秒)を下回りました。"
-
probe_http_status_code※
groups: - name: blackbox_exporter rules: - alert: probe_http_status_code(Blackbox exporter) expr: 200 != probe_http_status_code for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0505" jp1_pc_metricname: "probe_http_status_code" annotations: jp1_pc_firing_description: "HTTPステータスが200ではありません。value={{ $value }}" jp1_pc_resolved_description: "HTTPステータスが200になりました。"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Yet another cloudwatch exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
aws_ec2_cpuutilization_average※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_ec2_cpuutilization_average(Yet another cloudwatch exporter) expr: 80 < aws_ec2_cpuutilization_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0601" jp1_pc_metricname: "aws_ec2_cpuutilization_average" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"
-
aws_ec2_disk_read_bytes_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_ec2_disk_read_bytes_sum(Yet another cloudwatch exporter) expr: 10240 < aws_ec2_disk_read_bytes_sum / 1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0602" jp1_pc_metricname: "aws_ec2_disk_read_bytes_sum" annotations: jp1_pc_firing_description: "インスタンスストアボリュームの読み取りキロバイト数がしきい値(10,240キロバイト)を上回りました。value={{ $value }}キロバイト" jp1_pc_resolved_description: "インスタンスストアボリュームの読み取りキロバイト数がしきい値(10,240キロバイト)を下回りました。"
-
aws_ec2_disk_write_bytes_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_ec2_disk_write_bytes_sum(Yet another cloudwatch exporter) expr: 10240 < aws_ec2_disk_write_bytes_sum / 1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0603" jp1_pc_metricname: "aws_ec2_disk_write_bytes_sum" annotations: jp1_pc_firing_description: "インスタンスストアボリュームの書き込みキロバイト数がしきい値(10,240キロバイト)を上回りました。value={{ $value }}キロバイト" jp1_pc_resolved_description: "インスタンスストアボリュームの書き込みキロバイト数がしきい値(10,240キロバイト)を下回りました。"
-
aws_lambda_errors_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_lambda_errors_sum(Yet another cloudwatch exporter) expr: 0 < aws_lambda_errors_sum{dimension_Resource=""} for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0604" jp1_pc_metricname: "aws_lambda_errors_sum" annotations: jp1_pc_firing_description: "関数エラーが発生した呼び出しの数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "関数エラーが発生した呼び出しの数がしきい値(0個)を下回りました。"
-
aws_lambda_duration_average※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_lambda_duration_average(Yet another cloudwatch exporter) expr: 5000 < aws_lambda_duration_average{dimension_Resource=""} for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0605" jp1_pc_metricname: "aws_lambda_duration_average" annotations: jp1_pc_firing_description: "関数コードがイベントの処理に費やす時間がしきい値(5000ミリ秒)を上回りました。value={{ $value }}ミリ秒" jp1_pc_resolved_description: "関数コードがイベントの処理に費やす時間がしきい値(5000ミリ秒)を下回りました。"
-
aws_s3_bucket_size_bytes_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_s3_bucket_size_bytes_sum(Yet another cloudwatch exporter) expr: 1024 < aws_s3_bucket_size_bytes_sum / (1024*1024*1024) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0606" jp1_pc_metricname: "aws_s3_bucket_size_bytes_sum" annotations: jp1_pc_firing_description: "バケットの保存データ量がしきい値(1024ギガバイト)を上回りました。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "バケットの保存データ量がしきい値(1024ギガバイト)を下回りました。"
-
aws_s3_5xx_errors_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_s3_5xx_errors_sum(Yet another cloudwatch exporter) expr: 0 < aws_s3_5xx_errors_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0607" jp1_pc_metricname: "aws_s3_5xx_errors_sum" annotations: jp1_pc_firing_description: "バケットへのリクエストに対して,HTTP 5xx サーバーエラーステータスコードを返却される数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "バケットへのリクエストに対して,HTTP 5xx サーバーエラーステータスコードを返却される数がしきい値(0個)を下回りました。"
-
aws_dynamodb_consumed_read_capacity_units_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_dynamodb_consumed_read_capacity_units_sum(Yet another cloudwatch exporter) expr: 600 < aws_dynamodb_consumed_read_capacity_units_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0608" jp1_pc_metricname: "aws_dynamodb_consumed_read_capacity_units_sum" annotations: jp1_pc_firing_description: "消費された読み込み容量ユニットの合計数がしきい値(600個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "消費された読み込み容量ユニットの合計数がしきい値(600個)を下回りました。"
-
aws_dynamodb_consumed_write_capacity_units_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_dynamodb_consumed_write_capacity_units_sum(Yet another cloudwatch exporter) expr: 600 < aws_dynamodb_consumed_write_capacity_units_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0609" jp1_pc_metricname: "aws_dynamodb_consumed_write_capacity_units_sum" annotations: jp1_pc_firing_description: "消費された書き込み容量ユニットの合計数がしきい値(600個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "消費された書き込み容量ユニットの合計数がしきい値(600個)を下回りました。"
-
aws_states_execution_time_average※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_states_execution_time_average(Yet another cloudwatch exporter) expr: 5000 < aws_states_execution_time_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0610" jp1_pc_metricname: "aws_states_execution_time_average" annotations: jp1_pc_firing_description: "Step Functionsの実行時間がしきい値(5000ミリ秒)を上回りました。value={{ $value }}ミリ秒" jp1_pc_resolved_description: "Step Functionsの実行時間がしきい値(5000ミリ秒)を下回りました。"
-
aws_states_executions_failed_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_states_executions_failed_sum(Yet another cloudwatch exporter) expr: 0 < aws_states_executions_failed_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0611" jp1_pc_metricname: "aws_states_executions_failed_sum" annotations: jp1_pc_firing_description: "Step Functionsの実行失敗数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "Step Functionsの実行失敗数がしきい値(0個)を下回りました。"
-
aws_sqs_approximate_number_of_messages_delayed_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_sqs_approximate_number_of_messages_delayed_sum(Yet another cloudwatch exporter) expr: 0 < aws_sqs_approximate_number_of_messages_delayed_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0612" jp1_pc_metricname: "aws_sqs_approximate_number_of_messages_delayed_sum" annotations: jp1_pc_firing_description: "遅延キューメッセージ数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "遅延キューメッセージ数がしきい値(0個)を下回りました。"
-
aws_sqs_number_of_messages_deleted_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_sqs_number_of_messages_deleted_sum(Yet another cloudwatch exporter) expr: 0 < aws_sqs_number_of_messages_deleted_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0613" jp1_pc_metricname: "aws_sqs_number_of_messages_deleted_sum" annotations: jp1_pc_firing_description: "削除キューメッセージ数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "削除キューメッセージ数がしきい値(0個)を下回りました。"
-
aws_ecs_cpuutilization_average※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_ecs_cpuutilization_average(Yet another cloudwatch exporter) expr: 80 < aws_ecs_cpuutilization_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0614" jp1_pc_metricname: "aws_ecs_cpuutilization_average" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"
-
aws_ecs_memory_utilization_average※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_ecs_memory_utilization_average(Yet another cloudwatch exporter) expr: 80 < aws_ecs_memory_utilization_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0615" jp1_pc_metricname: "aws_ecs_memory_utilization_average" annotations: jp1_pc_firing_description: "メモリ使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "メモリ使用率がしきい値(80%)を下回りました。"
-
aws_rds_cpuutilization_average※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_rds_cpuutilization_average(Yet another cloudwatch exporter) expr: 80 < aws_rds_cpuutilization_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0616" jp1_pc_metricname: "aws_rds_cpuutilization_average" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"
-
aws_sns_number_of_notifications_failed_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_sns_number_of_notifications_failed_sum(Yet another cloudwatch exporter) expr: 0 < aws_sns_number_of_notifications_failed_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0617" jp1_pc_metricname: "aws_sns_number_of_notifications_failed_sum" annotations: jp1_pc_firing_description: "失敗したメッセージ数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "失敗したメッセージ数がしきい値(0個)を下回りました。"
-
aws_sns_number_of_notifications_filtered_out_sum※
groups: - name: yet_another_cloudwatch_exporter rules: - alert: aws_sns_number_of_notifications_filtered_out_sum(Yet another cloudwatch exporter) expr: 0 < aws_sns_number_of_notifications_filtered_out_sum for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "0618" jp1_pc_metricname: "aws_sns_number_of_notifications_filtered_out_sum" annotations: jp1_pc_firing_description: "拒否されたメッセージ数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "拒否されたメッセージ数がしきい値(0個)を下回りました。"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Promitorのメトリック定義ファイル」のメトリックのアラート定義例
-
azure_virtual_machine_disk_read_bytes_total※
groups: - name: promitor rules: - alert: azure_virtual_machine_disk_read_bytes_total(Promitor) expr: 10485760 < azure_virtual_machine_disk_read_bytes_total for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0901" jp1_pc_metricname: "azure_virtual_machine_disk_read_bytes_total" annotations: jp1_pc_firing_description: "ディスク読み取りバイトがしきい値(10485760byte)を上回りました。value={{ $value }}byte" jp1_pc_resolved_description: "ディスク読み取りバイトがしきい値(10485760byte)を下回りました。"
-
azure_virtual_machine_disk_write_bytes_total※
groups: - name: promitor rules: - alert: azure_virtual_machine_disk_write_bytes_total(Promitor) expr: 10485760 < azure_virtual_machine_disk_write_bytes_total for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0902" jp1_pc_metricname: "azure_virtual_machine_disk_write_bytes_total" annotations: jp1_pc_firing_description: "ディスク書き込みバイトがしきい値(10485760byte)を上回りました。value={{ $value }}byte" jp1_pc_resolved_description: "ディスク書き込みバイトがしきい値(10485760byte)を下回りました。"
-
azure_virtual_machine_percentage_cpu_average※
groups: - name: promitor rules: - alert: azure_virtual_machine_percentage_cpu_average(Promitor) expr: 80 < azure_virtual_machine_percentage_cpu_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0903" jp1_pc_metricname: "azure_virtual_machine_percentage_cpu_average" annotations: jp1_pc_firing_description: "割り当てコンピューティングユニットの割合がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "割り当てコンピューティングユニットの割合がしきい値(80%)を下回りました。"
-
azure_blob_storage_availability_average※
groups: - name: promitor rules: - alert: azure_blob_storage_availability_average(Promitor) expr: 100 > azure_blob_storage_availability_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0904" jp1_pc_metricname: "azure_blob_storage_availability_average" annotations: jp1_pc_firing_description: "可用性の割合がしきい値(100%)を下回りました。value={{ $value }}%" jp1_pc_resolved_description: "可用性の割合がしきい値(100%)を上回りました。"
-
azure_blob_storage_blob_capacity_average※
groups: - name: promitor rules: - alert: azure_blob_storage_blob_capacity_average(Promitor) expr: 1099511627776 < azure_blob_storage_blob_capacity_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0905" jp1_pc_metricname: "azure_blob_storage_blob_capacity_average" annotations: jp1_pc_firing_description: "ストレージ量がしきい値(1099511627776byte)を上回りました。value={{ $value }}byte" jp1_pc_resolved_description: "ストレージ量がしきい値(1099511627776byte)を下回りました。"
-
azure_function_app_http5xx_total※
groups: - name: promitor rules: - alert: azure_function_app_http5xx_total(Promitor) expr: 0 < azure_function_app_http5xx_total for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0906" jp1_pc_metricname: "azure_function_app_http5xx_total" annotations: jp1_pc_firing_description: "5xxサーバエラー数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "5xxサーバエラー数がしきい値(0個)を下回りました。"
-
azure_function_app_http_response_time_average※
groups: - name: promitor rules: - alert: azure_function_app_http_response_time_average(Promitor) expr: 0 < azure_function_app_http_response_time_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0907" jp1_pc_metricname: "azure_function_app_http_response_time_average" annotations: jp1_pc_firing_description: "応答時間がしきい値(5秒)を上回りました。value={{ $value }}秒" jp1_pc_resolved_description: "応答時間がしきい値(5秒)を下回りました。"
-
azure_cosmos_db_total_request_units_total※
groups: - name: promitor rules: - alert: azure_cosmos_db_total_request_units_total(Promitor) expr: 600 < azure_cosmos_db_total_request_units_total for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0908" jp1_pc_metricname: "azure_cosmos_db_total_request_units_total" annotations: jp1_pc_firing_description: "消費された要求ユニットがしきい値(600個)を上回りました。value={{ $value }}個, collectionname={{ $labels.collectionname }}" jp1_pc_resolved_description: "消費された要求ユニットがしきい値(600個)を下回りました。collectionname={{ $labels.collectionname }}"
-
azure_logic_app_runs_failed_total※
groups: - name: promitor rules: - alert: azure_logic_app_runs_failed_total(Promitor) expr: 0 < azure_logic_app_runs_failed_total for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0910" jp1_pc_metricname: "azure_logic_app_runs_failed_total" annotations: jp1_pc_firing_description: "ワークフロー実行失敗数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "ワークフロー実行失敗数がしきい値(0個)を下回りました。"
-
azure_container_instance_cpu_usage_average※
groups: - name: promitor rules: - alert: azure_container_instance_cpu_usage_average(Promitor) expr: 800 < azure_container_instance_cpu_usage_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0911" jp1_pc_metricname: "azure_container_instance_cpu_usage_average" annotations: jp1_pc_firing_description: "CPU使用率(ミリコア)がしきい値(800個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "CPU使用率(ミリコア)がしきい値(800個)を下回りました。"
-
azure_kubernetes_service_kube_pod_status_phase_average_failed※
groups: - name: promitor rules: - alert: azure_kubernetes_service_kube_pod_status_phase_average_failed(Promitor) expr: 0 < azure_kubernetes_service_kube_pod_status_phase_average_failed for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0912" jp1_pc_metricname: "azure_kubernetes_service_kube_pod_status_phase_average_failed" annotations: jp1_pc_firing_description: "Failedポッド数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "Failedポッド数がしきい値(0個)を下回りました。"
-
azure_kubernetes_service_kube_pod_status_phase_average_pending※
groups: - name: promitor rules: - alert: azure_kubernetes_service_kube_pod_status_phase_average_pending(Promitor) expr: 0 < azure_kubernetes_service_kube_pod_status_phase_average_pending for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0913" jp1_pc_metricname: "azure_kubernetes_service_kube_pod_status_phase_average_pending" annotations: jp1_pc_firing_description: "Pendingポッド数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "Pendingポッド数がしきい値(0個)を下回りました。"
-
azure_kubernetes_service_kube_pod_status_phase_average_unknown※
groups: - name: promitor rules: - alert: azure_kubernetes_service_kube_pod_status_phase_average_unknown(Promitor) expr: 0 < azure_kubernetes_service_kube_pod_status_phase_average_unknown for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0914" jp1_pc_metricname: "azure_kubernetes_service_kube_pod_status_phase_average_unknown" annotations: jp1_pc_firing_description: "Unoknownポッド数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "Unoknownポッド数がしきい値(0個)を下回りました。"
-
azure_file_storage_availability_average※
groups: - name: promitor rules: - alert: azure_file_storage_availability_average(Promitor) expr: 100 > azure_file_storage_availability_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0915" jp1_pc_metricname: "azure_file_storage_availability_average" annotations: jp1_pc_firing_description: "可用性の割合がしきい値(100%)を下回りました。value={{ $value }}%, fileshare={{ $labels.fileshare }}" jp1_pc_resolved_description: "可用性の割合がしきい値(100%)を上回りました。fileshare={{ $labels.fileshare }}"
-
azure_service_bus_namespace_deadlettered_messages_average※
groups: - name: promitor rules: - alert: azure_service_bus_namespace_deadlettered_messages_average(Promitor) expr: 0 < azure_service_bus_namespace_deadlettered_messages_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0916" jp1_pc_metricname: "azure_service_bus_namespace_deadlettered_messages_average" annotations: jp1_pc_firing_description: "配信不能メッセージ数がしきい値(0個)を上回りました。value={{ $value }}個, entity_name={{ $labels.entity_name }}" jp1_pc_resolved_description: "配信不能メッセージ数がしきい値(0個)を下回りました。entity_name={{ $labels.entity_name }}"
-
azure_sql_database_cpu_percent_average※
groups: - name: promitor rules: - alert: azure_sql_database_cpu_percent_average(Promitor) expr: 80 < azure_sql_database_cpu_percent_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0917" jp1_pc_metricname: "azure_sql_database_cpu_percent_average" annotations: jp1_pc_firing_description: "CPU割合がしきい値(80%)を上回りました。value={{ $value }}%, server={{ $labels.server }}" jp1_pc_resolved_description: "CPU割合がしきい値(80%)を下回りました。 server={{ $labels.server }}"
-
azure_sql_elastic_pool_cpu_percent_average※
groups: - name: promitor rules: - alert: azure_sql_elastic_pool_cpu_percent_average(Promitor) expr: 80 < azure_sql_elastic_pool_cpu_percent_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0920" jp1_pc_metricname: "azure_sql_elastic_pool_cpu_percent_average" annotations: jp1_pc_firing_description: "CPU割合がしきい値(80%)を上回りました。value={{ $value }}%, server={{ $labels.server }}" jp1_pc_resolved_description: "CPU割合がしきい値(80%)を下回りました。 server={{ $labels.server }}"
-
azure_sql_managed_instance_avg_cpu_percent_average※
groups: - name: promitor rules: - alert: azure_sql_managed_instance_avg_cpu_percent_average(Promitor) expr: 80 < azure_sql_managed_instance_avg_cpu_percent_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0922" jp1_pc_metricname: "azure_sql_managed_instance_avg_cpu_percent_average" annotations: jp1_pc_firing_description: "平均CPU割合がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "平均CPU割合がしきい値(80%)を下回りました。"
-
azure_sql_managed_instance_io_bytes_read_average※
groups: - name: promitor rules: - alert: azure_sql_managed_instance_io_bytes_read_average(Promitor) expr: 10485760 < azure_sql_managed_instance_io_bytes_read_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0923" jp1_pc_metricname: "azure_sql_managed_instance_io_bytes_read_average" annotations: jp1_pc_firing_description: "読み取りIOバイトがしきい値(10485760byte)を上回りました。value={{ $value }}byte" jp1_pc_resolved_description: "読み取りIOバイトがしきい値(10485760byte)を下回りました。"
-
azure_sql_managed_instance_io_bytes_written_average※
groups: - name: promitor rules: - alert: azure_sql_managed_instance_io_bytes_written_average(Promitor) expr: 10485760 < azure_sql_managed_instance_io_bytes_written_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/AZURE/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0924" jp1_pc_metricname: "azure_sql_managed_instance_io_bytes_written_average" annotations: jp1_pc_firing_description: "書き込みIOバイトがしきい値(10485760byte)を上回りました。value={{ $value }}byte" jp1_pc_resolved_description: "書き込みIOバイトがしきい値(10485760byte)を下回りました。"
- 注※
-
複数のアラートを同一の統合エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Script exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
azure_virtual_machine_disk_read_bytes_total※1
groups: - name: script_exporter rules: - alert: script_success(Script exporter) expr: 0 == script_success for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "1401" jp1_pc_metricname: "script_success" annotations: jp1_pc_firing_description: "スクリプトの実行に失敗しました。value={{ $value }}" jp1_pc_resolved_description: "スクリプトの実行に成功しました。"
-
script_duration_seconds※1※2
groups: - name: script_exporter rules: - alert: script_duration_seconds(Script exporter) expr: 60 < script_duration_seconds for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "1402" jp1_pc_metricname: "script_duration_seconds" annotations: jp1_pc_firing_description: "スクリプトの実行時間がしきい値(60秒)を上回りました。value={{ $value }}秒" jp1_pc_resolved_description: "スクリプトの実行時間がしきい値(60秒)を下回りました。"
-
script_exit_code※1
groups: - name: script_exporter rules: - alert: script_exit_code(Script exporter) expr: 0 != script_exit_code for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_severity: "Error" jp1_pc_eventid: "1403" jp1_pc_metricname: "script_exit_code" annotations: jp1_pc_firing_description: "スクリプトの実行に失敗しました。value={{ $value }}" jp1_pc_resolved_description: "スクリプトの実行に成功しました。"
- 注※1
-
複数のアラートを同一の統合エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
- 注※2
-
しきい値が60の例です。値は監視対象に合わせて変更してください。
■「OracleDB exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
oracledb_up※
groups: - name: oracledb_exporter rules: - alert: oracledb_down(OracleDB exporter) expr: oracledb_up != 1 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0801" jp1_pc_metricname: "oracledb_up" annotations: jp1_pc_firing_description: "OracleDBが停止しました。instance={{ $labels.instance }}" jp1_pc_resolved_description: "OracleDBが起動しました。instance={{ $labels.instance }}"
-
cache_hit_ratio_percent※
groups: - name: oracledb_exporter rules: - alert: cache_hit_ratio_percentage_under_60(OracleDB exporter) expr: (1 - (rate(oracledb_activity_physical_reads_cache[2m]) / (rate(oracledb_activity_consistent_gets_from_cache[2m])+rate(oracledb_activity_db_block_gets_from_cache[2m]))))*100 < 60 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0802" jp1_pc_metricname: "oracledb_activity_physical_reads_cache,oracledb_activity_consistent_gets_from_cache,oracledb_activity_db_block_gets_from_cache" annotations: jp1_pc_firing_description: "OracleDBのキャッシュヒット率が60%を下回りました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "OracleDBのキャッシュヒット率が60%以上になりました。instance={{ $labels.instance }}"
-
tablespace_used_percent※
groups: - name: oracledb_exporter rules: - alert: oracledb_tablespace_used_percent_over_90(OracleDB exporter) expr: oracledb_tablespace_used_percent > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0803" jp1_pc_metricname: "oracledb_tablespace_used_percent" annotations: jp1_pc_firing_description: "OracleDBの表領域の使用量が90%を超えました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "OracleDBの表領域の使用量が90%以下になりました。instance={{ $labels.instance }}"
-
execute_count※
groups: - name: oracledb_exporter rules: - alert: oracledb_activity_execute_count_over_1000(OracleDB exporter) expr: rate(oracledb_activity_execute_count[2m])*60 > 1000 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0804" jp1_pc_metricname: "oracledb_activity_execute_count" annotations: jp1_pc_firing_description: "SQL文の実行回数が1000回を超えました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "SQL文の実行回数が1000回を下回りました。instance={{ $labels.instance }}"
-
parse_count※
execute_countを参考に作成してください。
-
user_commit_count※
execute_countを参考に作成してください。
-
user_rollback_count※
execute_countを参考に作成してください。
-
resource_used※
tablespace_used_percentを参考に作成してください。
-
session_count※
tablespace_used_percentを参考に作成してください。
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「Web exporterのメトリック定義ファイル」のメトリックのアラート定義例
-
probe_webscena_success※
groups: - name: web_exporter rules: - alert: probe_webscena_success(Web exporter) expr: 0 == probe_webscena_success for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1301" jp1_pc_metricname: "probe_webscena_success" annotations: jp1_pc_firing_description: "通信に失敗しました。value={{ $value }}" jp1_pc_resolved_description: "通信に成功しました。"
-
probe_webscena_duration_seconds※
groups: - name: web_exporter rules: - alert: probe_webscena_duration_seconds(Web exporter) expr: 5 < probe_webscena_duration_seconds for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1302" jp1_pc_metricname: "probe_webscena_duration_seconds" annotations: jp1_pc_firing_description: "Webシナリオ実行時間がしきい値(5秒)を上回りました。value={{ $value }}秒" jp1_pc_resolved_description: "Webシナリオ実行時間がしきい値(5秒)を下回りました。"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「VMware exporterのホスト用メトリック定義ファイル」のメトリックのアラート定義例
-
vmware_host_size※
groups: - name: vmware_exporter rules: - alert: vmware_host_size(VMware exporter) expr: 900 > sum(vmware_datastore_capacity_size) without(ds_name)/1024/1024/1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1101" jp1_pc_metricname: "vmware_datastore_capacity_size" annotations: jp1_pc_firing_description: "ディスク領域がしきい値(900ギガバイト)を下回っています。value={{ $value }}ギガバイト,instance={{ $labels.instance }}" jp1_pc_resolved_description: "ディスク領域がしきい値(900ギガバイト)を上回りました。instance={{ $labels.instance }}"
-
vmware_host_used※
groups: - name: vmware_exporter rules: - alert: vmware_host_used(VMware exporter) expr: 800 < ((sum(vmware_datastore_capacity_size) without(ds_name)) /1024/1024/1024)-((sum(vmware_datastore_freespace_size) without(ds_name)) /1024/1024/1024 ) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1112" jp1_pc_metricname: "vmware_datastore_capacity_size,vmware_datastore_freespace_size" annotations: jp1_pc_firing_description: "ディスク使用量がしきい値(800ギガバイト)を上回っています。value={{ $value }}ギガバイト,instance={{ $labels.instance }}" jp1_pc_resolved_description: "ディスク使用量がしきい値(800ギガバイト)を下回りました。instance={{ $labels.instance }}"
-
vmware_host_free※
groups: - name: vmware_exporter rules: - alert: vmware_host_free(VMware exporter) expr: 10 > (sum(vmware_datastore_freespace_size) without(ds_name))/1024/1024/1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1102" jp1_pc_metricname: "vmware_datastore_freespace_size" annotations: jp1_pc_firing_description: "空きディスク領域がしきい値(10ギガバイト)を下回りました。value={{ $value }}ギガバイト,instance={{ $labels.instance }}" jp1_pc_resolved_description: "空きディスク領域がしきい値(10ギガバイト)を上回りました。instance={{ $labels.instance }}"
-
vmware_datastore_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_datastore_used_percent(VMware exporter) expr: (((sum(vmware_datastore_capacity_size) without(ds_name))/1024/1024) - ((sum(vmware_datastore_freespace_size) without(ds_name))/1024/1024 ))/ ((sum(vmware_datastore_capacity_size) without(ds_name))/1024/1024) * 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1103" jp1_pc_metricname: "vmware_datastore_capacity_size,vmware_datastore_freespace_size" annotations: jp1_pc_firing_description: "データストアの使用量が90%を超えました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "データストアの使用量が90%以下になりました。instance={{ $labels.instance }}"
-
vmware_host_memory_max※
groups: - name: vmware_exporter rules: - alert: vmware_host_memory_max(VMware exporter) expr: 16 > vmware_host_memory_max / 1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1104" jp1_pc_metricname: "vmware_host_memory_max" annotations: jp1_pc_firing_description: "メモリ量がしきい値(16ギガバイト)を下回っています。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "メモリ量がしきい値(16ギガバイト)を上回りました。"
-
vmware_host_memory_used※
groups: - name: vmware_exporter rules: - alert: vmware_host_memory_used(VMware exporter) expr: 15 < vmware_host_memory_usage / 1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1117" jp1_pc_metricname: "vmware_host_memory_usage" annotations: jp1_pc_firing_description: "メモリ使用量がしきい値(15ギガバイト)を上回っています。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "メモリ使用量がしきい値(15ギガバイト)を下回りました。"
-
vmware_host_memory_unused※
groups: - name: vmware_exporter rules: - alert: vmware_host_memory_unused(VMware exporter) expr: 1 > (vmware_host_memory_max / 1024) - (vmware_host_memory_usage /1024) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1105" jp1_pc_metricname: "vmware_host_memory_max,vmware_host_memory_usage" annotations: jp1_pc_firing_description: "空きメモリ量がしきい値(1ギガバイト)を下回りました。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "空きメモリ量がしきい値(1ギガバイト)を上回りました。"
-
vmware_host_mem_vmmemctl_average※
groups: - name: vmware_exporter rules: - alert: vmware_host_mem_vmmemctl_average(VMware exporter) expr: 15 < vmware_host_mem_vmmemctl_average / 1024 /1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1118" jp1_pc_metricname: "vmware_host_mem_vmmemctl_average" annotations: jp1_pc_firing_description: "スワップ使用量がしきい値(15ギガバイト)を上回っています。value={{ $value }}ギガバイト" jp1_pc_resolved_description: "スワップ使用量がしきい値(15ギガバイト)を下回りました。"
-
vmware_host_memory_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_host_memory_used_percent(VMware exporter) expr: (vmware_host_memory_usage / vmware_host_memory_max) * 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1106" jp1_pc_metricname: "vmware_host_memory_usage,vmware_host_memory_max" annotations: jp1_pc_firing_description: "物理サーバーのメモリ使用量が90%を超えました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "物理サーバーのメモリ使用量が90%以下になりました。instance={{ $labels.instance }}"
-
vmware_host_swap_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_host_swap_used_percent(VMware exporter) expr: ((vmware_host_mem_vmmemctl_average / 1024)/ vmware_host_memory_max) * 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1116" jp1_pc_metricname: "vmware_host_mem_vmmemctl_average,vmware_host_memory_max" annotations: jp1_pc_firing_description: "仮想マシンの内部スワップ使用率が90%を超えました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "仮想マシンの内部スワップ使用率が90%以下になりました。instance={{ $labels.instance }}"
-
vmware_vm_net_rate※
groups: - name: vmware_exporter rules: - alert: vmware_vm_net_rate(VMware exporter) expr: 10 > vmware_host_net_bytesTx_average + vmware_host_net_bytesRx_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1107" jp1_pc_metricname: "vmware_host_net_bytesTx_average,vmware_host_net_bytesRx_average" annotations: jp1_pc_firing_description: "ネットワークの送受信速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,instance={{ $labels.instance }}" jp1_pc_resolved_description: "ネットワークの送受信速度がしきい値(10KB/秒)を上回りました。instance={{ $labels.instance }}"
-
vmware_host_net_bytesTx_average※
groups: - name: vmware_exporter rules: - alert: vmware_host_net_bytesTx_average(VMware exporter) expr: 10 > vmware_host_net_bytesTx_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1108" jp1_pc_metricname: "vmware_host_net_bytesTx_average" annotations: jp1_pc_firing_description: "ネットワークの送信速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,instance={{ $labels.instance }}" jp1_pc_resolved_description: "ネットワークの送信速度がしきい値(10KB/秒)を上回りました。instance={{ $labels.instance }}"
-
vmware_host_net_bytesRx_average※
groups: - name: vmware_exporter rules: - alert: vmware_host_net_bytesRx_average(VMware exporter) expr: 10 > vmware_host_net_bytesRx_average for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1109" jp1_pc_metricname: "vmware_host_net_bytesRx_average" annotations: jp1_pc_firing_description: "ネットワークの受信速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,instance={{ $labels.instance }}" jp1_pc_resolved_description: "ネットワークの受信速度がしきい値(10KB/秒)を上回りました。instance={{ $labels.instance }}"
-
vmware_host_num_cpu※
groups: - name: vmware_exporter rules: - alert: vmware_host_num_cpu(VMware exporter) expr: 2 > vmware_host_num_cpu for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1113" jp1_pc_metricname: "vmware_host_num_cpu" annotations: jp1_pc_firing_description: "CPUコア数がしきい値(2個)を下回っています。value={{ $value }}個" jp1_pc_resolved_description: "CPUコア数がしきい値(2個)を上回りました。"
-
vmware_host_cpu_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_host_cpu_used_percent(VMware exporter) expr: vmware_host_cpu_usage_average / 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1110" jp1_pc_metricname: "vmware_host_cpu_usage_average" annotations: jp1_pc_firing_description: "物理サーバーのCPU使用量が90%を超えました。instance={{ $labels.instance }}, value={{ $value }}" jp1_pc_resolved_description: "物理サーバーのCPU使用量が90%以下になりました。instance={{ $labels.instance }}"
-
vmware_host_disk_write_average※
groups: - name: vmware_exporter rules: - alert: vmware_host_disk_write_average(VMware exporter) expr: 10 > vmware_host_disk_write_average / 8 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1119" jp1_pc_metricname: "vmware_host_disk_write_average" annotations: jp1_pc_firing_description: "書き込みデータ転送速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,instance={{ $labels.instance }}" jp1_pc_resolved_description: "書き込みデータ転送速度がしきい値(10KB/秒)を上回りました。instance={{ $labels.instance }}"
-
vmware_host_disk_read_average※
groups: - name: vmware_exporter rules: - alert: vmware_host_disk_read_average(VMware exporter) expr: 10 > vmware_host_disk_read_average / 8 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1120" jp1_pc_metricname: "vmware_host_disk_read_average" annotations: jp1_pc_firing_description: "読み込みデータ転送速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,instance={{ $labels.instance }}" jp1_pc_resolved_description: "読み込みデータ転送速度がしきい値(10KB/秒)を上回りました。instance={{ $labels.instance }}"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「VMware exporterのVM用メトリック定義ファイル」のメトリックのアラート定義例
-
vmware_vm_cpu_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_vm_cpu_used_percent(VMware exporter) expr: vmware_vm_cpu_usage_average / (20 * 1000) * 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1121" jp1_pc_metricname: "vmware_vm_cpu_usage_average" annotations: jp1_pc_firing_description: "仮想 CPU 使用率が90%を超えました。vm_name={{ $labels.vm_name }}, value={{ $value }}" jp1_pc_resolved_description: "仮想 CPU 使用率が90%以下になりました。vm_name={{ $labels.vm_name }}"
-
vmware_vm_mem_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_vm_mem_used_percent(VMware exporter) expr: (((vmware_vm_mem_consumed_average/ 1024) + (vmware_vm_mem_vmmemctl_average / 1024) + (vmware_vm_mem_swapped_average / 1024))/ vmware_vm_memory_max) * 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1111" jp1_pc_metricname: "vmware_vm_mem_consumed_average,vmware_vm_mem_vmmemctl_average,vmware_vm_mem_swapped_average" annotations: jp1_pc_firing_description: "仮想マシンのメモリ使用率が90%を超えました。vm_name={{ $labels.vm_name }}, value={{ $value }}" jp1_pc_resolved_description: "仮想マシンのメモリ使用率が90%以下になりました。vm_name={{ $labels.vm_name }}"
-
vmware_vm_disk_write_average※
groups: - name: vmware_exporter rules: - alert: vmware_vm_disk_write_average(VMware exporter) expr: 10 > vmware_vm_disk_write_average / 8 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1122" jp1_pc_metricname: "vmware_vm_disk_write_average" annotations: jp1_pc_firing_description: "書き込みデータ転送速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,vm_name={{ $labels.vm_name }}" jp1_pc_resolved_description: "書き込みデータ転送速度がしきい値(10KB/秒)を上回りました。vm_name={{ $labels.vm_name }}"
-
vmware_vm_disk_read_average※
groups: - name: vmware_exporter rules: - alert: vmware_vm_disk_read_average(VMware exporter) expr: 10 > vmware_vm_disk_read_average / 8 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1123" jp1_pc_metricname: "vmware_vm_disk_read_average" annotations: jp1_pc_firing_description: "読み込みデータ転送速度がしきい値(10KB/秒)を下回りました。value={{ $value }}KB/秒,vm_name={{ $labels.vm_name }}" jp1_pc_resolved_description: "読み込みデータ転送速度がしきい値(10KB/秒)を上回りました。vm_name={{ $labels.vm_name }}"
-
vmware_vm_disk_used_percent※
groups: - name: vmware_exporter rules: - alert: vmware_vm_disk_used_percent(VMware exporter) expr: (((sum(vmware_vm_guest_disk_capacity) without(partition) / (1024 * 1024)) - ((sum(vmware_vm_guest_disk_free) without(partition))/(1024 * 1024))) / ((sum(vmware_vm_guest_disk_capacity) without(partition))/(1024*1024))) * 100 > 90 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1124" jp1_pc_metricname: "vmware_vm_guest_disk_capacity,vmware_vm_guest_disk_free" annotations: jp1_pc_firing_description: "仮想マシンのディスク使用率が90%を超えました。vm_name={{ $labels.vm_name }}, value={{ $value }}" jp1_pc_resolved_description: "仮想マシンのディスク使用率が90%以下になりました。vm_name={{ $labels.vm_name }}"
- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
■「コンテナ監視のメトリック定義ファイル」のメトリックのアラート定義例
-
kube_job_status_failed※
groups: - name: kube_state_metrics rules: - alert: kube_job_status_failed(Kube state metrics) expr: 0 < kube_job_status_failed * on(job_name, namespace) group_left() kube_job_owner{owner_kind="<none>", owner_name="<none>"} for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1201" jp1_pc_metricname: "kube_job_status_failed, kube_job_owner" jp1_pc_nodelabel: "{{ $labels.namespace }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "失敗したポッド数がしきい値(0個)を上回りました。value={{ $value }}個, job_name={{ $labels.job_name }}" jp1_pc_resolved_description: "失敗したポッド数がしきい値(0個)を下回りました。job_name={{ $labels.job_name }}"
-
kube_pod_status_pending※
groups: - name: kube_state_metrics rules: - alert: kube_pod_status_pending(Kube state metrics) expr: 0 < sum by (pod, namespace, instance, job) (kube_pod_status_phase{phase="Pending"}) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1202" jp1_pc_metricname: "kube_pod_status_pending" jp1_pc_nodelabel: "{{ $labels.namespace }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "Pendingポッド数がしきい値(0個)を上回りました。value={{ $value }}個, pod={{ $labels.pod }}" jp1_pc_resolved_description: "Pendingポッド数がしきい値(0個)を下回りました。pod={{ $labels.pod }}"
-
kube_pod_status_failed※
groups: - name: kube_state_metrics rules: - alert: kube_pod_status_failed(Kube state metrics) expr: 0 < sum by (pod, namespace, instance, job) (kube_pod_status_phase{phase="Failed"} for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1203" jp1_pc_metricname: "kube_pod_status_phase" jp1_pc_nodelabel: "{{ $labels.namespace }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "Failedポッド数がしきい値(0個)を上回りました。value={{ $value }}個, pod={{ $labels.pod }}" jp1_pc_resolved_description: "Failedポッド数がしきい値(0個)を下回りました。pod={{ $labels.pod }}"
-
kube_pod_status_unknown※
groups: - name: kube_state_metrics rules: - alert: kube_pod_status_unknown(Kube state metrics) expr: 0 < sum by (pod, namespace, instance) (kube_pod_status_phase{phase="Unknown"} for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1204" jp1_pc_metricname: "kube_pod_status_phase" jp1_pc_nodelabel: "{{ $labels.namespace }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "Unknownポッド数がしきい値(0個)を上回りました。value={{ $value }}個, pod={{ $labels.pod }}" jp1_pc_resolved_description: "Unknownポッド数がしきい値(0個)を下回りました。pod={{ $labels.pod }}"
-
kube_daemonset_failed_number_scheduled※
groups: - name: kube_state_metrics rules: - alert: kube_daemonset_failed_number_scheduled(Kube state metrics) expr: 0 < kube_daemonset_status_desired_number_scheduled - kube_daemonset_status_current_number_scheduled for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1205" jp1_pc_metricname: "kube_daemonset_status_desired_number_scheduled, kube_daemonset_status_current_number_scheduled" jp1_pc_nodelabel: "{{ $labels.daemonset }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "実行に失敗したノード数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "実行に失敗したノード数がしきい値(0個)を下回りました。"
-
kube_deployment_failed_replicas※
groups: - name: kube_state_metrics rules: - alert: kube_deployment_failed_replicas(Kube state metrics) expr: 0 < kube_deployment_spec_replicas - kube_deployment_status_replicas_available for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1206" jp1_pc_metricname: "kube_deployment_spec_replicas, kube_deployment_status_replicas_available" jp1_pc_nodelabel: "{{ $labels.deployment }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "デプロイ毎の実行に失敗したポッド数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "デプロイ毎の実行に失敗したポッド数がしきい値(0個)を下回りました。"
-
kube_replicaset_failed_replicas※
groups: - name: kube_state_metrics rules: - alert: kube_replicaset_failed_replicas(Kube state metrics) expr: 0 < kube_replicaset_spec_replicas - kube_replicaset_status_ready_replicas for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1207" jp1_pc_metricname: "kube_replicaset_spec_replicas, kube_replicaset_status_ready_replicas" jp1_pc_nodelabel: "{{ $labels.replicaset }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "ReplicaSet毎の実行に失敗したポッド数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "ReplicaSet毎の実行に失敗したポッド数がしきい値(0個)を下回りました。"
-
kube_statefulset_failed_replicas※
groups: - name: kube_state_metrics rules: - alert: kube_statefulset_failed_replicas(Kube state metrics) expr: 0 < kube_statefulset_replicas - kube_statefulset_status_replicas_ready for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1208" jp1_pc_metricname: "kube_statefulset_replicas, kube_statefulset_status_replicas_ready" jp1_pc_nodelabel: "{{ $labels.statefulset }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "デプロイ毎の実行に失敗したポッド数がしきい値(0個)を上回りました。value={{ $value }}個" jp1_pc_resolved_description: "デプロイ毎の実行に失敗したポッド数がしきい値(0個)を下回りました。"
-
kube_cron_job_status_failed※
groups: - name: kube_state_metrics rules: - alert: kube_cron_job_status_failed(Kube state metrics) expr: 0 < kube_job_status_failed * on(job_name, namespace) group_left(owner_name) kube_job_owner{owner_kind="CronJob", owner_name!="<none>"} for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1209" jp1_pc_metricname: "kube_job_status_failed, kube_job_owner" jp1_pc_nodelabel: "{{ $labels.owner_name }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "CronJob内で実行に失敗したポッドの数がしきい値(0個)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CronJob内で実行に失敗したポッドの数がしきい値(0個)を下回りました。"
-
kube_node_status_condition_not_ready※
groups: - name: kube_state_metrics rules: - alert: kube_node_status_condition_not_ready(Kube state metrics) expr: 1 == sum by (node, instance) (kube_node_status_condition{condition="Ready",status=~"false|unknown"}) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1210" jp1_pc_metricname: "kube_node_status_condition" jp1_pc_nodelabel: "{{ $labels.node }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "ノードが異常状態です。value={{ $value }}個" jp1_pc_resolved_description: "ノードが異常状態でなくなりました。"
-
kube_node_status_condition_memory_pressure※
groups: - name: kube_state_metrics rules: - alert: kube_node_status_condition_memory_pressure(Kube state metrics) expr: 1 == sum by (node, instance) (kube_node_status_condition{condition="MemoryPressure",status~="true|unknown"}}) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1211" jp1_pc_metricname: "kube_node_status_condition" jp1_pc_nodelabel: "{{ $labels.node }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "ノードがメモリ圧迫状態です。value={{ $value }}個" jp1_pc_resolved_description: "ノードがメモリ圧迫状態でなくなりました。"
-
kube_node_status_condition_disk_pressure※
groups: - name: kube_state_metrics rules: - alert: kube_node_status_condition_disk_pressure(Kube state metrics) expr: 1 == sum by (node, instance) (kube_node_status_condition{condition="DiskPressure",status=~"true|unknown"}) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1212" jp1_pc_metricname: "kube_node_status_condition" jp1_pc_nodelabel: "{{ $labels.node }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "ノードがディスク圧迫状態です。value={{ $value }}個" jp1_pc_resolved_description: "ノードがディスク圧迫状態でなくなりました。"
-
kube_node_status_condition_pid_pressure※
groups: - name: kube_state_metrics rules: - alert: kube_node_status_condition_pid_pressure(Kube state metrics) expr: 1 == sum by (node, instance) (kube_node_status_condition{condition="PIDPressure",status=~"true|unknown"}) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1213" jp1_pc_metricname: "kube_node_status_condition" jp1_pc_nodelabel: "{{ $labels.node }}" jp1_pc_exporter: "JPC Kube state metrics" jp1_pc_trendname: "kubernetes" job: "jpc_kube_state" annotations: jp1_pc_firing_description: "ノードがPID割り当て圧迫状態です。value={{ $value }}個" jp1_pc_resolved_description: "ノードがPID割り当て圧迫状態でなくなりました。"
-
kube_namespace_cpu_percent_used※
groups: - name: kubelet rules: - alert: kube_namespace_cpu_percent_used(Kubelet) expr: 80 < sum by (namespace, job) (rate(container_cpu_usage_seconds_total{name!=""}[2m])) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1222" jp1_pc_metricname: "container_cpu_usage_seconds_total" jp1_pc_nodelabel: "{{ $externalLabels.jp1_pc_prome_clustername }}" jp1_pc_exporter: "JPC Kubelet" jp1_pc_trendname: "kubernetes" job: "jpc_kubelet" instance: "{{ $externalLabels.jp1_pc_prome_hostname }}" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%, namespace={{ $labels.namespace }}" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。namespace={{ $labels.namespace }}"
-
kube_namespace_memory_percent_used※
groups: - name: kubelet rules: - alert: kube_namespace_memory_percent_used(Kubelet) expr: 80 < sum by (namespace, job) (container_memory_working_set_bytes and (container_spec_memory_limit_bytes{name!=""} > 0)) / sum by (namespace, job) ((container_spec_memory_limit_bytes{name!=""} > 0) and container_memory_working_set_bytes) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1223" jp1_pc_metricname: "container_memory_working_set_bytes, container_spec_memory_limit_bytes" jp1_pc_nodelabel: "{{ $externalLabels.jp1_pc_prome_clustername }}" jp1_pc_exporter: "JPC Kubelet" jp1_pc_trendname: "kubernetes" job: "jpc_kubelet" instance: "{{ $externalLabels.jp1_pc_prome_hostname }}" annotations: jp1_pc_firing_description: "メモリ使用率がしきい値(80%)を上回りました。value={{ $value }}%, namespace={{ $labels.namespace }}" jp1_pc_resolved_description: "メモリ使用率がしきい値(80%)を下回りました。namespace={{ $labels.namespace }}"
-
kube_pod_cpu_percent_used_pod※
groups: - name: kubelet rules: - alert: kube_pod_cpu_percent_used_pod(Kubelet) expr: 80 < sum by (pod, namespace, instance, job) (rate(container_cpu_usage_seconds_total{name!=""}[2m])) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1220" jp1_pc_metricname: "container_cpu_usage_seconds_total" jp1_pc_nodelabel: "{{ $labels.pod }}" jp1_pc_exporter: "JPC Kubelet" jp1_pc_trendname: "kubernetes" job: "jpc_kubelet" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%, pod={{ $labels.pod }}" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。pod={{ $labels.pod }}"
-
kube_pod_memory_percent_used※
groups: - name: kubelet rules: - alert: kube_pod_cpu_percent_used_pod(Kubelet) expr: 80 < sum by (pod, namespace, instance, job) (container_memory_working_set_bytes and (container_spec_memory_limit_bytes{name!=""} > 0)) / sum by (pod, namespace, instance, job) ((container_spec_memory_limit_bytes{name!=""} > 0) and container_memory_working_set_bytes) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/KUBERNETES/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "1221" jp1_pc_metricname: "container_memory_working_set_bytes, container_spec_memory_limit_bytes" jp1_pc_nodelabel: "{{ $labels.pod }}" jp1_pc_exporter: "JPC Kubelet" jp1_pc_trendname: "kubernetes" job: "jpc_kubelet" annotations: jp1_pc_firing_description: "メモリ使用率がしきい値(80%)を上回りました。value={{ $value }}%, pod={{ $labels.pod }}" jp1_pc_resolved_description: "メモリ使用率がしきい値(80%)を下回りました。pod={{ $labels.pod }}"
- 注※
-
複数のアラートを同一の統合エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。アラート定義のalertに指定する値は,次の命名規則に従い指定してください。形式が異なる場合,JP1イベントが作成されません。
alert: メトリック定義名(exporter名)任意の値