Node exporterのメトリック定義ファイル(metrics_node_exporter.conf)
形式
[
{
"name":"トレンドデータのメトリック名",
"default":デフォルト選択状態,
"promql":"PromQL文",
"resource_en":{
"category":"メトリックのカテゴリ(英語)",
"label":"メトリック表示名(英語)",
"description":"メトリックの説明(英語)",
"unit":"メトリックの単位(英語)"
},
"resource_ja":{
"category":"メトリックのカテゴリ(日本語)",
"label":"メトリック表示名(日本語)",
"description":"メトリックの説明(日本語)",
"unit":"メトリックの単位(日本語)"
},
"drop_legend_labels": ["ラベル名", ・・・]
}, ・・・
]※- 注※
-
[]内に記述できる要素の数は1〜1,000個です。範囲外の個数の要素を記述した場合は,KAJY24609-Eのエラーメッセージを出力します。
ファイル
metrics_node_exporter.conf
metrics_node_exporter.conf.model(モデルファイル)
格納先ディレクトリ
■統合マネージャーホスト
- Windowsの場合
-
-
物理ホストのとき
Managerパス\conf\imdd\plugin\jp1pccs\
-
論理ホストのとき
共有フォルダ\jp1imm\conf\imdd\plugin\jp1pccs\
-
- Linuxの場合
-
-
物理ホストのとき
/etc/opt/jp1imm/conf/imdd/plugin/jp1pccs/
-
論理ホストのとき
共有ディレクトリ/jp1imm/conf/imdd/plugin/jp1pccs/
-
説明
[統合オペレーション・ビューアー]画面の[トレンド]タブで表示するNode exporterのメトリック情報を定義するファイルです。
定義内容は,JP1/IM - Agentの製品プラグインの__metricListGetメソッド,および__timeSeriesDataGetメソッドの返却値に使用します。
JP1/IM - Managerが階層構成で,統合マネージャーから,下位マネージャーのトレンドデータ管理DBに保存されているトレンドデータを参照する場合,統合マネージャーのメトリック定義ファイルに,参照するトレンドデータのメトリックを追加する必要があります。
文字コード
UTF-8(BOM無し)
改行コード
Windowsの場合:CR+LF
Linuxの場合:LF
定義の反映時期
[統合オペレーション・ビューアー]画面の[トレンド]タブ,または,REST APIで,メトリックの情報を取得したときに反映されます。
記述内容
|
メンバー名 |
省略可否 |
型 |
設定する値 |
|
|---|---|---|---|---|
|
name |
不可 |
string |
トレンドデータのメトリック名を設定します。 トレンドデータ(時系列データ)のメトリック名は,[統合オペレーション・ビューアー]画面の[トレンド]タブで,トレンドデータの種類を示す文字列として表示されます。 1〜255文字で,次に示す文字を指定できます。
指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 メトリック名は,メトリック定義ファイル内で一意にしてください。一意でない場合,KAJY24608-Eのエラーメッセージが出力されます。 |
|
|
default |
可 |
boolean |
デフォルトの選択状態を設定します。 [統合オペレーション・ビューアー]画面の[トレンド]タブで選択するトレンドデータのチェックボックスに,デフォルトでチェックを入れるかどうかを指定します。
省略時はデフォルトでチェックを入れません。 |
|
|
promql |
不可 |
string |
PromQL文を設定します。 JP1/IMのトレンドデータの参照用APIで使用できるPromQL文を設定できます。 PromQL文に含まれる文字列「$jp1im_TrendData_labels」は,下記の「■$jp1im_TrendData_labelsの置き換え」に記載するPromQL文に置き換えられます。PromQL文に関する注意事項については,「PromQL文に関する注意事項」を参照してください。 1〜1023文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 |
|
|
resource_en |
不可 |
object |
メトリックのリソース情報(英語)を設定します。 |
|
|
category |
可 |
string |
メトリックのカテゴリ(英語)を設定します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時はメトリックのカテゴリ(英語)を設定しません。 |
|
|
label |
可 |
string |
メトリックの表示名(英語)を設定します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時は[統合オペレーション・ビューアー]画面の[トレンド]タブのメトリックの表示名にnameメンバーの設定内容を使用します。また,メトリック一覧取得APIでメトリックの表示名を返却しません。 |
|
|
description |
可 |
string |
メトリックの説明(英語)を設定します。 1〜1,023文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時は[統合オペレーション・ビューアー]画面の[トレンド]タブにメトリックの説明を表示しません。また,メトリック一覧取得APIでメトリックの説明を返却しません。 |
|
|
unit |
不可 |
string |
メトリックの単位(英語)を設定します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 |
|
|
resource_ja |
可 |
object |
メトリックのリソース情報(日本語)を設定します。 省略時はresource_enの設定内容を使用します。 |
|
|
category |
可 |
string |
メトリックのカテゴリ(日本語)を設定します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時はresource_enのcategoryの設定内容を使用します。 |
|
|
label |
可 |
string |
メトリックの表示名(日本語)を設定します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時はresource_enのlabelの設定内容を使用します。 |
|
|
description |
可 |
string |
メトリックの説明(日本語)を設定します。 1〜1,023文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時はresource_enのdescriptionの設定内容を使用します。 |
|
|
unit |
可 |
string |
メトリックの単位(日本語)を設定します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。 省略時はresource_enのunitの設定内容を使用します。 |
|
|
drop_legend_labels |
可 |
配列(string) |
トレンドグラフの凡例から除外するラベルを追加する場合にラベル名を設定します。 マニュアル「JP1/Integrated Management 3 - Manager 導入・設計ガイド」の「9.5.1(4)(b)インスタンス名(グラフの凡例として表示する文字列)」に示す除外対象のラベル以外に,トレンドグラフの凡例から除外するラベル名を記載します。 1〜255文字で,制御文字(0x00〜0x1F,0x7F〜0x9F)を除く文字を指定します。 指定不可の文字を含む場合,トレンドグラフの凡例から除外されません。 ラベルの数は100個まで指定できます。100個を超えた場合,101個目以降のラベルは無視されます。 |
|
- ■$jp1im_TrendData_labelsの置き換え
-
promqlの値に含まれる文字列「$jp1im_TrendData_labels」は,パフォーマンスデータを取得するときに,取得対象を絞り込むためのPromQL文に置き換えられます。
トレンドのAPIまたは統合オペレーション・ビューアーで指定した,構成情報のSIDの種類ごと(EC2以外のCloudWatchSIDについては,監視対象のAWS名前空間ごと)の,置き換え後のPromQL文を次に示します。太字部分(可変値)は,それぞれに対応するSIDで管理するExporterの設定や,Exporterが出力するサンプルの値に置き換えられます。
表2‒95 $jp1im_TrendData_labelsの置き換え後のPromQL文 構成情報のSIDの種類
置き換え後のPromQL文
エージェントSID
{jp1_pc_prome_hostname="Prometheusのホスト名",job="スクレイプジョブ名",instance="instanceラベルの値"}
リモートエージェントSID
EC2のCloudWatchSID
{jp1_pc_prome_hostname="Prometheusのホスト名",job="スクレイプジョブ名",instance="instanceラベルの値"},jp1_pc_nodelabel="AWSのリソースのjp1_pc_nodelabelタグに設定した値"}
EC2以外のCloudWatchSID
モデルファイルの設定内容(初期状態)とアラート定義例
Node exporterのメトリック定義ファイルのモデルファイルに記述されている各メトリックの設定内容(初期状態)とアラート定義例(アラート設定ファイル)を,次に示します。
-
cpu_used_rate※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
cpu_used_rate
default
true
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(avg by (instance,job,jp1_pc_nodelabel,jp1_pc_prome_hostname) (rate(node_cpu_seconds_total{mode=\"system\"}[2m]) and $jp1im_TrendData_labels) + avg by (instance,job,jp1_pc_nodelabel,jp1_pc_prome_hostname) (rate(node_cpu_seconds_total{mode=\"user\"}[2m]) and $jp1im_TrendData_labels)) * 100
resource_en
category
platform_unix
label
CPU used rate
description
CPU usage.It also indicates the average value per processor. [Units: %]
unit
%
resource_ja
category
platform_unix
label
CPU使用率
description
CPU使用率(%)。
プロセッサごとの割合の平均値でもある。
unit
%
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPIレコードのCPU %フィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: cpu_used_rate(Node exporter) expr: 80 < (avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu_seconds_total{mode="system"}[2m])) + avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu_seconds_total{mode="user"}[2m]))) * 100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0301" jp1_pc_metricname: "node_cpu_seconds_total" annotations: jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%" jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
memory_unused※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
memory_unused
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(node_memory_MemAvailable_bytes and $jp1im_TrendData_labels)/1024/1024
resource_en
category
platform_unix
label
Memory unused
description
Size of the physical memory that can actually be used by the application.
unit
MB
resource_ja
category
platform_unix
label
空きメモリ量
description
実際にアプリケーションが使用することができる物理メモリーのサイズ。
unit
メガバイト
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPIレコードのEffective Free Mem Mbytesフィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: memory_unused(Node exporter) expr: 1024 > node_memory_MemAvailable_bytes/1024/1024 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0302" jp1_pc_metricname: "node_memory_MemAvailable_bytes" annotations: jp1_pc_firing_description: "空きメモリ量がしきい値(1024メガバイト)を下回りました。value={{ $value }}メガバイト" jp1_pc_resolved_description: "空きメモリ量がしきい値(1024メガバイト)を上回りました。"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
memory_unused_rate※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
memory_unused_rate
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(node_memory_MemAvailable_bytes and $jp1im_TrendData_labels) / (node_memory_MemTotal_bytes and $jp1im_TrendData_labels) * 100
resource_en
category
platform_unix
label
Available memory percentage
description
Percentage of physical memory actually available to the application
unit
%
resource_ja
category
platform_unix
label
空きメモリ率
description
実際にアプリケーションが使用することができる物理メモリーの割合。
unit
%
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPIレコードのEffective Free Mem %フィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: memory_unused_rate(Node exporter) expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0302" jp1_pc_metricname: "node_memory_MemAvailable_bytes,node_memory_MemTotal_bytes" annotations: jp1_pc_firing_description: "空きメモリ率がしきい値(10%)を下回りました。value={{ $value }}メガバイト" jp1_pc_resolved_description: "空きメモリ率がしきい値(10%)を上回りました。"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
disk_unused※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
disk_unused
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(node_filesystem_free_bytes and $jp1im_TrendData_labels)/(1024*1024)
resource_en
category
platform_unix
label
Disk unused
description
Size of the unused area of the disk. [Units: MB]
unit
MB
resource_ja
category
platform_unix
label
空きディスク領域
description
ディスクの未使用領域のサイズ。(単位:メガバイト)
unit
メガバイト
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPD_FSLレコードのMbytes Freeフィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: disk_unused(Node exporter) expr: 10240 > node_filesystem_free_bytes/(1024*1024) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0303" jp1_pc_metricname: "node_filesystem_free_bytes" annotations: jp1_pc_firing_description: "空きディスク領域がしきい値(10240メガバイト)を下回りました。value={{ $value }}メガバイト,mountpoint={{ $labels.mountpoint }}" jp1_pc_resolved_description: "空きディスク領域がしきい値(10240メガバイト)を上回りました。mountpoint={{ $labels.mountpoint }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
disk_unused_rate※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
disk_unused_rate
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(node_filesystem_free_bytes and $jp1im_TrendData_labels) / (node_filesystem_size_bytes and $jp1im_TrendData_labels) * 100
resource_en
category
platform_unix
label
Unused disk space percentage
description
Percentage of unused disk space
unit
%
resource_ja
category
platform_unix
label
空きディスク率
description
ディスクの未使用領域の割合。
unit
%
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPD_FSLレコードのMbytes Free %フィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: disk_unused_rate(Node exporter) expr: node_filesystem_free_bytes / node_filesystem_size_bytes * 100 < 10 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0303" jp1_pc_metricname: "node_filesystem_free_bytes,node_filesystem_size_bytes" annotations: jp1_pc_firing_description: "空きディスク率がしきい値(10%)を下回りました。value={{ $value }}メガバイト,mountpoint={{ $labels.mountpoint }}" jp1_pc_resolved_description: "空きディスク率がしきい値(10%)を上回りました。mountpoint={{ $labels.mountpoint }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
disk_busy_rate※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
disk_busy_rate
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(rate(node_disk_io_time_seconds_total[2m]) and $jp1im_TrendData_labels)*100
resource_en
category
platform_unix
label
Disk busy rate
description
Percentage of time the disk was busy with read and write requests. This value may exceed 100 when processes are continuously executed on a device. [Units: %]
unit
%
resource_ja
category
platform_unix
label
ディスクビジー率
description
ディスクのビジー率(%)。
デバイスに対する処理が連続で行われる場合に「100」を超えることがあります。
unit
%
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPI_DEVDレコードのBusy %フィールドと同等です。
■アラート定義例※ groups: - name: node_exporter rules: - alert: disk_busy_rate(Node exporter) expr: 70 < rate(node_disk_io_time_seconds_total[2m])*100 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0304" jp1_pc_metricname: "node_disk_io_time_seconds_total" annotations: jp1_pc_firing_description: "ディスクビジー率がしきい値(70%)を上回りました。value={{ $value }}%,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスクビジー率がしきい値(70%)を下回りました。device={{ $labels.device }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
disk_read_latency
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
disk_read_latency
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(rate(node_disk_read_time_seconds_total[2m]) and $jp1im_TrendData_labels) / (rate(node_disk_reads_completed_total[2m]) and $jp1im_TrendData_labels)
resource_en
category
platform_unix
label
Disk read latency
description
Average time (in seconds) taken to perform a single disk read operation
unit
second
resource_ja
category
platform_unix
label
ディスク読み込みレイテンシー
description
1回あたりのディスク読み込みにかかった平均時間(秒)。
unit
秒
■アラート定義例※
groups: - name: node_exporter rules: - alert: disk_read_latency(Node exporter) expr: rate(node_disk_read_time_seconds_total[2m]) / rate(node_disk_reads_completed_total[2m]) > 0.1 and rate(node_disk_reads_completed_total[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0304" jp1_pc_metricname: "node_disk_read_time_seconds_total,node_disk_reads_completed_total" annotations: jp1_pc_firing_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}%,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
disk_write_latency
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
disk_write_latency
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(rate(node_disk_write_time_seconds_total[2m]) and $jp1im_TrendData_labels) / (rate(node_disk_writes_completed_total[2m]) and $jp1im_TrendData_labels)
resource_en
category
platform_unix
label
Disk write latency
description
Average time (in seconds) taken to perform a single disk write operation
unit
second
resource_ja
category
platform_unix
label
ディスク書き込みレイテンシー
description
1回あたりのディスク書き込みにかかった平均時間(秒)。
unit
秒
■アラート定義例※
groups: - name: node_exporter rules: - alert: disk_write_latency(Node exporter) expr: rate(node_disk_write_time_seconds_total[2m]) / rate(node_disk_writes_completed_total[2m]) > 0.1 and rate(node_disk_writes_completed_total[2m]) > 0 for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0304" jp1_pc_metricname: "node_disk_write_time_seconds_total,node_disk_writes_completed_total" annotations: jp1_pc_firing_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}%,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
disk_io_latency
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
disk_io_latency
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
((rate(node_disk_write_time_seconds_total[2m]) and $jp1im_TrendData_labels) + (rate(node_disk_write_time_seconds_total[2m]) and $jp1im_TrendData_labels)) / ((rate(node_disk_writes_completed_total[2m]) and $jp1im_TrendData_labels) + (rate(node_disk_writes_completed_total[2m]) and $jp1im_TrendData_labels))
resource_en
category
platform_unix
label
Disk I/O latency
description
Average time (in seconds) taken to perform a single disk write and read operation
unit
second
resource_ja
category
platform_unix
label
ディスクIOレイテンシー
description
1回あたりのディスク書き込みとディスク読み込みにかかった平均時間(秒)。
unit
秒
■アラート定義例※
groups: - name: node_exporter rules: - alert: disk_io_latency(Node exporter) expr: (rate(node_disk_read_time_seconds_total[2m]) + rate(node_disk_write_time_seconds_total[2m])) / (rate(node_disk_reads_completed_total[2m]) + rate(node_disk_writes_completed_total[2m])) > 0.1 and (rate(node_disk_writes_completed_total[2m]) > 0 or rate(node_disk_read_completed_total[2m]) > 0) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0304" jp1_pc_metricname: "node_disk_write_time_seconds_total,node_disk_writes_completed_total,node_disk_read_time_seconds_total,node_disk_reads_completed_total" annotations: jp1_pc_firing_description: "ディスクIOレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}%,device={{ $labels.device }}" jp1_pc_resolved_description: "ディスクIOレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
network_sent※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
network_sent
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(rate(node_network_transmit_packets_total[2m]) and $jp1im_TrendData_labels)
resource_en
category
platform_unix
label
Network sent
description
Rate at which packets were sent throughthe network interface. [Units: packets/second]
unit
packets/second
resource_ja
category
platform_unix
label
ネットワークの送信速度
description
ネットワークインターフェースで送信されるパケットの割合。(単位:パケット/秒)
unit
パケット/秒
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPI_NINDレコードのPkts Xmitd/secフィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: network_sent(Node exporter) expr: 100 < rate(node_network_transmit_packets_total[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0305" jp1_pc_metricname: "node_network_transmit_packets_total" annotations: jp1_pc_firing_description: "ネットワークの送信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ネットワークの送信速度がしきい値(100パケット/秒)を下回りました。device={{ $labels.device }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。
-
network_received※
■設定内容(初期状態)
メンバー名
設定内容(初期状態)
name
network_received
default
false
メトリック定義ファイル用promql($jp1im_TrendData_labelsを含む)
(rate(node_network_receive_packets_total[2m]) and $jp1im_TrendData_labels)
resource_en
category
platform_unix
label
Network received
description
Rate at which packets were receivedthrough the network interface. [Units: packets/second]
unit
packets/second
resource_ja
category
platform_unix
label
ネットワークの受信速度
description
ネットワークインターフェースで受信されるパケットの割合。(単位:パケット/秒)
unit
パケット/秒
- 注※
-
JP1/PFM - Agent for Platform(Unix)のPI_NINDレコードのPkts Rcvd/secフィールドと同等です。
■アラート定義例※
groups: - name: node_exporter rules: - alert: network_received(Node exporter) expr: 100 < rate(node_network_receive_packets_total[2m]) for: 3m labels: jp1_pc_product_name: "/HITACHI/JP1/JPCCS2" jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO" jp1_pc_severity: "Error" jp1_pc_eventid: "0306" jp1_pc_metricname: "node_network_receive_packets_total" annotations: jp1_pc_firing_description: "ネットワークの受信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒,device={{ $labels.device }}" jp1_pc_resolved_description: "ネットワークの受信速度がしきい値(100パケット/秒)を下回りました。device={{ $labels.device }}"- 注※
-
複数のアラートを同一の監視エージェントホストで定義する場合,「groups:」を重複して指定したり,同じグループ名を指定したnameを重複して指定したりしないように注意してください。