Node exporterのメトリック定義ファイル（metrics_node_exporter.conf）

〈このページの構成〉

形式
ファイル
格納先ディレクトリ
説明
文字コード
改行コード
定義の反映時期
記述内容
モデルファイルの設定内容（初期状態）とアラート定義例

形式

[
  {
    "name":"トレンドデータのメトリック名",
    "default":デフォルト選択状態,
    "promql":"PromQL文",
    "resource_en":{
      "category":"メトリックのカテゴリ（英語）",
      "label":"メトリック表示名（英語）",
      "description":"メトリックの説明（英語）",
      "unit":"メトリックの単位（英語）"
    },
    "resource_ja":{
      "category":"メトリックのカテゴリ（日本語）",
      "label":"メトリック表示名（日本語）",
      "description":"メトリックの説明（日本語）",
      "unit":"メトリックの単位（日本語）"
    },
    "drop_legend_labels": ["ラベル名", ･･･]
  }, ･･･
]^※

注※: []内に記述できる要素の数は1〜1,000個です。範囲外の個数の要素を記述した場合は，KAJY24609-Eのエラーメッセージを出力します。

ページの先頭へ

ファイル

metrics_node_exporter.conf

metrics_node_exporter.conf.model（モデルファイル）

ページの先頭へ

格納先ディレクトリ

■統合マネージャーホスト

Windowsの場合

物理ホストのとき

Managerパス\conf\imdd\plugin\jp1pccs\
論理ホストのとき

共有フォルダ\jp1imm\conf\imdd\plugin\jp1pccs\

Linuxの場合

物理ホストのとき

/etc/opt/jp1imm/conf/imdd/plugin/jp1pccs/
論理ホストのとき

共有ディレクトリ/jp1imm/conf/imdd/plugin/jp1pccs/

ページの先頭へ

説明

［統合オペレーション・ビューアー］画面の［トレンド］タブで表示するNode exporterのメトリック情報を定義するファイルです。

定義内容は，JP1/IM - Agentの製品プラグインの__metricListGetメソッド，および__timeSeriesDataGetメソッドの返却値に使用します。

JP1/IM - Managerが階層構成で，統合マネージャーから，下位マネージャーのトレンドデータ管理DBに保存されているトレンドデータを参照する場合，統合マネージャーのメトリック定義ファイルに，参照するトレンドデータのメトリックを追加する必要があります。

ページの先頭へ

文字コード

UTF-8（BOM無し）

ページの先頭へ

改行コード

Windowsの場合：CR+LF

Linuxの場合：LF

ページの先頭へ

定義の反映時期

［統合オペレーション・ビューアー］画面の［トレンド］タブ，または，REST APIで，メトリックの情報を取得したときに反映されます。

ページの先頭へ

記述内容

表2‒94　メトリック定義ファイルの各メンバーに設定する値
メンバー名		省略可否	型	設定する値
name		不可	string	トレンドデータのメトリック名を設定します。トレンドデータ（時系列データ）のメトリック名は，［統合オペレーション・ビューアー］画面の［トレンド］タブで，トレンドデータの種類を示す文字列として表示されます。 1〜255文字で，次に示す文字を指定できます。半角英数字 -（ハイフン） _（アンダースコア）指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。メトリック名は，メトリック定義ファイル内で一意にしてください。一意でない場合，KAJY24608-Eのエラーメッセージが出力されます。
default		可	boolean	デフォルトの選択状態を設定します。［統合オペレーション・ビューアー］画面の［トレンド］タブで選択するトレンドデータのチェックボックスに，デフォルトでチェックを入れるかどうかを指定します。 true：デフォルトでチェックを入れます。 false：デフォルトでチェックを入れません。省略時はデフォルトでチェックを入れません。
promql		不可	string	PromQL文を設定します。 JP1/IMのトレンドデータの参照用APIで使用できるPromQL文を設定できます。 PromQL文に含まれる文字列「$jp1im_TrendData_labels」は，下記の「■$jp1im_TrendData_labelsの置き換え」に記載するPromQL文に置き換えられます。PromQL文に関する注意事項については，「PromQL文に関する注意事項」を参照してください。 1〜1023文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。
resource_en		不可	object	メトリックのリソース情報（英語）を設定します。
	category	可	string	メトリックのカテゴリ（英語）を設定します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時はメトリックのカテゴリ（英語）を設定しません。
	label	可	string	メトリックの表示名（英語）を設定します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時は［統合オペレーション・ビューアー］画面の［トレンド］タブのメトリックの表示名にnameメンバーの設定内容を使用します。また，メトリック一覧取得APIでメトリックの表示名を返却しません。
	description	可	string	メトリックの説明（英語）を設定します。 1〜1,023文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時は［統合オペレーション・ビューアー］画面の［トレンド］タブにメトリックの説明を表示しません。また，メトリック一覧取得APIでメトリックの説明を返却しません。
	unit	不可	string	メトリックの単位（英語）を設定します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。
resource_ja		可	object	メトリックのリソース情報（日本語）を設定します。省略時はresource_enの設定内容を使用します。
	category	可	string	メトリックのカテゴリ（日本語）を設定します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時はresource_enのcategoryの設定内容を使用します。
	label	可	string	メトリックの表示名（日本語）を設定します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時はresource_enのlabelの設定内容を使用します。
	description	可	string	メトリックの説明（日本語）を設定します。 1〜1,023文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時はresource_enのdescriptionの設定内容を使用します。
	unit	可	string	メトリックの単位（日本語）を設定します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，KAJY24604-EまたはKAJY24605-Eのエラーメッセージが出力されます。省略時はresource_enのunitの設定内容を使用します。
drop_legend_labels		可	配列（string）	トレンドグラフの凡例から除外するラベルを追加する場合にラベル名を設定します。マニュアル「JP1/Integrated Management 3 - Manager 導入・設計ガイド」の「9.5.1(4)(b)インスタンス名（グラフの凡例として表示する文字列）」に示す除外対象のラベル以外に，トレンドグラフの凡例から除外するラベル名を記載します。 1〜255文字で，制御文字（0x00〜0x1F，0x7F〜0x9F）を除く文字を指定します。指定不可の文字を含む場合，トレンドグラフの凡例から除外されません。ラベルの数は100個まで指定できます。100個を超えた場合，101個目以降のラベルは無視されます。

■$jp1im_TrendData_labelsの置き換え

promqlの値に含まれる文字列「$jp1im_TrendData_labels」は，パフォーマンスデータを取得するときに，取得対象を絞り込むためのPromQL文に置き換えられます。

トレンドのAPIまたは統合オペレーション・ビューアーで指定した，構成情報のSIDの種類ごと（EC2以外のCloudWatchSIDについては，監視対象のAWS名前空間ごと）の，置き換え後のPromQL文を次に示します。太字部分（可変値）は，それぞれに対応するSIDで管理するExporterの設定や，Exporterが出力するサンプルの値に置き換えられます。

表2‒95　 $jp1im_TrendData_labelsの置き換え後のPromQL文
構成情報のSIDの種類	置き換え後のPromQL文
エージェントSID	`{jp1_pc_prome_hostname="`Prometheusのホスト名`",job="`スクレイプジョブ名`",instance="`instanceラベルの値`"}`
リモートエージェントSID
EC2のCloudWatchSID	`{jp1_pc_prome_hostname="`Prometheusのホスト名`",job="`スクレイプジョブ名`",instance="`instanceラベルの値`"},jp1_pc_nodelabel="`AWSのリソースのjp1_pc_nodelabelタグに設定した値`"}`
EC2以外のCloudWatchSID

ページの先頭へ

モデルファイルの設定内容（初期状態）とアラート定義例

Node exporterのメトリック定義ファイルのモデルファイルに記述されている各メトリックの設定内容（初期状態）とアラート定義例（アラート設定ファイル）を，次に示します。

cpu_used_rate^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		cpu_used_rate
default		true
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(avg by (instance,job,jp1_pc_nodelabel,jp1_pc_prome_hostname) (rate(node_cpu_seconds_total{mode=`\`"system`\`"}[2m]) and $jp1im_TrendData_labels) + avg by (instance,job,jp1_pc_nodelabel,jp1_pc_prome_hostname) (rate(node_cpu_seconds_total{mode=`\`"user`\`"}[2m]) and $jp1im_TrendData_labels)) * 100
resource_en	category	platform_unix
	label	CPU used rate
	description	CPU usage.It also indicates the average value per processor. [Units: %]
	unit	%
resource_ja	category	platform_unix
	label	CPU使用率
	description	CPU使用率（%）。プロセッサごとの割合の平均値でもある。
	unit	%

注※: JP1/PFM - Agent for Platform（Unix）のPIレコードのCPU %フィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: cpu_used_rate(Node exporter)
      expr: 80 < (avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu_seconds_total{mode="system"}[2m])) + avg by (instance,job,jp1_pc_nodelabel,jp1_pc_exporter) (rate(node_cpu_seconds_total{mode="user"}[2m]))) * 100
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0301"
        jp1_pc_metricname: "node_cpu_seconds_total"
      annotations:
        jp1_pc_firing_description: "CPU使用率がしきい値(80%)を上回りました。value={{ $value }}%"
        jp1_pc_resolved_description: "CPU使用率がしきい値(80%)を下回りました。"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

memory_unused^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		memory_unused
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(node_memory_MemAvailable_bytes and $jp1im_TrendData_labels)/1024/1024
resource_en	category	platform_unix
	label	Memory unused
	description	Size of the physical memory that can actually be used by the application.
	unit	MB
resource_ja	category	platform_unix
	label	空きメモリ量
	description	実際にアプリケーションが使用することができる物理メモリーのサイズ。
	unit	メガバイト

注※: JP1/PFM - Agent for Platform（Unix）のPIレコードのEffective Free Mem Mbytesフィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: memory_unused(Node exporter)
      expr: 1024 > node_memory_MemAvailable_bytes/1024/1024
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0302"
        jp1_pc_metricname: "node_memory_MemAvailable_bytes"
      annotations:
        jp1_pc_firing_description: "空きメモリ量がしきい値(1024メガバイト)を下回りました。value={{ $value }}メガバイト"
        jp1_pc_resolved_description: "空きメモリ量がしきい値(1024メガバイト)を上回りました。"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

memory_unused_rate^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		memory_unused_rate
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(node_memory_MemAvailable_bytes and $jp1im_TrendData_labels) / (node_memory_MemTotal_bytes and $jp1im_TrendData_labels) * 100
resource_en	category	platform_unix
	label	Available memory percentage
	description	Percentage of physical memory actually available to the application
	unit	%
resource_ja	category	platform_unix
	label	空きメモリ率
	description	実際にアプリケーションが使用することができる物理メモリーの割合。
	unit	%

注※: JP1/PFM - Agent for Platform（Unix）のPIレコードのEffective Free Mem %フィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: memory_unused_rate(Node exporter)
      expr: node_memory_MemAvailable_bytes  / node_memory_MemTotal_bytes * 100 < 10
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0302"
        jp1_pc_metricname: "node_memory_MemAvailable_bytes,node_memory_MemTotal_bytes"
      annotations:
        jp1_pc_firing_description: "空きメモリ率がしきい値(10%)を下回りました。value={{ $value }}メガバイト"
        jp1_pc_resolved_description: "空きメモリ率がしきい値(10%)を上回りました。"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

disk_unused^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		disk_unused
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(node_filesystem_free_bytes and $jp1im_TrendData_labels)/(1024*1024)
resource_en	category	platform_unix
	label	Disk unused
	description	Size of the unused area of the disk. [Units: MB]
	unit	MB
resource_ja	category	platform_unix
	label	空きディスク領域
	description	ディスクの未使用領域のサイズ。（単位:メガバイト）
	unit	メガバイト

注※: JP1/PFM - Agent for Platform（Unix）のPD_FSLレコードのMbytes Freeフィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: disk_unused(Node exporter)
      expr: 10240 > node_filesystem_free_bytes/(1024*1024)
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0303"
        jp1_pc_metricname: "node_filesystem_free_bytes"
      annotations:
        jp1_pc_firing_description: "空きディスク領域がしきい値(10240メガバイト)を下回りました。value={{ $value }}メガバイト，mountpoint={{ $labels.mountpoint }}"
        jp1_pc_resolved_description: "空きディスク領域がしきい値(10240メガバイト)を上回りました。mountpoint={{ $labels.mountpoint }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

disk_unused_rate^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		disk_unused_rate
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(node_filesystem_free_bytes and $jp1im_TrendData_labels) / (node_filesystem_size_bytes and $jp1im_TrendData_labels) * 100
resource_en	category	platform_unix
	label	Unused disk space percentage
	description	Percentage of unused disk space
	unit	%
resource_ja	category	platform_unix
	label	空きディスク率
	description	ディスクの未使用領域の割合。
	unit	%

注※: JP1/PFM - Agent for Platform（Unix）のPD_FSLレコードのMbytes Free %フィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: disk_unused_rate(Node exporter)
      expr: node_filesystem_free_bytes / node_filesystem_size_bytes * 100 < 10
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0303"
        jp1_pc_metricname: "node_filesystem_free_bytes,node_filesystem_size_bytes"
      annotations:
        jp1_pc_firing_description: "空きディスク率がしきい値(10%)を下回りました。value={{ $value }}メガバイト，mountpoint={{ $labels.mountpoint }}"
        jp1_pc_resolved_description: "空きディスク率がしきい値(10%)を上回りました。mountpoint={{ $labels.mountpoint }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

disk_busy_rate^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		disk_busy_rate
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(rate(node_disk_io_time_seconds_total[2m]) and $jp1im_TrendData_labels)*100
resource_en	category	platform_unix
	label	Disk busy rate
	description	Percentage of time the disk was busy with read and write requests. This value may exceed 100 when processes are continuously executed on a device. [Units: %]
	unit	%
resource_ja	category	platform_unix
	label	ディスクビジー率
	description	ディスクのビジー率（%）。デバイスに対する処理が連続で行われる場合に「100」を超えることがあります。
	unit	%

注※: JP1/PFM - Agent for Platform（Unix）のPI_DEVDレコードのBusy %フィールドと同等です。

■アラート定義例^※
groups:
  - name: node_exporter
    rules:
    - alert: disk_busy_rate(Node exporter)
      expr: 70 < rate(node_disk_io_time_seconds_total[2m])*100
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0304"
        jp1_pc_metricname: "node_disk_io_time_seconds_total"
      annotations:
        jp1_pc_firing_description: "ディスクビジー率がしきい値(70%)を上回りました。value={{ $value }}%，device={{ $labels.device }}"
        jp1_pc_resolved_description: "ディスクビジー率がしきい値(70%)を下回りました。device={{ $labels.device }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

disk_read_latency

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		disk_read_latency
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(rate(node_disk_read_time_seconds_total[2m]) and $jp1im_TrendData_labels) / (rate(node_disk_reads_completed_total[2m]) and $jp1im_TrendData_labels)
resource_en	category	platform_unix
	label	Disk read latency
	description	Average time (in seconds) taken to perform a single disk read operation
	unit	second
resource_ja	category	platform_unix
	label	ディスク読み込みレイテンシー
	description	1回あたりのディスク読み込みにかかった平均時間（秒）。
	unit	秒

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: disk_read_latency(Node exporter)
      expr: rate(node_disk_read_time_seconds_total[2m]) / rate(node_disk_reads_completed_total[2m]) > 0.1 and rate(node_disk_reads_completed_total[2m]) > 0
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0304"
        jp1_pc_metricname: "node_disk_read_time_seconds_total,node_disk_reads_completed_total"
      annotations:
        jp1_pc_firing_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}%，device={{ $labels.device }}"
        jp1_pc_resolved_description: "ディスク読み込みレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

disk_write_latency

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		disk_write_latency
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(rate(node_disk_write_time_seconds_total[2m]) and $jp1im_TrendData_labels) / (rate(node_disk_writes_completed_total[2m]) and $jp1im_TrendData_labels)
resource_en	category	platform_unix
	label	Disk write latency
	description	Average time (in seconds) taken to perform a single disk write operation
	unit	second
resource_ja	category	platform_unix
	label	ディスク書き込みレイテンシー
	description	1回あたりのディスク書き込みにかかった平均時間（秒）。
	unit	秒

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: disk_write_latency(Node exporter)
      expr: rate(node_disk_write_time_seconds_total[2m]) / rate(node_disk_writes_completed_total[2m]) > 0.1 and rate(node_disk_writes_completed_total[2m]) > 0
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0304"
        jp1_pc_metricname: "node_disk_write_time_seconds_total,node_disk_writes_completed_total"
      annotations:
        jp1_pc_firing_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}%，device={{ $labels.device }}"
        jp1_pc_resolved_description: "ディスク書き込みレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

disk_io_latency

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		disk_io_latency
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		((rate(node_disk_write_time_seconds_total[2m]) and $jp1im_TrendData_labels) + (rate(node_disk_write_time_seconds_total[2m]) and $jp1im_TrendData_labels)) / ((rate(node_disk_writes_completed_total[2m]) and $jp1im_TrendData_labels) + (rate(node_disk_writes_completed_total[2m]) and $jp1im_TrendData_labels))
resource_en	category	platform_unix
	label	Disk I/O latency
	description	Average time (in seconds) taken to perform a single disk write and read operation
	unit	second
resource_ja	category	platform_unix
	label	ディスクIOレイテンシー
	description	1回あたりのディスク書き込みとディスク読み込みにかかった平均時間（秒）。
	unit	秒

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: disk_io_latency(Node exporter)
      expr: (rate(node_disk_read_time_seconds_total[2m]) + rate(node_disk_write_time_seconds_total[2m])) / (rate(node_disk_reads_completed_total[2m]) + rate(node_disk_writes_completed_total[2m])) > 0.1 and (rate(node_disk_writes_completed_total[2m]) > 0 or rate(node_disk_read_completed_total[2m]) > 0)
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0304"
        jp1_pc_metricname: "node_disk_write_time_seconds_total,node_disk_writes_completed_total,node_disk_read_time_seconds_total,node_disk_reads_completed_total"
      annotations:
        jp1_pc_firing_description: "ディスクIOレイテンシーがしきい値(0.1秒)を上回りました。value={{ $value }}%，device={{ $labels.device }}"
        jp1_pc_resolved_description: "ディスクIOレイテンシーがしきい値(0.1秒)を下回りました。device={{ $labels.device }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

network_sent^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		network_sent
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(rate(node_network_transmit_packets_total[2m]) and $jp1im_TrendData_labels)
resource_en	category	platform_unix
	label	Network sent
	description	Rate at which packets were sent throughthe network interface. [Units: packets/second]
	unit	packets/second
resource_ja	category	platform_unix
	label	ネットワークの送信速度
	description	ネットワークインターフェースで送信されるパケットの割合。（単位：パケット／秒）
	unit	パケット／秒

注※: JP1/PFM - Agent for Platform（Unix）のPI_NINDレコードのPkts Xmitd/secフィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: network_sent(Node exporter)
      expr: 100 < rate(node_network_transmit_packets_total[2m])
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0305"
        jp1_pc_metricname: "node_network_transmit_packets_total"
      annotations:
        jp1_pc_firing_description: "ネットワークの送信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒，device={{ $labels.device }}"
        jp1_pc_resolved_description: "ネットワークの送信速度がしきい値(100パケット/秒)を下回りました。device={{ $labels.device }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

network_received^※

■設定内容（初期状態）

メンバー名		設定内容（初期状態）
name		network_received
default		false
メトリック定義ファイル用promql（$jp1im_TrendData_labelsを含む）		(rate(node_network_receive_packets_total[2m]) and $jp1im_TrendData_labels)
resource_en	category	platform_unix
	label	Network received
	description	Rate at which packets were receivedthrough the network interface. [Units: packets/second]
	unit	packets/second
resource_ja	category	platform_unix
	label	ネットワークの受信速度
	description	ネットワークインターフェースで受信されるパケットの割合。（単位：パケット／秒）
	unit	パケット/秒

注※: JP1/PFM - Agent for Platform（Unix）のPI_NINDレコードのPkts Rcvd/secフィールドと同等です。

■アラート定義例^※

groups:
  - name: node_exporter
    rules:
    - alert: network_received(Node exporter)
      expr: 100 < rate(node_network_receive_packets_total[2m])
      for: 3m
      labels:
        jp1_pc_product_name: "/HITACHI/JP1/JPCCS2"
        jp1_pc_component: "/HITACHI/JP1/JPCCS/CONFINFO"
        jp1_pc_severity: "Error"
        jp1_pc_eventid: "0306"
        jp1_pc_metricname: "node_network_receive_packets_total"
      annotations:
        jp1_pc_firing_description: "ネットワークの受信速度がしきい値(100パケット/秒)を上回りました。value={{ $value }}パケット/秒，device={{ $labels.device }}"
        jp1_pc_resolved_description: "ネットワークの受信速度がしきい値(100パケット/秒)を下回りました。device={{ $labels.device }}"

注※: 複数のアラートを同一の監視エージェントホストで定義する場合，「groups:」を重複して指定したり，同じグループ名を指定したnameを重複して指定したりしないように注意してください。

ページの先頭へ