Hitachi

JP1 Version 13 JP1/Integrated Management 3 - Manager コマンド・定義ファイル・APIリファレンス


Prometheus設定ファイル(jpc_prometheus_server.yml)

〈このページの構成〉

形式

YAML形式で記述します。

global:
  scrape_interval:      1m
  scrape_timeout:      10s
  evaluation_interval:  1m
  external_labels:
    jp1_pc_prome_hostname: "監視エージェントのホスト名"
 :
(略)
 :
scrape_configs:
  - job_name: スクレイプジョブ名
    
    file_sd_configs:
      - files:
        - ディスカバリ設定ファイル名
    
    relabel_configs:
      - target_label: jp1_pc_nodelabel
        replacement: Node exporter
      - regex: (jp1_pc_category|jp1_pc_trendname)
        action: labeldrop
 :
(略)
 :
remote_write:
  - url: http://JP1/IM - Agentのホスト名:20727/ima/api/v1/proxy/service/promscale/api/v1/write
    remote_timeout: 30s
    send_exemplars: false
    queue_config:
      capacity: 10000
      max_shards: 200
      min_shards: 4
      max_samples_per_send: 3000
      batch_send_deadline: 10s
      min_backoff: 100ms
      max_backoff: 10s

ファイル

jpc_prometheus_server.yml

jpc_prometheus_server.yml.model(モデルファイル)

格納先ディレクトリ

■統合エージェントホスト

Windowsの場合
  • 物理ホストのとき

    Agentパス\conf\

  • 論理ホストのとき

    共有フォルダ\jp1ima\conf\

Linuxの場合
  • 物理ホストのとき

    /opt/jp1ima/conf/

  • 論理ホストのとき

    共有ディレクトリ/jp1ima/conf/

説明

Prometheus serverの動作を規定する設定ファイルです。

文字コード

UTF-8(BOM無し)

改行コード

Windowsの場合:CR+LF

Linuxの場合:LF

定義の反映時期

Prometheus serverのリロードAPIを実行したとき,または,Prometheus serverを再起動したときに,Prometheus serverの動作に反映されます。

また,jp1_pc_prome_hostnameラベルの値,または,スクレイプ定義(scrape_configsの定義)を変更した場合は,上記の操作を行ったあと,jddcreatetreeコマンドおよびjddupdatetreeコマンドを実行したときに,統合オペレーション・ビューアーのツリーの表示内容に反映されます。

記述内容

下記の表で使用している一般的なプレースホルダーの定義については,「ymlファイルの記述項目で使用している一般的なプレースホルダーの定義について」を参照してください。

項目名

説明

変更可否

JP1/IM - Agentでユーザーが設定する内容

JP1/IM - Agentのデフォルト値

global:

[ scrape_interval: <duration> | default = 1m ]

ターゲットへのスクレイプ間隔を15秒から24時間の範囲で指定します。

値は数字と単位で指定します。指定できる単位はs(秒)とm(分)とh(時)です。

<設定例>

global:

scrape_interval: 5m

スクレイプ間隔を指定します。

scrape_interval:1m

[ scrape_timeout: <duration> | default = 10s ]

スクレイプ要求のタイムアウト時間を10秒から60分の範囲で指定します。

値は数字と単位で指定します。指定できる単位はs(秒)とm(分)です。

global.scrape_intervalよりも小さい値を指定する必要があります。

<設定例>

global:

scrape_timeout: 20s

必要に応じて設定します。

scrape_timeout: 10s

[ evaluation_interval: <duration> | default = 1m ]

アラートルールの評価間隔を15秒から48時間の範囲で指定します。

値は数字と単位で指定します。指定できる単位はs(秒)とm(分)とh(時間)です。

<設定例>

global:

evaluation_interval: 15s

必要に応じて設定します。

evaluation_interval: 1m

external_labels:

リモートライトやAlertmanagerへ通知する際に追加するラベルを指定します。30個まで指定できます。

[ <labelname>: <labelvalue> ... ]

ラベル名とラベルの値を指定します。ラベル名とラベルの値はそれぞれ255バイトまで指定できます。

なお,デフォルトで設定済みのjp1_pc_prome_hostnameラベルは削除しないでください。

<設定例>

global:

external_labels:

labelname1: valuename1

labelname2: valuename2

監視モジュールのインストールスクリプトで設定されるため,通常は変更不要です。

クラスタ環境の場合は手動で論理ホスト名を設定します。

external_labels:

jp1_pc_prome_hostname: "ホスト名"

rule_files:

アラートルールファイルを指定します。30個まで指定できます。

[ - <filepath_glob> ... ]

ファイル名を指定します。ファイル名は255バイトまで指定できます。

<設定例>

rule_files:

- " jpc_alerting_rules.yml"

- "alerting_rules2.yml"

ルールファイル名の変更,追加,削除ができます。

通常は変更不要です。

rule_files:

- "jpc_alerting_rules.yml"

scrape_configs:

スクレイプ定義を指定します。30個まで指定できます。

[ - <scrape_config> ... ]

下記の<scrape_config>の説明を参照してください。

スクレイプ定義を追加できます。

ユーザー独自のExporterなどがある場合は定義を追加します。

通常は変更不要です。

次に示すExporterの定義があらかじめ設定されています。

  • node_exporter

  • windows_exporter

  • blackbox_exporter(http)

  • blackbox_exporter(icmp)

  • yet_another_cloudwatch_exporter

alerting:

Alertmanagerに関する設定を行います。

alert_relabel_configs:

アラート通知の際のリラベリングを設定します。

[ - <relabel_config> ... ]

下記の<relabel_config>の説明を参照してください。

アラートのラベルを追加,変更したい場合に指定します。

alertmanagers:

アラート通知先のAlertmanagerを設定します。

[ - <alertmanager_config> ... ]

下記の<alertmanager_config>の説明を参照してください。

アラート通知先として同居するAlertmanagerを指定します。

remote_write:

リモートライトに関する設定を行います。

url: <string>

リモートライトの送信先エンドポイントを指定します。

<設定例>

remote_write:

- url: http://localhost:20727/ima/api/v1/proxy/service/promscale/write

同一ホスト上のimagentのリモートライトエンドポイントを指定します。

利用環境に合わせてホスト名とポート番号を変更します。

url: http://localhost:20727/ima/api/v1/proxy/service/promscale/write

[ remote_timeout: <duration> | default = 30s ]

リモートライトのタイムアウト時間を30秒から60分の範囲で指定します。

値は数字と単位で指定します。指定できる単位はs(秒)とm(分)です。

<設定例>

remote_write:

- url: http://localhost:20727/ima/api/v1/proxy/service/promscale/api/v1/write

remote_timeout: 1m

リモートライトがタイムアウトしてしまう場合は値を大きくしてください。

remote_timeout: 30s

write_relabel_configs:

リモートライト時のリラベリングを設定します。

[ - <relabel_config> ... ]

下記の<relabel_config>の説明を参照してください。

<設定例>

node_exporterコマンドで取得するnode_boot_time_secondsとnode_context_switches_totalをリモートライトしたくない場合の設定例を,次に示します。

remote_write:

- url: http://localhost:20727/ima/api/v1/proxy/service/promscale/api/v1/write

write_relabel_configs:

- source_labels: ['__name__']

regex: '(node_boot_time_seconds|node_context_switches_total)'

action: 'drop'

特定のメトリックをリモートライトしたくない場合に指定します。

[ send_exemplars: <boolean> | default = false ]

Exemplarsをリモートライトする場合に指定します。

send_exemplars: false

queue_config:

リモートライト用のキューを設定します。

[ capacity: <int> | default = 2500 ]

バッファリングするサンプル数を指定します。

capacity: 10000

[ min_shards: <int> | default = 1 ]

リモートライトの並列実行数の下限を指定します。

min_shards: 4

[ max_samples_per_send: <int> | default = 500]

一度にまとめて送信するサンプルの最大数を指定します。

max_samples_per_send: 3000

[ batch_send_deadline: <duration> | default = 5s ]

キューに残ったサンプルをフラッシュするまでの待ち時間を指定します。

batch_send_deadline: 10s

[ min_backoff: <duration> | default = 30ms ]

送信リトライの待ち時間の下限を指定します。

min_backoff: 100ms

[ max_backoff: <duration> | default = 100ms ]

送信リトライの待ち時間の上限を指定します。

max_backoff: 10s

(凡例)

◎:設定必須 〇:変更可 △:変更不可 −:該当なし

注※

この値を初期値(1m)から変更する場合,メトリック定義ファイルのPromQL文で指定している範囲ベクトルセレクターの値(大括弧{ }で指定する時刻範囲)を見直してください。範囲ベクトルセレクターには,スクレイプ間隔の2倍以上の値を指定してください。2倍未満の値を指定すると,トレンド情報が取得できなかったり,一部の時刻のトレンド情報が取得できなかったりします。

また,Yet another cloudwatch exporterを使用して監視を行うときは,10m以上の値を指定しないでください。指定した場合,jddcreatetreeコマンドを実行したときに構成を取得できないことがあります。

(凡例)

〇:変更可 △:変更不可 −:該当なし

注※
  • jpc_nodeの場合

    - source_labels: ['__name__']

    regex: 'node_network_receive_bytes_total|node_network_transmit_bytes_total|node_disk_read_time_seconds_total|node_disk_write_time_seconds_total|node_boot_time_seconds|node_context_switches_total|node_cpu_seconds_total|node_disk_io_now|node_disk_io_time_seconds_total|node_disk_read_bytes_total|node_disk_reads_completed_total|node_disk_writes_completed_total|node_disk_written_bytes_total|node_filesystem_avail_bytes|node_filesystem_files|node_filesystem_files_free|node_filesystem_free_bytes|node_filesystem_size_bytes|node_intr_total|node_load1|node_load15|node_load5|node_memory_Active_file_bytes|node_memory_Buffers_bytes|node_memory_Cached_bytes|node_memory_Inactive_file_bytes|node_memory_MemAvailable_bytes|node_memory_MemFree_bytes|node_memory_MemTotal_bytes|node_memory_SReclaimable_bytes|node_memory_SwapFree_bytes|node_memory_SwapTotal_bytes|node_netstat_Icmp6_InMsgs|node_netstat_Icmp_InMsgs|node_netstat_Icmp6_OutMsgs|node_netstat_Icmp_OutMsgs|node_netstat_Tcp_InSegs|node_netstat_Tcp_OutSegs|node_netstat_Udp_InDatagrams|node_netstat_Udp_OutDatagrams|node_network_flags|node_network_iface_link|node_network_mtu_bytes|node_network_receive_errs_total|node_network_receive_packets_total|node_network_transmit_colls_total|node_network_transmit_errs_total|node_network_transmit_packets_total|node_time_seconds|node_uname_info|node_vmstat_pswpin|node_vmstat_pswpout'

    action: 'keep'

  • jpc_windowsの場合

    - source_labels: ['__name__']

    regex: 'windows_cs_physical_memory_bytes|windows_cache_copy_read_hits_total|windows_cache_copy_reads_total|windows_cpu_time_total|windows_logical_disk_free_bytes|windows_logical_disk_idle_seconds_total|windows_logical_disk_read_bytes_total|windows_logical_disk_read_latency_seconds_total|windows_logical_disk_read_seconds_total|windows_logical_disk_reads_total|windows_logical_disk_requests_queued|windows_logical_disk_size_bytes|windows_logical_disk_write_bytes_total|windows_logical_disk_write_latency_seconds_total|windows_logical_disk_write_seconds_total|windows_logical_disk_writes_total|windows_memory_available_bytes|windows_memory_cache_bytes|windows_memory_cache_faults_total|windows_memory_page_faults_total|windows_memory_pool_nonpaged_allocs_total|windows_memory_pool_paged_allocs_total|windows_memory_swap_page_operations_total|windows_memory_swap_pages_read_total|windows_memory_swap_pages_written_total|windows_memory_system_cache_resident_bytes|windows_memory_transition_faults_total|windows_net_bytes_received_total|windows_net_bytes_sent_total|windows_net_bytes_total|windows_net_packets_sent_total|windows_net_packets_received_total|windows_system_context_switches_total|windows_system_processor_queue_length|windows_system_system_calls_total'

    action: 'keep'

  • jpc_blackbox_httpの場合

    - source_labels: ['__name__']

    regex: 'probe_http_duration_seconds|probe_http_content_length|probe_http_uncompressed_body_length|probe_http_redirects|probe_http_ssl|probe_http_status_code|probe_ssl_earliest_cert_expiry|probe_ssl_last_chain_expiry_timestamp_seconds|probe_ssl_last_chain_info|probe_tls_version_info|probe_http_version|probe_failed_due_to_regex|probe_http_last_modified_timestamp_seconds|probe_success|probe_duration_seconds'

    action: 'keep'

  • jpc_blackbox_icmpの場合

    - source_labels: ['__name__']

    regex: 'probe_icmp_duration_seconds|probe_icmp_reply_hop_limit|probe_success|probe_duration_seconds'

    action: 'keep'

  • jpc_cloudwatchの場合

    - regex: 'tag_(jp1_pc_.*)'

    replacement: ${1}

    action: labelmap

    - regex: 'tag_(jp1_pc_.*)'

    action: 'labeldrop'

    - source_labels: ['__name__','jp1_pc_nodelabel']

    regex: '(aws_ec2_cpuutilization_average|aws_ec2_disk_read_bytes_sum|aws_ec2_disk_write_bytes_sum|aws_lambda_errors_sum|aws_lambda_duration_average|aws_s3_bucket_size_bytes_sum|aws_s3_5xx_errors_sum|aws_dynamodb_consumed_read_capacity_units_sum|aws_dynamodb_consumed_write_capacity_units_sum|aws_states_execution_time_average|aws_states_executions_failed_sum|aws_sqs_approximate_number_of_messages_delayed_sum|aws_sqs_number_of_messages_deleted_sum);.+$'

    action: 'keep'

(凡例)

〇:変更可 △:変更不可 −:該当なし

(凡例)

〇:変更可 −:該当なし

(凡例)

◎:設定必須 △:変更不可 −:該当なし