12.5.1 障害の切り分け方法
Prometheus server,Alertmanager,Blackbox exporterの各ログが出力するメッセージに対する原因と対処を,次に示します。各ログの格納先については,「12.2.2 JP1/IM - Agentのログ情報」を参照してください。
- 〈この項の構成〉
(1) Prometheus serverのログ
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
msg="Error on ingesting samples that are too old or are too far into the future" |
システム時刻を過去に変更した。 |
変更前の時刻になるまで待ってください。 |
|
msg="Append failed" err="out of bounds" |
||
|
msg="Appending scrape report failed" err="out of bounds" |
||
|
component=remote msg="Failed to send batch, retrying" |
JP1/IM - Managerホストが高負荷などで,Prometheusから性能情報を送信できなかった。 |
JP1/IM - Managerホストの負荷状況を確認してください。 |
|
JP1/IM - Managerホストとの接続が確立されていないか,または不安定な状況だった。 |
JP1/IM - Managerホストとの接続状況を確認してください。 |
|
|
JP1/IM - Managerのサービスが起動していなかった。 |
JP1/IM - Managerのサービスの起動状態を確認してください。 |
|
|
JP1/IM - Managerのサービスからエラーを示すHTTPレスポンスが返却された。 |
JP1/IM - Managerのサービス側でエラーが発生していないか確認してください。 |
|
|
Prometheus設定ファイル(jpc_prometheus_server.yml)に指定したリモートライト先が誤っていた。 |
Prometheus設定ファイル(jpc_prometheus_server.yml)の指定内容を見直してください。 |
|
|
msg="Skipping resharding, last successful send was beyond threshold" |
JP1/IM - Managerホストの負荷状況,接続状況などの理由で,Prometheusから性能情報の送信に失敗のときに,しきい値に達しているため,再度の負荷分散を省略した。 |
JP1/IM - Managerホストの負荷状況,接続状況を確認してください。 |
|
msg="Error sending alert" |
Alertmanagerが停止していた。 |
Alertmanagerを起動してください。 |
|
Alertmanagerからエラーを示すHTTPレスポンスが返却された。 |
Alertmanager側でエラーが発生していないか確認してください。 |
|
|
Prometheus設定ファイル(jpc_prometheus_server.yml)に指定したアラート通知先が誤っていた。 |
Prometheus設定ファイル(jpc_prometheus_server.yml)の指定内容を見直してください。 |
|
|
msg="Scrape failed" |
Exporterが停止しているため,スクレイプに失敗した。 |
Exporterを起動してください。 |
|
ディスカバリ設定ファイル(file_sd_config_*.yml)に存在しないホスト名を指定したため,スクレイプに失敗した。 |
ディスカバリ設定ファイル(file_sd_config_*.yml)の指定内容を見直してください。 |
|
|
スクレイプ先からエラーを示すHTTPレスポンスが返却された。 |
スクレイプ先でエラーが発生していないか確認してください。 |
|
|
msg="Unable to start web listener" |
コマンドラインオプション--web.listen-addressに,不正なホスト名を指定した。 |
正しいホスト名を指定してください。 |
|
コマンドラインオプション--web.listen-addressに,すでに使用されているポートを指定した。 |
使用されていないポートを指定してください。 |
|
|
msg="Error loading config (--config.file=jpc_prometheus_server.yml)" msg="Error reading file" |
Prometheus設定ファイル(jpc_prometheus_server.yml)の期間を指定する項目に不正な値を指定した。 |
errに表示されている不正な行番号または項目名を確認して,Prometheus設定ファイル(jpc_prometheus_server.yml)の指定内容を見直してください。 |
|
Prometheus設定ファイル(jpc_prometheus_server.yml)の書式に従っていなかった。 |
||
|
Prometheus設定ファイル(jpc_prometheus_server.yml)のjob_nameに値を指定していなかった。 |
(2) Alertmanagerのログ
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
JP1/IM - Managerホストが高負荷などで,Alertmanagerからアラートを送信できなかった。 |
JP1/IM - Managerホストの負荷状況を確認してください。 |
|
JP1/IM - Managerホストとの接続が確立されていないか,または不安定な状況だった。 |
JP1/IM - Managerホストとの接続状況を確認してください。 |
|
|
JP1/IM - Managerのサービスが起動していなかった。 |
JP1/IM - Managerのサービスの起動状態を確認してください。 |
|
|
JP1/IM - Managerのサービスからエラーを示すHTTPレスポンスが返却された。 |
JP1/IM - Managerのサービス側でエラーが発生していないか確認してください。 |
|
|
Alertmanager設定ファイル(alertmanager.yml)に指定したアラート送信先が誤っていた。 |
Alertmanager設定ファイル(alertmanager.yml)の指定内容を見直してください。 |
|
|
msg="Loading configuration file failed" |
Alertmanager設定ファイル(alertmanager.yml)の指定内容が不正であった。 |
errに記載されている内容を確認して,Alertmanager設定ファイル(alertmanager.yml)の指定内容を見直してください。 |
|
msg="Listen error" |
コマンドラインオプション--web.listen-addressに,不正なホスト名を指定した。 |
正しいホスト名を指定してください。 |
|
コマンドラインオプション--web.listen-addressに,すでに使用されているポートを指定した。 |
使用されていないポートを指定してください。 |
(3) blackbox_exporterのログ
blackbox_exporterで,次のようなログを採取するには,ログレベルを「debug」にする必要があります。
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
msg=" Unable to do unprivileged listen on socket, will attempt privileged " err=" socket: permission denied" |
カーネルパラメーター「net.ipv4.ping_group_range」で,pingソケットを生成するための権限がない状態で,ソケットを生成するときに発生します。これは特権ユーザー(root)でも発生します。 |
メッセージの出力後,特権ユーザー(root)の権限でICMPのソケットを生成して継続するため,このメッセージは無視して問題ありません。 また,このメッセージを抑止するためだけに,カーネルパラメーター「net.ipv4.ping_group_range」を設定して,権限を付与することは推奨しません。 |
|
module=icmp msg="Timeout reading from socket" |
Blackbox exporter(ICMP監視)のディスカバリ設定ファイル(file_sd_config_blackbox_icmp.yml)に指定した監視対象のホストが停止しているため,ICMPプローブが失敗した。 |
Blackbox exporter(ICMP監視)のディスカバリ設定ファイル(file_sd_config_blackbox_icmp.yml)の指定内容を見直してください。 |
|
module=icmp msg="Resolution with IP protocol failed" |
Blackbox exporter(ICMP監視)のディスカバリ設定ファイル(file_sd_config_blackbox_icmp.yml)に,存在しないホスト名を指定したため,ICMPプローブが失敗した。 |
Blackbox exporter(ICMP監視)のディスカバリ設定ファイル(file_sd_config_blackbox_icmp.yml)の指定内容を見直してください。 |
|
module=http msg="Error for HTTP request" |
Blackbox exporter(HTTP/HTTPS監視)のディスカバリ設定ファイル(file_sd_config_blackbox_http.yml)に指定した監視対象のホストが停止していた。 |
Blackbox exporter(HTTP/HTTPS監視)のディスカバリ設定ファイル(file_sd_config_blackbox_http.yml)の指定内容を見直してください。 |
|
Blackbox exporter(HTTP/HTTPS監視)のディスカバリ設定ファイル(file_sd_config_blackbox_http.yml)に指定した監視対象のサービスが停止していた。 |
||
|
Blackbox exporter(HTTP/HTTPS監視)のディスカバリ設定ファイル(file_sd_config_blackbox_http.yml)のmodules.モジュール名.http.basic_auth.password_fileに,存在しないパスを指定した。 |
||
|
module=http msg="Error resolving address" |
Blackbox exporter(HTTP/HTTPS監視)のディスカバリ設定ファイル(file_sd_config_blackbox_http.yml)に,存在しないホスト名を指定した。 |
Blackbox exporter(HTTP/HTTPS監視)のディスカバリ設定ファイル(file_sd_config_blackbox_http.yml)の指定内容を見直してください。 |
|
module=http msg="Failed to get decompressor for HTTP response body" |
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.http.basic_auth.usernameに指定したユーザー名が不正なため,HTTPプローブに失敗した。 |
Blackbox exporter設定ファイル(blackbox_exporter.yml)の指定内容を見直してください。 |
|
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.http.basic_auth.passwordに指定したパスワードが不正なため,HTTPプローブに失敗した。 |
||
|
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.http.basic_auth.bearer_tokenが不正なため,HTTPプローブに失敗した。 |
||
|
module=icmp msg="Error listening to socket" |
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.icmp.source_ip_addressに,不正なIPアドレスを指定した。 |
Blackbox exporter設定ファイル(blackbox_exporter.yml)の指定内容を見直してください。 |
|
module=http msg="Error generating HTTP client" |
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.http.tls_config.ca_fileに指定したパスが存在しないため,HTTPプローブに失敗した。 |
Blackbox exporter設定ファイル(blackbox_exporter.yml)の指定内容を見直してください。 |
|
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.http.tls_config.cert_fileに指定したパスが存在しないため,HTTPプローブに失敗した。 |
||
|
Blackbox exporter設定ファイル(blackbox_exporter.yml)のmodules.モジュール名.http.tls_config.key_fileに指定したパスが存在しないため,HTTPプローブに失敗した。 |
||
|
msg="Error loading config" |
Blackbox exporter設定ファイル(blackbox_exporter.yml)の数値を指定する項目に,不正な値を指定した。 |
errに表示されている不正な行番号または項目名を確認して,Blackbox exporter設定ファイル(blackbox_exporter.yml)の指定内容を見直してください。 |
|
Blackbox exporter設定ファイル(blackbox_exporter.yml)の正規表現を指定する項目に,不正な値を指定した。 |
||
|
Blackbox exporter設定ファイル(blackbox_exporter.yml)のboolean型の値を指定する項目に,不正な文字列を指定した。 |
||
|
module=icmp msg="Failed to set Control Message for retrieving TTL" err=" not implemented on windows/amd64 " (省略) module=icmp msg=" Cannot get TTL from the received packet. 'probe_icmp_reply_hop_limit' will be missing. " |
Windows環境で,Blackbox exporter(ICMP監視)のディスカバリ設定ファイル(file_sd_config_blackbox_icmp.yml)を設定してICMP監視を行っている。 |
対処不要です。 |
(4) node_exporterのログ
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
err="listen tcp: lookup ホスト名 on DNS: no such host" |
コマンドラインオプション--web.listen-addressに,不正なホスト名を指定した。 |
正しいホスト名を指定してください。 |
|
err="listen tcp :ポート: bind: address already in use" |
コマンドラインオプション--web.listen-addressに,すでに使用されているポートを指定した。 |
使用されていないポートを指定してください。 |
|
msg="Parsed flag --collector.filesystem.オプション名" flag=[aaa panic: regexp: Compile(`[aaa`): error parsing regexp: missing closing ]: `[aaa` |
コマンドラインオプションに,不正な正規表現を指定した。 |
コマンドラインオプションを見直してください。 |
(5) windows_exporterのログ
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
msg="cannot start windows_exporter: listen tcp: lookup ホスト名: no such host" |
コマンドラインオプション--telemetry.addrに,不正なホスト名を指定した。 |
コマンドラインオプションを見直してください。 |
|
msg="cannot start windows_exporter: listen tcp :ポート: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted." |
コマンドラインオプション--telemetry.addrに,すでに使用されているポートを指定した。 |
コマンドラインオプションを見直してください。 |
|
msg="Loading configuration file: windows_exporter.yml" |
Windows exporter設定ファイル(windows_exporter.yml)の正規表現を指定する項目に,不正な正規表現を指定した。 |
Windows exporter設定ファイル(windows_exporter.yml)の指定内容を見直してください。 |
|
Windows exporter設定ファイル(windows_exporter.yml)の数値を指定する項目に,不正な値を指定した。 |
(6) ya_cloudwatch_exporterのログ
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
"msg": "Couldn't get account Id for role : NoCredentialProviders:〜" |
~/.aws/credentialsが存在しないため,CloudWatchからのデータ取得に失敗した。 |
credentialsファイルを配置してください。 |
|
"msg":"Couldn't get account Id for role : InvalidClientTokenId:〜" |
~/.aws/credentialsに記載されているAccess Key IDが不正なため,CloudWatchからのデータ取得に失敗した。 |
credentialsファイルの記載内容を見直してください。 |
|
"msg":"Couldn't get account Id for role : SignatureDoesNotMatch: 〜" |
~/.aws/credentialsに記載されているSecret Access Keyが不正なため,CloudWatchからのデータ取得に失敗した。 |
credentialsファイルの記載内容を見直してください。 |
|
"msg":"Couldn't describe resources for region リージョン名:〜" |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)のdiscovery.jobs.regionsに,存在しないAWSリージョンを指定した。 |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)の指定内容を見直してください。 |
|
"msg":"Couldn't read config.yml: Discovery job [0]: Service is not in known list!: AWSサービス名" |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)のdiscovery.jobs.typeに,存在しないAWSサービスを指定した。 |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)の指定内容を見直してください。 |
|
"msg":"Couldn't read config.yml: yaml: unmarshal errors:〜" |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)の数値を指定する項目に,不正な値を指定した。 |
msgに表示されている不正な行番号または項目名を確認して,Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)の指定内容を見直してください。 |
|
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)の書式に従っていない。 |
||
|
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)のboolean型の値を指定する項目に,不正な文字列を指定した。 |
||
|
"msg":"Couldn't read config.yml: Metric [/0] in Discovery job [ジョブ名]: Name should not be empty" |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)のdiscovery.jobs.metrics.nameに,値を指定していない。 |
Yet another cloudwatch exporter設定ファイル(ya_cloudwatch_exporter.yml)の指定内容を見直してください。 |
(7) Fluentdのログ
|
メッセージ |
原因 |
対処 |
|---|---|---|
|
error="tail: 'path' parameter is required on tail input" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのpathを指定しなかった。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="Unsupported timezone〜" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのtimezoneに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="specifying timezone requires time format" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのtime_formatを指定せずに,timezoneに値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="valid options are string,unixtime,float,mixed but got 〜" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのtime_typeに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="unknown encoding name〜" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのfrom_encodingに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="No named captures in 'expression' parameter. The regexp must have at least one named capture" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのexpressionに名前付きキャプチャ(?<NAME> PATTERN)が含まれない正規表現を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="format should be Regexp, need //,〜” |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのログを解析する正規表現に正規表現をデリミタ(/)で挟まずに指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="valid options are rfc3164,rfc5424,auto but got 〜” |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのmessage_formatに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="'with_priority' parameter is required but 〜 is specified" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのwith_priorityに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
"valid options are regexp,string but got〜" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのparser_typeに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="'support_colonless_ident' parameter is required but 〜 is specified" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションのsupport_colonless_identに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
got incomplete JSON array configuration at 〜(Fluent::ConfigParseError) |
テキスト形式のログファイルの監視定義ファイルで,[Inclusion Settings]セクションまたは,[Exclusion Settings]セクションのpatternに正規表現をデリミタ(/)で挟まずに指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="Plugin 'tail' does not support multi workers configuration (Fluent::Plugin::TailInput)" |
テキスト形式のログファイルの監視定義ファイルで,workersパラメータを2以上の数に指定した場合で,workerのidを複数指定した。または,workersパラメータを2以上の数に指定した場合で, <worker>ディレクティブを指定しなかった。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="Unknown parser plugin 〜. Run 'gem search -rd fluent-plugin' to find plugins" |
テキスト形式のログファイルの監視定義ファイルで,[Input Settings]セクションの<parse>ディレクティブの@typeに不正な値を指定した。 |
テキスト形式のログファイルの監視定義ファイルを見直してください。 |
|
error="Invalid Bookmark XML is loaded.〜" |
Windowsイベントログの監視定義ファイルで,[Input Settings]セクションのchannelsに不正な値を指定した。 |
Windowsイベントログの監視定義ファイルを見直してください。 |
|
error="Plugin 'windows_eventlog2' does not support multi workers configuration (Fluent::Plugin::WindowsEventLog2Input)" |
Windowsイベントログの監視定義ファイルで,workersパラメータを2以上の数に指定した場合で,workerのidを複数指定した。または,workersパラメータを2以上の数に指定した場合で, <worker>ディレクティブを指定しなかった。 |
Windowsイベントログの監視定義ファイルを見直してください。 |
|
error="valid options are throw_exception,block,drop_oldest_chunk but got〜" |
ログ監視共通定義ファイルで,[Output Settings]セクションのoverflow_actionに不正な値を指定した。 |
ログ監視共通定義ファイルを見直してください。 |
|
valid options are trace,debug,info,warn,error,fatal but got〜(Fluent::ConfigParseError) |
ログ監視共通定義ファイルで,[System Settings]セクションのlog_levelに不正な値を指定した。 |
ログ監視共通定義ファイルを見直してください。 |
|
invalid number of workers (must be > 0):0 (Fluent::ConfigError) |
ログ監視共通定義ファイルで,[System Settings]セクションのworkersパラメータに不正な値を指定した。 |
ログ監視共通定義ファイルを見直してください。 |
|
error="greater first_worker_id<1> than last_worker_id<0> specified by <worker> directive is not allowed. Available multi worker assign syntax is <smaller_worker_id>-<greater_worker_id>" |
ログ監視共通定義ファイルで,<worker N-M>ディレクティブにおいてN>Mとなる数値を指定した。 |
ログ監視共通定義ファイルを見直してください。 |
|
error="worker id 〜 specified by <worker> directive is not allowed. Available worker id is between 〜" |
ログ監視共通定義ファイル,テキスト形式のログファイルの監視定義ファイル,Windowsイベントログの監視定義ファイルのいずれかで,workersパラメータの値を超える範囲で,<worker>ディレクティブの引数を指定した。または,workersパラメータを指定せずに,<worker N-M>ディレクティブまたは<worker>ディレクティブの引数に0以外のidを指定した。 |
ログ監視共通定義ファイル,テキスト形式のログファイルの監視定義ファイル,Windowsイベントログの監視定義ファイルを見直してください。 |
|
error="Missing worker id on <worker> directive" |
ログ監視共通定義ファイル,テキスト形式のログファイルの監視定義ファイル,Windowsイベントログの監視定義ファイルのいずれかで,<worker>ディレクティブの引数にworkerのidを指定しなかった。 |
ログ監視共通定義ファイル,テキスト形式のログファイルの監視定義ファイル,Windowsイベントログの監視定義ファイルを見直してください。 |
|
[error]: failed to read data from plugin storage file path=〜 |
storageファイルが破損している。 |
storageファイルを削除してから起動してください。 |
|
Not a directory @ dir_s_mkdir - 〜 (Errno::ENOTDIR) |
不正な監視名を設定した。 |
監視名を見直してください。 |