11.7.1　障害の原因および対策

障害の種類と原因、対策について説明します。

〈この項の構成〉

(1)　メッセージログ
(2)　分散トレース
(3)　メトリクス

(1)　メッセージログ

(a)　共通

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒56　メッセージログに関する障害の種類と対策
項番	障害の種類	現象	主な原因	対策
1	メッセージが出力されない	標準出力にHMP-PCTOのメッセージが出力されない	HMP-PCTOのアプリケーションが動作していない	HMP-PCTOのPodが動作していることを確認してください。
			誤って削除したなどの要因で、既定のディレクトリに製品提供のlogback-spring.xmlがない	製品提供のlogback-spring.xmlを既定のディレクトリに配置してください。
			コンテナのLogging Driverの障害	コンテナの設定でLogging Driverがデフォルトの「json-file」であることを確認してください。
		イベントリソースにHMP-PCTOのメッセージが出力されない（ライフサイクルイベントハンドラで実行されたHMP-PCTOのシェルスクリプトが出力する）	ライフサイクルイベントハンドラでHMP-PCTOのシェルスクリプトが実行されていない（シェルスクリプトが実行されている場合、KFSG82102-Iメッセージがイベントリソースに出力される）	livenessProbe、およびreadinessProbeが正しく設定されていることを確認してください。
2	プロセスダウン	KFSG74103-Eメッセージが出力された（「ロガーがメッセージプロパティファイルを取得できませんでした。」）	誤って削除したなどの要因で、既定のディレクトリに製品提供の「hmppcto_messages.properties」がない	製品提供の「hmppcto_messages.properties」を既定のディレクトリに配置してください。

(b)　Elastic Stack使用環境の場合

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒57　メッセージログに関する障害の種類と対策（Elastic Stack使用環境の場合）
項番	障害の種類	現象	主な原因	対策
1	メッセージが出力されない	Kibanaなどのログ可視化ツールでHMP-PCTOのメッセージが出力されない	FilebeatのLogstashへの送信に失敗している LogstashからElasticsearchへの送信に失敗している	Filebeat、Logstash、Elasticsearchの状態を確認し、再起動してください。
			可視化ツールの設定ミス	可視化ツールの設定を見直してください。
			可視化ツールにアクセスするURLが誤っている	URLが正しいかどうか確認してください。
			Elasticsearchの容量が不足している	各コンポーネントをいったん停止し、Elasticsearchの容量を拡大してから、再度、各コンポーネントを開始してください。

(c)　Microsoft Azure環境の場合

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒58　メッセージログに関する障害の種類と対策（Microsoft Azure環境の場合）
項番	障害の種類	現象	主な原因	対策
1	メッセージが出力されない	Microsoft Azureポータル上でHMP-PCTOのメッセージを確認できない	リソースグループ内にLog Analyticsワークスペースが作成されていない	Microsoft Azureポータルからリソースグループ内にLog Analyticsワークスペースを作成してください。
			AKSクラスタがLog Analyticsワークスペースに接続されていない	AzureポータルまたはAzure CLIを使用して、AKSクラスタのモニタリングを有効化し、Log Analyticsワークスペースに接続してください。
			Azure Monitor Agentがデプロイされていない	AKSクラスタ内でAzure Monitor Agentがデプロイされていることを確認してください。
			Log Analyticsワークスペースへのアクセス権がない	利用ユーザに適切なアクセス権限を設定してください。
			メッセージログの検索クエリに誤りがある	Kustoの形式に沿った検索クエリが使用されていることを確認してください。

(d)　Google Cloud Platform環境の場合

特になし。

(e)　New Relic使用時の場合

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒59　メッセージログに関する障害の種類と対策（New Relic使用時の場合）
項番	障害の種類	現象	主な原因	対策
1	メッセージが出力されない	New Relic UI上でHMP-PCTOのメッセージを確認できない	New RelicのKubernetes integrationのコンポーネントがデプロイされていない	Kubernetesクラスタ内にKubernetes integrationコンポーネントがデプロイされていることを確認してください。

ページの先頭へ

(2)　分散トレース

(a)　共通

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒60　分散トレースに関する障害の種類と対策
項番	障害の種類	現象	主な原因	対策
1	分散トレースの情報が出力されない	JaegerのWeb UIに、HMP-PCTOの分散トレースの情報が出力されない	HMP-PCTOのアプリケーションが動作していない	HMP-PCTOのPodが動作していることを確認してください。

(b)　Elastic StackおよびJaeger使用環境の場合

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒61　分散トレースに関する障害の種類と対策（Elastic StackおよびJaeger使用環境の場合）
項番	障害の種類	現象	主な原因	対策
1	分散トレースの情報が出力されない	JaegerのWeb UIに、HMP-PCTOの分散トレースの情報が出力されない標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される	HMP-PCTOのPodからJaeger-collectorへの送信が失敗している（左記の「WARNING〜」が出力されている）	HMP-PCTOの、分散トレースの送信先の設定（「(1)　jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url）で指定するURLが、Jaeger-collectorのホスト名・ポートと合っているか確認してください。
			Jaeger-collectorからElasticsearchへの送信が失敗している	Jaeger-collectorおよびElasticsearchの状態を確認し、再起動してください。
			Jaeger-collectorで内部キューあふれが発生し、分散トレース情報のdropが発生している	Jaeger-collectorを一度アンデプロイします。その後、Jaeger-collectorの内部キューの容量の設定（「(1)　Helmチャートのパラメタ」のcollector.queueSize）で内部キューのサイズを変更し、再度Jaeger-collectorをデプロイしてください。
			Jaeger-queryのPodが動作していない	Jaeger-queryの状態を確認し、再起動してください。
			JaegerのWeb UIにアクセスするURLが誤っている	URLが正しいかどうか確認してください。

(c)　Microsoft Azure環境の場合

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒62　分散トレースに関する障害の種類と対策（Microsoft Azure環境の場合）
項番	障害の種類	現象	主な原因	対策
1	分散トレースの情報が出力されない	Microsoft Azureポータル上で分散トレースを確認できない標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される	HMP-PCTOのPodからの分散トレースの送信が失敗している（左記の「WARNING〜」が出力されている）	HMP-PCTOの、分散トレースの送信先の設定（「(1)　jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url）で指定するURLが、AzureポータルのApplication Insights上で確認可能な接続文字列と一致しているか確認してください。
			リソースグループ内にApplication Insightsインスタンスが作成されていない	Microsoft Azureポータルからリソースグループ内にApplication Insightsインスタンスを作成してください。
			Application Insightsインスタンスへのアクセス権がない	利用ユーザに適切なアクセス権限を設定してください。

(d)　Google Cloud Platform環境の場合

特になし。

(e)　New Relic使用時の場合

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒63　分散トレースに関する障害の種類と対策（New Relic使用時の場合）
項番	障害の種類	現象	主な原因	対策
1	分散トレースの情報が出力されない	New Relic UI上で分散トレースを確認できない標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される	HMP-PCTOのPodからの分散トレースの送信が失敗している（左記の「WARNING〜」が出力されている）	HMP-PCTOの、分散トレースの送信先の設定（「(1)　jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url）で指定するURLが、OpenTelemetry Collectorのホスト名およびポートと合っているかを確認してください。
1	分散トレースの情報が出力されない		New Relicへ送信する設定が誤っている	New Relic OTLPエンドポイントおよびNew Relicのライセンスキーが正しいかどうか確認してください。

ページの先頭へ

(3)　メトリクス

(a)　共通

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒64　メトリクスに関する障害の種類と対策
項番	障害の種類	現象	主な原因	対策
1	メトリクスの情報が出力されない	PrometheusのWeb UIに、HMP-PCTOのメトリクスの情報が出力されない	HMP-PCTOのアプリケーションが動作していない	HMP-PCTOのPodが動作していることを確認してください。

(b)　Elastic StackおよびPrometheus使用環境の場合

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒65　メトリクスに関する障害の種類と対策（Elastic StackおよびPrometheus使用環境の場合）
項番	障害の種類	現象	主な原因	対策
1	メトリクスの情報が出力されない	PrometheusのWeb UIに、HMP-PCTOのメトリクスの情報が出力されない	Prometheus-Serverが動作していない	Prometheus-ServerのPodが動作していることを確認してください。
			Prometheus-Serverが、HMP-PCTOのメトリクス情報の収集に失敗している	Prometheus-Serverの設定（「9.3.8　Prometheus」）を見直してください。
			PrometheusのWeb UIにアクセスするURLが誤っている	URLが正しいかどうか確認してください。
			Prometheus-Serverが何らかの要因で再起動した	Elasticsearchに登録されたメトリクスの情報を、Kibanaなどの可視化ツールで参照してください。
		ElasticsearchにあるHMP-PCTOのメトリクスの情報が、Kibanaなどの可視化ツールで出力されない	Prometheus-ServerからMetricbeatへの送信が失敗している MetricbeatからElasticsearchへの送信が失敗している	Prometheus-Server、Metricbeat、Elasticsearchの状態を確認し、再起動してください。
			可視化ツールの設定ミス	可視化ツールの設定を見直してください。
			可視化ツールにアクセスするURLが誤っている	URLが正しいかどうか確認してください。

(c)　Microsoft Azure環境の場合

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒66　メトリクスに関する障害の種類と対策（Microsoft Azure環境の場合）
項番	障害の種類	現象	主な原因	対策
1	メトリクスの情報が出力されない	Microsoft Azureポータル上でHMP-PCTOのメトリクスの情報を確認できない	Azure Monitor Agentがデプロイされていない	AKSクラスタ内でAzure Monitor Agentがデプロイされていることを確認してください。
			リソースグループ内にAzure Monitorワークスペースが作成されていないリソースグループ内にGrafanaワークスペースが作成されていない	Microsoft Azureポータルからリソースグループ内に対応するワークスペースを作成してください。
			Application Insightsインスタンスへのアクセス権がない	利用ユーザに適切なアクセス権限を設定してください。

(d)　Google Cloud Platform環境の場合

特になし。

(e)　New Relic使用時の場合

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒67　メトリクスに関する障害の種類と対策（New Relic使用時の場合）
項番	障害の種類	現象	主な原因	対策
1	メトリクスの情報が出力されない	New Relic UI上でHMP-PCTOのメトリクスの情報を確認できない	nri-prometheusコンポーネントがデプロイされていない	Kubernetesクラスタ内にnri-prometheusコンポーネントがデプロイされていることを確認してください。
1	メトリクスの情報が出力されない	New Relic UI上でHMP-PCTOのメトリクスの情報を確認できない	HMP-PCTOのPodがメトリクスの収集対象になっていない	HMP-PCTOのKubernetesマニフェストに設定されたアノテーションprometheus.io/*の値を確認してください。アノテーションの詳細については、システム編「3.7.13　New Relicによるメトリクス収集のKubernetesマニフェスト作成」を参照してください。

ページの先頭へ

11.7.1 障害の原因および対策

(1) メッセージログ

(a) 共通

(b) Elastic Stack使用環境の場合

(c) Microsoft Azure環境の場合

(d) Google Cloud Platform環境の場合

(e) New Relic使用時の場合

(2) 分散トレース

(a) 共通

(b) Elastic StackおよびJaeger使用環境の場合

(c) Microsoft Azure環境の場合

(d) Google Cloud Platform環境の場合

(e) New Relic使用時の場合

(3) メトリクス

(a) 共通

(b) Elastic StackおよびPrometheus使用環境の場合

(c) Microsoft Azure環境の場合

(d) Google Cloud Platform環境の場合

(e) New Relic使用時の場合

11.7.1　障害の原因および対策

(1)　メッセージログ

(a)　共通

(b)　Elastic Stack使用環境の場合

(c)　Microsoft Azure環境の場合

(d)　Google Cloud Platform環境の場合

(e)　New Relic使用時の場合

(2)　分散トレース

(a)　共通

(b)　Elastic StackおよびJaeger使用環境の場合

(c)　Microsoft Azure環境の場合

(d)　Google Cloud Platform環境の場合

(e)　New Relic使用時の場合

(3)　メトリクス

(a)　共通

(b)　Elastic StackおよびPrometheus使用環境の場合

(c)　Microsoft Azure環境の場合

(d)　Google Cloud Platform環境の場合

(e)　New Relic使用時の場合