Hitachi

Hitachi Microservices Platform - Paxos Commit Transaction Orchestrator ユーザーズガイド


9.6.1 障害の原因および対策

障害の種類と原因、対策について説明します。

〈この項の構成〉

(1) メッセージログ

メッセージログに関する障害の種類と対策を次の表に示します。

表9‒52 メッセージログに関する障害の種類と対策

項番

障害の種類

現象

主な原因

対策

1

メッセージが出力されない

標準出力にHMP-PCTOのメッセージが出力されない(または、Kibanaなどのログ可視化ツールでHMP-PCTOのメッセージが出力されない)

HMP-PCTOのアプリケーションが動作していない

HMP-PCTOのPodが動作していることを確認してください。

誤って削除したなどの要因で、既定のディレクトリに製品提供のlogback-spring.xmlがない

製品提供のlogback-spring.xmlを既定のディレクトリに配置してください。

コンテナのLogging Driverの障害

コンテナの設定でLogging Driverがデフォルトの「json-file」であることを確認してください。

  • FilebeatのLogstashへの送信に失敗している

  • LogstashからElasticsearchへの送信に失敗している

Filebeat、Logstash、Elasticsearchの状態を確認し、再起動してください。

可視化ツールの設定ミス

可視化ツールの設定を見直してください。

可視化ツールへアクセスするURLが誤っている

URLが正しいかどうか確認してください。

Elasticsearchの容量が不足している

各コンポーネントを一旦停止し、Elasticsearchの容量を拡大し、再度各コンポーネントを開始してください。

イベントリソースにHMP-PCTOのメッセージが出力されない(ライフサイクルイベントハンドラで実行されたHMP-PCTOのシェルスクリプトが出力する)

ライフサイクルイベントハンドラでHMP-PCTOのシェルスクリプトが実行されていない(シェルスクリプトが実行されている場合、KFSG82102-Iがイベンドリソースに出力される)

livenessProbe、およびreadinessProbeが正しく設定されていることを確認してください。

2

プロセスダウン

KFSG74103-Eが出力された(「ロガーがメッセージプロパティファイルを取得できませんでした。」)

誤って削除したなどの要因で、既定のディレクトリに製品提供の「hmppcto_messages.properties」がない

製品提供の「hmppcto_messages.properties」を既定のディレクトリに配置してください。

(2) 分散トレース

分散トレースに関する障害の種類と対策を次の表に示します。

表9‒53 分散トレースに関する障害の種類と対策

項番

障害の種類

現象

主な原因

対策

1

分散トレースの情報が出力されない

  • Jaeger-UIに、HMP-PCTOの分散トレースの情報が出力されない

  • 標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される

HMP-PCTOのアプリケーションが動作していない

HMP-PCTOのPodが動作していることを確認してください。

HMP-PCTOのPodからJaeger-collectorへの送信が失敗している(左記の「WARNING〜」が出力されている)

HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、Jaeger-collectorのホスト名・ポートと合っているか確認してください。

Jaeger-collectorからElasticsearchへの送信が失敗している

Jaeger-collectorおよびElasticsearchの状態を確認し、再起動してください。

Jaeger-collectorで内部キューあふれが発生し、分散トレース情報のdropが発生している

Jaeger-collectorを一度アンデプロイします。その後、Jaeger-collectorの内部キューの容量の設定(「(1) Helmチャートのパラメタ」のcollector.queueSize)で内部キューのサイズを変更し、再度Jaeger-collectorをデプロイしてください。

Jaeger-queryのPodが動作していない

Jaeger-queryの状態を確認し、再起動してください。

Jaeger-UIへアクセスするURLが誤っている

URLが正しいかどうか確認してください。

(3) メトリクス

メトリクスに関する障害の種類と対策を次の表に示します。

表9‒54 メトリクスに関する障害の種類と対策

項番

障害の種類

現象

主な原因

対策

1

メトリクスの情報が出力されない

Prometheus-UIに、HMP-PCTOのメトリクスの情報が出力されない

  • HMP-PCTOのアプリケーションが動作していない

  • Prometheus-serverが動作していない

HMP-PCTOやPrometheus-serverのPodが動作していることを確認してください。

Prometheus-serverが、HMP-PCTOのメトリクス情報の収集に失敗している

Prometheus-serverの設定(「(1) Helmチャートのパラメタ」)を見直してください。

Prometheus-UIへアクセスするURLが誤っている

URLが正しいかどうか確認してください。

Prometheus-serverが何らかの要因で再起動した

Elasticsearchに登録されたメトリクスの情報を、Kibanaなどの可視化ツールで参照してください。

ElasticsearchにあるHMP-PCTOのメトリクスの情報が、Kibanaなどの可視化ツールで出力されない

  • Prometheus-serverからMetricbeatへの送信が失敗している

  • MetricbeatからElasticsearchへの送信が失敗している

Prometheus-server、Metricbeat、Elasticsearchの状態を確認し、再起動してください。

可視化ツールの設定ミス

可視化ツールの設定を見直してください。

可視化ツールへアクセスするURLが誤っている

URLが正しいかどうか確認してください。