Hitachi

Hitachi Microservices Platform - Paxos Commit Transaction Orchestrator ユーザーズガイド


11.7.1 障害の原因および対策

障害の種類と原因、対策について説明します。

〈この項の構成〉

(1) メッセージログ

(a) 共通

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒56 メッセージログに関する障害の種類と対策

項番

障害の種類

現象

主な原因

対策

1

メッセージが出力されない

標準出力にHMP-PCTOのメッセージが出力されない

HMP-PCTOのアプリケーションが動作していない

HMP-PCTOのPodが動作していることを確認してください。

誤って削除したなどの要因で、既定のディレクトリに製品提供のlogback-spring.xmlがない

製品提供のlogback-spring.xmlを既定のディレクトリに配置してください。

コンテナのLogging Driverの障害

コンテナの設定でLogging Driverがデフォルトの「json-file」であることを確認してください。

イベントリソースにHMP-PCTOのメッセージが出力されない(ライフサイクルイベントハンドラで実行されたHMP-PCTOのシェルスクリプトが出力する)

ライフサイクルイベントハンドラでHMP-PCTOのシェルスクリプトが実行されていない(シェルスクリプトが実行されている場合、KFSG82102-Iメッセージがイベントリソースに出力される)

livenessProbe、およびreadinessProbeが正しく設定されていることを確認してください。

2

プロセスダウン

KFSG74103-Eメッセージが出力された(「ロガーがメッセージプロパティファイルを取得できませんでした。」)

誤って削除したなどの要因で、既定のディレクトリに製品提供の「hmppcto_messages.properties」がない

製品提供の「hmppcto_messages.properties」を既定のディレクトリに配置してください。

(b) Elastic Stack使用環境の場合

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒57 メッセージログに関する障害の種類と対策(Elastic Stack使用環境の場合)

項番

障害の種類

現象

主な原因

対策

1

メッセージが出力されない

Kibanaなどのログ可視化ツールでHMP-PCTOのメッセージが出力されない

  • FilebeatのLogstashへの送信に失敗している

  • LogstashからElasticsearchへの送信に失敗している

Filebeat、Logstash、Elasticsearchの状態を確認し、再起動してください。

可視化ツールの設定ミス

可視化ツールの設定を見直してください。

可視化ツールにアクセスするURLが誤っている

URLが正しいかどうか確認してください。

Elasticsearchの容量が不足している

各コンポーネントをいったん停止し、Elasticsearchの容量を拡大してから、再度、各コンポーネントを開始してください。

(c) Microsoft Azure環境の場合

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒58 メッセージログに関する障害の種類と対策(Microsoft Azure環境の場合)

項番

障害の種類

現象

主な原因

対策

1

メッセージが出力されない

Microsoft Azureポータル上でHMP-PCTOのメッセージを確認できない

リソースグループ内にLog Analyticsワークスペースが作成されていない

Microsoft Azureポータルからリソースグループ内にLog Analyticsワークスペースを作成してください。

AKSクラスタがLog Analyticsワークスペースに接続されていない

AzureポータルまたはAzure CLIを使用して、AKSクラスタのモニタリングを有効化し、Log Analyticsワークスペースに接続してください。

Azure Monitor Agentがデプロイされていない

AKSクラスタ内でAzure Monitor Agentがデプロイされていることを確認してください。

Log Analyticsワークスペースへのアクセス権がない

利用ユーザに適切なアクセス権限を設定してください。

メッセージログの検索クエリに誤りがある

Kustoの形式に沿った検索クエリが使用されていることを確認してください。

(d) Google Cloud Platform環境の場合

特になし。

(e) New Relic使用時の場合

メッセージログに関する障害の種類と対策を次の表に示します。

表11‒59 メッセージログに関する障害の種類と対策(New Relic使用時の場合)

項番

障害の種類

現象

主な原因

対策

1

メッセージが出力されない

New Relic UI上でHMP-PCTOのメッセージを確認できない

New RelicのKubernetes integrationのコンポーネントがデプロイされていない

Kubernetesクラスタ内にKubernetes integrationコンポーネントがデプロイされていることを確認してください。

(2) 分散トレース

(a) 共通

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒60 分散トレースに関する障害の種類と対策

項番

障害の種類

現象

主な原因

対策

1

分散トレースの情報が出力されない

JaegerのWeb UIに、HMP-PCTOの分散トレースの情報が出力されない

HMP-PCTOのアプリケーションが動作していない

HMP-PCTOのPodが動作していることを確認してください。

(b) Elastic StackおよびJaeger使用環境の場合

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒61 分散トレースに関する障害の種類と対策(Elastic StackおよびJaeger使用環境の場合)

項番

障害の種類

現象

主な原因

対策

1

分散トレースの情報が出力されない

  • JaegerのWeb UIに、HMP-PCTOの分散トレースの情報が出力されない

  • 標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される

HMP-PCTOのPodからJaeger-collectorへの送信が失敗している(左記の「WARNING〜」が出力されている)

HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、Jaeger-collectorのホスト名・ポートと合っているか確認してください。

Jaeger-collectorからElasticsearchへの送信が失敗している

Jaeger-collectorおよびElasticsearchの状態を確認し、再起動してください。

Jaeger-collectorで内部キューあふれが発生し、分散トレース情報のdropが発生している

Jaeger-collectorを一度アンデプロイします。その後、Jaeger-collectorの内部キューの容量の設定(「(1) Helmチャートのパラメタ」のcollector.queueSize)で内部キューのサイズを変更し、再度Jaeger-collectorをデプロイしてください。

Jaeger-queryのPodが動作していない

Jaeger-queryの状態を確認し、再起動してください。

JaegerのWeb UIにアクセスするURLが誤っている

URLが正しいかどうか確認してください。

(c) Microsoft Azure環境の場合

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒62 分散トレースに関する障害の種類と対策(Microsoft Azure環境の場合)

項番

障害の種類

現象

主な原因

対策

1

分散トレースの情報が出力されない

  • Microsoft Azureポータル上で分散トレースを確認できない

  • 標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される

HMP-PCTOのPodからの分散トレースの送信が失敗している(左記の「WARNING〜」が出力されている)

HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、AzureポータルのApplication Insights上で確認可能な接続文字列と一致しているか確認してください。

リソースグループ内にApplication Insightsインスタンスが作成されていない

Microsoft Azureポータルからリソースグループ内にApplication Insightsインスタンスを作成してください。

Application Insightsインスタンスへのアクセス権がない

利用ユーザに適切なアクセス権限を設定してください。

(d) Google Cloud Platform環境の場合

特になし。

(e) New Relic使用時の場合

分散トレースに関する障害の種類と対策を次の表に示します。

表11‒63 分散トレースに関する障害の種類と対策(New Relic使用時の場合)

項番

障害の種類

現象

主な原因

対策

1

分散トレースの情報が出力されない

  • New Relic UI上で分散トレースを確認できない

  • 標準出力に、「WARNING 〜 Failed to export traces:〜」というメッセージが出力される

HMP-PCTOのPodからの分散トレースの送信が失敗している(左記の「WARNING〜」が出力されている)

HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、OpenTelemetry Collectorのホスト名およびポートと合っているかを確認してください。

New Relicへ送信する設定が誤っている

New Relic OTLPエンドポイントおよびNew Relicのライセンスキーが正しいかどうか確認してください。

(3) メトリクス

(a) 共通

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒64 メトリクスに関する障害の種類と対策

項番

障害の種類

現象

主な原因

対策

1

メトリクスの情報が出力されない

PrometheusのWeb UIに、HMP-PCTOのメトリクスの情報が出力されない

HMP-PCTOのアプリケーションが動作していない

HMP-PCTOのPodが動作していることを確認してください。

(b) Elastic StackおよびPrometheus使用環境の場合

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒65 メトリクスに関する障害の種類と対策(Elastic StackおよびPrometheus使用環境の場合)

項番

障害の種類

現象

主な原因

対策

1

メトリクスの情報が出力されない

PrometheusのWeb UIに、HMP-PCTOのメトリクスの情報が出力されない

Prometheus-Serverが動作していない

Prometheus-ServerのPodが動作していることを確認してください。

Prometheus-Serverが、HMP-PCTOのメトリクス情報の収集に失敗している

Prometheus-Serverの設定(「9.3.8 Prometheus」)を見直してください。

PrometheusのWeb UIにアクセスするURLが誤っている

URLが正しいかどうか確認してください。

Prometheus-Serverが何らかの要因で再起動した

Elasticsearchに登録されたメトリクスの情報を、Kibanaなどの可視化ツールで参照してください。

ElasticsearchにあるHMP-PCTOのメトリクスの情報が、Kibanaなどの可視化ツールで出力されない

  • Prometheus-ServerからMetricbeatへの送信が失敗している

  • MetricbeatからElasticsearchへの送信が失敗している

Prometheus-Server、Metricbeat、Elasticsearchの状態を確認し、再起動してください。

可視化ツールの設定ミス

可視化ツールの設定を見直してください。

可視化ツールにアクセスするURLが誤っている

URLが正しいかどうか確認してください。

(c) Microsoft Azure環境の場合

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒66 メトリクスに関する障害の種類と対策(Microsoft Azure環境の場合)

項番

障害の種類

現象

主な原因

対策

1

メトリクスの情報が出力されない

Microsoft Azureポータル上でHMP-PCTOのメトリクスの情報を確認できない

Azure Monitor Agentがデプロイされていない

AKSクラスタ内でAzure Monitor Agentがデプロイされていることを確認してください。

  • リソースグループ内にAzure Monitorワークスペースが作成されていない

  • リソースグループ内にGrafanaワークスペースが作成されていない

Microsoft Azureポータルからリソースグループ内に対応するワークスペースを作成してください。

Application Insightsインスタンスへのアクセス権がない

利用ユーザに適切なアクセス権限を設定してください。

(d) Google Cloud Platform環境の場合

特になし。

(e) New Relic使用時の場合

メトリクスに関する障害の種類と対策を次の表に示します。

表11‒67 メトリクスに関する障害の種類と対策(New Relic使用時の場合)

項番

障害の種類

現象

主な原因

対策

1

メトリクスの情報が出力されない

New Relic UI上でHMP-PCTOのメトリクスの情報を確認できない

nri-prometheusコンポーネントがデプロイされていない

Kubernetesクラスタ内にnri-prometheusコンポーネントがデプロイされていることを確認してください。

HMP-PCTOのPodがメトリクスの収集対象になっていない

HMP-PCTOのKubernetesマニフェストに設定されたアノテーションprometheus.io/*の値を確認してください。

アノテーションの詳細については、システム編「3.7.13 New Relicによるメトリクス収集のKubernetesマニフェスト作成」を参照してください。