11.7.1 障害の原因および対策
障害の種類と原因、対策について説明します。
- 〈この項の構成〉
(1) メッセージログ
(a) 共通
メッセージログに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メッセージが出力されない |
標準出力にHMP-PCTOのメッセージが出力されない |
HMP-PCTOのアプリケーションが動作していない |
HMP-PCTOのPodが動作していることを確認してください。 |
|
誤って削除したなどの要因で、既定のディレクトリに製品提供のlogback-spring.xmlがない |
製品提供のlogback-spring.xmlを既定のディレクトリに配置してください。 |
|||
|
コンテナのLogging Driverの障害 |
コンテナの設定でLogging Driverがデフォルトの「json-file」であることを確認してください。 |
|||
|
イベントリソースにHMP-PCTOのメッセージが出力されない(ライフサイクルイベントハンドラで実行されたHMP-PCTOのシェルスクリプトが出力する) |
ライフサイクルイベントハンドラでHMP-PCTOのシェルスクリプトが実行されていない(シェルスクリプトが実行されている場合、KFSG82102-Iメッセージがイベントリソースに出力される) |
livenessProbe、およびreadinessProbeが正しく設定されていることを確認してください。 |
||
|
2 |
プロセスダウン |
KFSG74103-Eメッセージが出力された(「ロガーがメッセージプロパティファイルを取得できませんでした。」) |
誤って削除したなどの要因で、既定のディレクトリに製品提供の「hmppcto_messages.properties」がない |
製品提供の「hmppcto_messages.properties」を既定のディレクトリに配置してください。 |
(b) Elastic Stack使用環境の場合
メッセージログに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メッセージが出力されない |
Kibanaなどのログ可視化ツールでHMP-PCTOのメッセージが出力されない |
|
Filebeat、Logstash、Elasticsearchの状態を確認し、再起動してください。 |
|
可視化ツールの設定ミス |
可視化ツールの設定を見直してください。 |
|||
|
可視化ツールにアクセスするURLが誤っている |
URLが正しいかどうか確認してください。 |
|||
|
Elasticsearchの容量が不足している |
各コンポーネントをいったん停止し、Elasticsearchの容量を拡大してから、再度、各コンポーネントを開始してください。 |
(c) Microsoft Azure環境の場合
メッセージログに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メッセージが出力されない |
Microsoft Azureポータル上でHMP-PCTOのメッセージを確認できない |
リソースグループ内にLog Analyticsワークスペースが作成されていない |
Microsoft Azureポータルからリソースグループ内にLog Analyticsワークスペースを作成してください。 |
|
AKSクラスタがLog Analyticsワークスペースに接続されていない |
AzureポータルまたはAzure CLIを使用して、AKSクラスタのモニタリングを有効化し、Log Analyticsワークスペースに接続してください。 |
|||
|
Azure Monitor Agentがデプロイされていない |
AKSクラスタ内でAzure Monitor Agentがデプロイされていることを確認してください。 |
|||
|
Log Analyticsワークスペースへのアクセス権がない |
利用ユーザに適切なアクセス権限を設定してください。 |
|||
|
メッセージログの検索クエリに誤りがある |
Kustoの形式に沿った検索クエリが使用されていることを確認してください。 |
(d) Google Cloud Platform環境の場合
特になし。
(e) New Relic使用時の場合
メッセージログに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メッセージが出力されない |
New Relic UI上でHMP-PCTOのメッセージを確認できない |
New RelicのKubernetes integrationのコンポーネントがデプロイされていない |
Kubernetesクラスタ内にKubernetes integrationコンポーネントがデプロイされていることを確認してください。 |
(2) 分散トレース
(a) 共通
分散トレースに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
分散トレースの情報が出力されない |
JaegerのWeb UIに、HMP-PCTOの分散トレースの情報が出力されない |
HMP-PCTOのアプリケーションが動作していない |
HMP-PCTOのPodが動作していることを確認してください。 |
(b) Elastic StackおよびJaeger使用環境の場合
分散トレースに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
分散トレースの情報が出力されない |
|
HMP-PCTOのPodからJaeger-collectorへの送信が失敗している(左記の「WARNING〜」が出力されている) |
HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、Jaeger-collectorのホスト名・ポートと合っているか確認してください。 |
|
Jaeger-collectorからElasticsearchへの送信が失敗している |
Jaeger-collectorおよびElasticsearchの状態を確認し、再起動してください。 |
|||
|
Jaeger-collectorで内部キューあふれが発生し、分散トレース情報のdropが発生している |
Jaeger-collectorを一度アンデプロイします。その後、Jaeger-collectorの内部キューの容量の設定(「(1) Helmチャートのパラメタ」のcollector.queueSize)で内部キューのサイズを変更し、再度Jaeger-collectorをデプロイしてください。 |
|||
|
Jaeger-queryのPodが動作していない |
Jaeger-queryの状態を確認し、再起動してください。 |
|||
|
JaegerのWeb UIにアクセスするURLが誤っている |
URLが正しいかどうか確認してください。 |
(c) Microsoft Azure環境の場合
分散トレースに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
分散トレースの情報が出力されない |
|
HMP-PCTOのPodからの分散トレースの送信が失敗している(左記の「WARNING〜」が出力されている) |
HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、AzureポータルのApplication Insights上で確認可能な接続文字列と一致しているか確認してください。 |
|
リソースグループ内にApplication Insightsインスタンスが作成されていない |
Microsoft Azureポータルからリソースグループ内にApplication Insightsインスタンスを作成してください。 |
|||
|
Application Insightsインスタンスへのアクセス権がない |
利用ユーザに適切なアクセス権限を設定してください。 |
(d) Google Cloud Platform環境の場合
特になし。
(e) New Relic使用時の場合
分散トレースに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
分散トレースの情報が出力されない |
|
HMP-PCTOのPodからの分散トレースの送信が失敗している(左記の「WARNING〜」が出力されている) |
HMP-PCTOの、分散トレースの送信先の設定(「(1) jp.co.Hitachi.soft.hmppctoのパラメタ」のtracing.url)で指定するURLが、OpenTelemetry Collectorのホスト名およびポートと合っているかを確認してください。 |
|
New Relicへ送信する設定が誤っている |
New Relic OTLPエンドポイントおよびNew Relicのライセンスキーが正しいかどうか確認してください。 |
(3) メトリクス
(a) 共通
メトリクスに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メトリクスの情報が出力されない |
PrometheusのWeb UIに、HMP-PCTOのメトリクスの情報が出力されない |
HMP-PCTOのアプリケーションが動作していない |
HMP-PCTOのPodが動作していることを確認してください。 |
(b) Elastic StackおよびPrometheus使用環境の場合
メトリクスに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メトリクスの情報が出力されない |
PrometheusのWeb UIに、HMP-PCTOのメトリクスの情報が出力されない |
Prometheus-Serverが動作していない |
Prometheus-ServerのPodが動作していることを確認してください。 |
|
Prometheus-Serverが、HMP-PCTOのメトリクス情報の収集に失敗している |
Prometheus-Serverの設定(「9.3.8 Prometheus」)を見直してください。 |
|||
|
PrometheusのWeb UIにアクセスするURLが誤っている |
URLが正しいかどうか確認してください。 |
|||
|
Prometheus-Serverが何らかの要因で再起動した |
Elasticsearchに登録されたメトリクスの情報を、Kibanaなどの可視化ツールで参照してください。 |
|||
|
ElasticsearchにあるHMP-PCTOのメトリクスの情報が、Kibanaなどの可視化ツールで出力されない |
|
Prometheus-Server、Metricbeat、Elasticsearchの状態を確認し、再起動してください。 |
||
|
可視化ツールの設定ミス |
可視化ツールの設定を見直してください。 |
|||
|
可視化ツールにアクセスするURLが誤っている |
URLが正しいかどうか確認してください。 |
(c) Microsoft Azure環境の場合
メトリクスに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メトリクスの情報が出力されない |
Microsoft Azureポータル上でHMP-PCTOのメトリクスの情報を確認できない |
Azure Monitor Agentがデプロイされていない |
AKSクラスタ内でAzure Monitor Agentがデプロイされていることを確認してください。 |
|
Microsoft Azureポータルからリソースグループ内に対応するワークスペースを作成してください。 |
|||
|
Application Insightsインスタンスへのアクセス権がない |
利用ユーザに適切なアクセス権限を設定してください。 |
(d) Google Cloud Platform環境の場合
特になし。
(e) New Relic使用時の場合
メトリクスに関する障害の種類と対策を次の表に示します。
|
項番 |
障害の種類 |
現象 |
主な原因 |
対策 |
|---|---|---|---|---|
|
1 |
メトリクスの情報が出力されない |
New Relic UI上でHMP-PCTOのメトリクスの情報を確認できない |
nri-prometheusコンポーネントがデプロイされていない |
Kubernetesクラスタ内にnri-prometheusコンポーネントがデプロイされていることを確認してください。 |
|
HMP-PCTOのPodがメトリクスの収集対象になっていない |
HMP-PCTOのKubernetesマニフェストに設定されたアノテーションprometheus.io/*の値を確認してください。 アノテーションの詳細については、システム編「3.7.13 New Relicによるメトリクス収集のKubernetesマニフェスト作成」を参照してください。 |