Hitachi

Hitachi Microservices Platform - Paxos Commit Transaction Orchestrator ユーザーズガイド


4.5.2 Prometheusでメトリクスを監視する場合の障害対策

Prometheusでメトリクスを監視する場合に、HMP-PCTOのPodが想定どおりにスケーリングしないときの主な原因と対策を次の表に示します。

表4‒13 オンプレミス環境またはRed Hat OpenShift Container Platform環境の場合の、オートスケールの障害の主な原因と対策(Prometheusでメトリクスを監視するとき)

項番

現象

主な原因

対策

1

負荷に応じてスケールアウト/スケールインしない

KEDAに障害が発生している

KEDAの公式ドキュメントを参照してKEDAの障害について対策してください。そのあと、「4.3.2 KEDAのインストールとデプロイ(オンプレミス環境またはRed Hat OpenShift Container Platform環境限定)」を再度実施してください。

2

Prometheusに障害が発生している

(3) メトリクス」を参照してPrometheusの障害について対策してください。

3

HPAに障害が発生している

HPAの公式ドキュメントを参照してHPAの障害について対策してください。そのあと、「4.3.7 HPAのデプロイ」を再度実施してください。

4

HPAのKubernetesマニフェストでのスケーリングに関する設定が誤っている

注※

Prometheusで「sum(up)by(label_app_kubernetes_io_name)」クエリを実行すると、オートスケール対象の各KubernetesアプリケーションのPod数の推移を確認できます。Prometheusのクエリの実行方法は、「(a) PrometheusサーバのWeb UIによる参照」を参照してください。

なお、label_app_kubernetes_io_nameラベルは、Kubernetesマニフェストの.spec.template.metadata.labelsのapp.kubernetes.io/nameに指定した値です。label_app_kubernetes_io_nameラベルを表示するための設定方法については、「3.7.14 PrometheusのKubernetesマニフェスト作成」を参照してください。

表4‒14 Microsoft Azure環境の場合の、オートスケールの障害の主な原因と対策(Prometheusでメトリクスを監視するとき)

項番

現象

主な原因

対策

1

負荷に応じてスケールアウト/スケールインしない

KEDAがPrometheusとの通信に失敗する

Microsoft Azureの公式ドキュメントを参照して、KEDAアドオンのインストールを実施してください。そのあと、「4.3.5 HPAのKubernetesマニフェストの作成」を再度実施してください。

2

KEDAに障害が発生している

Microsoft Azureの公式ドキュメントおよびKEDAの公式ドキュメントを参照して、KEDAの障害について対策してください。そのあと、「4.3.3 KEDAアドオンのインストール(Microsoft Azure環境限定)」を再度実施してください。

3

Prometheusに障害が発生している

(3) メトリクス」を参照してPrometheusの障害について対策してください。

4

HPAに障害が発生している

Microsoft Azureの公式ドキュメントおよびHPAの公式ドキュメントを参照して、HPAの障害について対策してください。そのあと、「4.3.7 HPAのデプロイ」を再度実施してください。

5

HPAのKubernetesマニフェストでのスケーリングに関する設定が誤っている

注※

Prometheusで「sum(up)by(label_app_kubernetes_io_name)」クエリを実行すると、オートスケール対象の各KubernetesアプリケーションのPod数の推移を確認できます。Prometheusのクエリの実行方法は、「(a) PrometheusサーバのWeb UIによる参照」を参照してください。

なお、label_app_kubernetes_io_nameラベルは、Kubernetesマニフェストの.spec.template.metadata.labelsのapp.kubernetes.io/nameに指定した値です。label_app_kubernetes_io_nameラベルを表示するための設定方法については、「3.7.14 PrometheusのKubernetesマニフェスト作成」を参照してください。

表4‒15 Google Cloud Platform環境の場合の、オートスケールの障害の主な原因と対策(Prometheusでメトリクスを監視するとき)

項番

現象

主な原因

対策

1

負荷に応じてスケールアウト/スケールインしない

カスタム指標Stackdriverアダプタに障害が発生している

Google Cloud Platformの公式ドキュメントを参照してカスタム指標Stackdriverアダプタの障害について対策してください。そのあと、「4.3.4 カスタム指標Stackdriverアダプタのインストール(Google Cloud Platform環境限定)」を再度実施してください。

2

Prometheusに障害が発生している

(3) メトリクス」を参照してPrometheusの障害について対策してください。

3

HPAに障害が発生している

Google Cloud Platformの公式ドキュメント、およびHPAの公式ドキュメントを参照してHPAの障害について対策してください。そのあと、「4.3.7 HPAのデプロイ」を再度実施してください。

4

HPAのKubernetesマニフェストでのスケーリングに関する設定が誤っている

5

カスタム指標StackdriverアダプタがPrometheusとの通信に失敗する

Google Cloud Platformの公式ドキュメントを参照してカスタム指標Stackdriverアダプタをインストールしてください。そのあと、「4.3.5 HPAのKubernetesマニフェストの作成」を再度実施してください。

注※

Prometheusで「sum(up)by(joy)」クエリを実行すると、オートスケール対象の各KubernetesアプリケーションのPod数の推移を確認できます。Prometheusのクエリの実行方法は、「(a) PrometheusサーバのWeb UIによる参照」を参照してください。