4.5.2　Prometheusでメトリクスを監視する場合の障害対策

Prometheusでメトリクスを監視する場合に、HMP-PCTOのPodが想定どおりにスケーリングしないときの主な原因と対策を次の表に示します。

表4‒13　オンプレミス環境またはRed Hat OpenShift Container Platform環境の場合の、オートスケールの障害の主な原因と対策（Prometheusでメトリクスを監視するとき）
項番	現象	主な原因	対策
1	負荷に応じてスケールアウト/スケールインしない^※	KEDAに障害が発生している	KEDAの公式ドキュメントを参照してKEDAの障害について対策してください。そのあと、「4.3.2　KEDAのインストールとデプロイ（オンプレミス環境またはRed Hat OpenShift Container Platform環境限定）」を再度実施してください。
2		Prometheusに障害が発生している	「(3)　メトリクス」を参照してPrometheusの障害について対策してください。
3		HPAに障害が発生している	HPAの公式ドキュメントを参照してHPAの障害について対策してください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。
4		HPAのKubernetesマニフェストでのスケーリングに関する設定が誤っている	「4.3.5　HPAのKubernetesマニフェストの作成」の設定内容を見直し、正しく設定されていることを確認してください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。「4.4　オートスケールのパラメタの設計とチューニング」を参照してスケーリングに関する設定をチューニングしてください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。

注※

Prometheusで「sum(up)by(label_app_kubernetes_io_name)」クエリを実行すると、オートスケール対象の各KubernetesアプリケーションのPod数の推移を確認できます。Prometheusのクエリの実行方法は、「(a)　PrometheusサーバのWeb UIによる参照」を参照してください。

なお、label_app_kubernetes_io_nameラベルは、Kubernetesマニフェストの.spec.template.metadata.labelsのapp.kubernetes.io/nameに指定した値です。label_app_kubernetes_io_nameラベルを表示するための設定方法については、「3.7.14　PrometheusのKubernetesマニフェスト作成」を参照してください。

表4‒14　Microsoft Azure環境の場合の、オートスケールの障害の主な原因と対策（Prometheusでメトリクスを監視するとき）
項番	現象	主な原因	対策
1	負荷に応じてスケールアウト/スケールインしない^※	KEDAがPrometheusとの通信に失敗する	Microsoft Azureの公式ドキュメントを参照して、KEDAアドオンのインストールを実施してください。そのあと、「4.3.5　HPAのKubernetesマニフェストの作成」を再度実施してください。
2		KEDAに障害が発生している	Microsoft Azureの公式ドキュメントおよびKEDAの公式ドキュメントを参照して、KEDAの障害について対策してください。そのあと、「4.3.3　KEDAアドオンのインストール（Microsoft Azure環境限定）」を再度実施してください。
3		Prometheusに障害が発生している	「(3)　メトリクス」を参照してPrometheusの障害について対策してください。
4		HPAに障害が発生している	Microsoft Azureの公式ドキュメントおよびHPAの公式ドキュメントを参照して、HPAの障害について対策してください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。
5		HPAのKubernetesマニフェストでのスケーリングに関する設定が誤っている	「4.3.5　HPAのKubernetesマニフェストの作成」の設定内容を見直し、正しく設定されていることを確認してください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。「4.4　オートスケールのパラメタの設計とチューニング」を参照してスケーリングに関する設定をチューニングしてください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。

注※

表4‒15　Google Cloud Platform環境の場合の、オートスケールの障害の主な原因と対策（Prometheusでメトリクスを監視するとき）
項番	現象	主な原因	対策
1	負荷に応じてスケールアウト/スケールインしない^※	カスタム指標Stackdriverアダプタに障害が発生している	Google Cloud Platformの公式ドキュメントを参照してカスタム指標Stackdriverアダプタの障害について対策してください。そのあと、「4.3.4　カスタム指標Stackdriverアダプタのインストール（Google Cloud Platform環境限定）」を再度実施してください。
2		Prometheusに障害が発生している	「(3)　メトリクス」を参照してPrometheusの障害について対策してください。
3		HPAに障害が発生している	Google Cloud Platformの公式ドキュメント、およびHPAの公式ドキュメントを参照してHPAの障害について対策してください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。
4		HPAのKubernetesマニフェストでのスケーリングに関する設定が誤っている	「4.3.5　HPAのKubernetesマニフェストの作成」の設定内容を見直し、正しく設定されていることを確認してください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。「4.4　オートスケールのパラメタの設計とチューニング」を参照してスケーリングに関する設定をチューニングしてください。そのあと、「4.3.7　HPAのデプロイ」を再度実施してください。
5		カスタム指標StackdriverアダプタがPrometheusとの通信に失敗する	Google Cloud Platformの公式ドキュメントを参照してカスタム指標Stackdriverアダプタをインストールしてください。そのあと、「4.3.5　HPAのKubernetesマニフェストの作成」を再度実施してください。

注※: Prometheusで「sum(up)by(joy)」クエリを実行すると、オートスケール対象の各KubernetesアプリケーションのPod数の推移を確認できます。Prometheusのクエリの実行方法は、「(a)　PrometheusサーバのWeb UIによる参照」を参照してください。

ページの先頭へ

4.5.2 Prometheusでメトリクスを監視する場合の障害対策

4.5.2　Prometheusでメトリクスを監視する場合の障害対策