Hitachi

高信頼化システム監視機能 HAモニタ パブリッククラウド編


3.2.2 HVRDのレプリケーション断発生時の判定

実行系でHVRDがレプリケーション通信断を検知した際,実行系のHAモニタは,レプリケーション通信ができなくなった原因が,実行系のAZと待機系のAZのどちらにあるかを判定します。この判定のために,次の1.と2.を順番に確認します。※1

注※1

HAモニタエージェントが未起動の場合(障害などによってHAモニタがHAモニタエージェントの異常終了を検知済みの場合を含む)は,1.と2.を確認しません。通信状態に関係なく,待機系のAZが不調と判定します。

  1. 実行系が孤立しているかの確認

    実行系のHAモニタは,レプリケーション通信断とエージェントヘルスチェック送受信断が同時に発生していないかを確認します。レプリケーション通信が途絶えている期間(HVRDのI/Oタイムアウト時間)に,HAモニタエージェントまたは他系HAモニタからのエージェントヘルスチェックも受信できなかった場合は,実行系のネットワーク通信全体が不通で孤立状態となっています。この場合,実行系のAZが不調と判定します。

  2. HAモニタエージェントから見た通信状況の確認

    実行系のHAモニタは,次の2つのメッセージを確認します。

    • 「HAモニタエージェントから受信済みのヘルスチェックメッセージ」の最新メッセージ

    • 「待機系のHAモニタから受信済みのヘルスチェックメッセージ」の最新メッセージ

    これらのメッセージから,「HAモニタエージェントから見た各HAモニタからのヘルスチェックメッセージの受信数」を比較します。※2

    具体的には,次の2つを比較します。

    • 実行系のAZにあるHAモニタのヘルスチェックメッセージの受信数

    • 待機系のAZにある起動済みHAモニタのうち,一番多く受信しているヘルスチェックメッセージの受信数(待機系のAZにHAモニタが1台もない場合,受信数は0です)

    この結果,受信数が少ない方のAZを不調と判定します。

    注※2

    直近1分間を比較します。ただし,HAモニタエージェントやHAモニタを起動してから間もないケースなどで,比較対象である系切り替え構成内の各HAモニタからの受信済みメッセージが1分に満たない場合は,秒数が一番短いHAモニタに合わせて受信数を比較します。次の表の例では,HAモニタ2に合わせて,全系25秒間の受信数を比較します。

    表3‒2 受信済みメッセージが1分に満たない場合の例

    AZ

    HAモニタ

    受信済みデータの秒数

    AZ1

    HAモニタ1

    30秒

    HAモニタ2

    25秒

    AZ2

    HAモニタ3

    240秒

    HAモニタ4

    250秒