Hitachi

高信頼化システム監視機能 HAモニタ パブリッククラウド編


3.2.4 事象ごとの動作

主な事象ごとの動作を説明します。なお,ここでは,系切り替え可能な状態での事象とします。

系障害
  • 実行系障害

    系切り替え後は,切り替え先のディスクが更新され,切り替え元のディスクのデータが古いままとなり,同期されていない状態になります。

  • 待機系障害

    強制停止された系がHVRDのレプリケーション先である場合,実行系のディスクだけが更新されます。

サーバ障害
  • 実行サーバ障害

    系および通信に問題がなければ,系切り替え後は,HVRDによるレプリケーションの方向が変わります。

  • 待機サーバ障害

    系および通信に問題がなければ,HVRDによるレプリケーションが継続されます。

HVRDのレプリケーションの通信断

HVRDのレプリケーション通信だけができなくなった場合,実行系(レプリケーション元)だけで業務(ディスクI/O)を継続します。

エージェントヘルスチェックの通信断

HAモニタエージェントとの間のヘルスチェック通信だけができなくなった場合,HAモニタがHAモニタエージェントの障害を検知して,エージェントヘルスチェックが停止します。

エージェントヘルスチェックが停止しても,各サーバ(業務)には影響なく,HAモニタは,サーバおよび系の監視を継続します。

ただし,エージェントヘルスチェックが停止している間に,HVRDのレプリケーションの通信断が発生した場合,HAモニタはどちらのAZ通信が不調かの判定ができません。この場合は,ネットワーク状態に関係なく,待機系のAZを通信不調と判定します。

なお,エージェントヘルスチェックの通信が回復したあと,HAモニタエージェントとHAモニタは自動的に再接続し,エージェントヘルスチェックも自動的に再開します。

HAモニタエージェント障害

HAモニタエージェントが稼働する系,またはHAモニタエージェントのプロセス障害が発生した場合,HAモニタがHAモニタエージェントの障害を検知して,エージェントヘルスチェックが停止します。そのあとの動作は「エージェントヘルスチェックの通信断」と同様です。

系の障害で,系が停止したままの場合は,原因を取り除いてから再起動が必要です。HAモニタエージェントのプロセス障害の場合,通常はsystemdunitファイルの設定に従って,自動的に再起動します。何らかの理由によって再起動しない場合は,原因を取り除いてから再起動が必要です。

HAモニタエージェントが障害から回復したあと,HAモニタエージェントとHAモニタは自動的に再接続し,エージェントヘルスチェックも自動的に再開します。