3.2.4 事象ごとの動作
主な事象ごとの動作を説明します。なお,ここでは,系切り替え可能な状態での事象とします。
- 系障害
-
-
実行系障害
系切り替え後は,切り替え先のディスクが更新され,切り替え元のディスクのデータが古いままとなり,同期されていない状態になります。
-
待機系障害
強制停止された系がHVRDのレプリケーション先である場合,実行系のディスクだけが更新されます。
-
- サーバ障害
-
-
実行サーバ障害
系および通信に問題がなければ,系切り替え後は,HVRDによるレプリケーションの方向が変わります。
-
待機サーバ障害
系および通信に問題がなければ,HVRDによるレプリケーションが継続されます。
-
- HVRDのレプリケーションの通信断
-
HVRDのレプリケーション通信だけができなくなった場合,実行系(レプリケーション元)だけで業務(ディスクI/O)を継続します。
- エージェントヘルスチェックの通信断
-
HAモニタエージェントとの間のヘルスチェック通信だけができなくなった場合,HAモニタがHAモニタエージェントの障害を検知して,エージェントヘルスチェックが停止します。
エージェントヘルスチェックが停止しても,各サーバ(業務)には影響なく,HAモニタは,サーバおよび系の監視を継続します。
ただし,エージェントヘルスチェックが停止している間に,HVRDのレプリケーションの通信断が発生した場合,HAモニタはどちらのAZ通信が不調かの判定ができません。この場合は,ネットワーク状態に関係なく,待機系のAZを通信不調と判定します。
なお,エージェントヘルスチェックの通信が回復したあと,HAモニタエージェントとHAモニタは自動的に再接続し,エージェントヘルスチェックも自動的に再開します。
- HAモニタエージェント障害
-
HAモニタエージェントが稼働する系,またはHAモニタエージェントのプロセス障害が発生した場合,HAモニタがHAモニタエージェントの障害を検知して,エージェントヘルスチェックが停止します。そのあとの動作は「エージェントヘルスチェックの通信断」と同様です。
系の障害で,系が停止したままの場合は,原因を取り除いてから再起動が必要です。HAモニタエージェントのプロセス障害の場合,通常はsystemdのunitファイルの設定に従って,自動的に再起動します。何らかの理由によって再起動しない場合は,原因を取り除いてから再起動が必要です。
HAモニタエージェントが障害から回復したあと,HAモニタエージェントとHAモニタは自動的に再接続し,エージェントヘルスチェックも自動的に再開します。