系のリセットとは,障害が発生した系の入出力を閉塞させるため,システムを強制停止させることです。系のリセットによって,同じ実行サーバが複数の系で稼働することを防ぎます。
系のリセットは,HAモニタと障害管理プロセサが連携することで実現しています。
HAモニタは系障害を監視し,系障害を検出した時点で系切り替えができる状態だった場合は,系のリセットを要求します。通常は,待機系が,障害が発生した実行系をリセットします(実行系のリセット)。系切り替え構成の種類によっては,実行系が待機系をリセットすることもできます(待機系のリセット)。
実行系の系障害を待機系で検出すると,HAモニタはリセットパスを介してリセットコマンドを発行し,実行系の障害管理プロセサに実行系のリセットを要求します。リセット時には,システムダンプが取得できる状態であれば,OSの機能によって,リセットされた系のシステムダンプが取得されます。リセットが完了すると,HAモニタが系切り替えを開始します。リセットが失敗した場合は,ユーザが手動でリセットして,システムダンプを取得する必要があります。
HAモニタが行う系の状態監視と系のリセットを,次の図に示します。
図2-10 系の状態監視と系のリセット
HAモニタは,aliveメッセージを送信しあって,他系の状態監視をします。実行系で系障害が発生すると,待機系のHAモニタは実行系からのaliveメッセージを受信できないため,待機系のHAモニタは障害管理プロセサにリセットを要求します。要求を受けた障害管理プロセサは,系のリセットを指示します。
マシンの機種がBladeSymphonyの場合,系障害が発生した実行系と,リセット指示を出す待機系が同じシャーシ内にあるときもありますが,HAモニタおよび障害管理プロセサの動作は変わりません。
系のリセットはハードウェアとの連携で実現しているので,系ごとに固有のホストアドレスをHAモニタの環境設定のaddressオペランドで指定しておきます。指定するホストアドレスは,TCP/IPのIPアドレスやOSIのMACアドレスではなく,HAモニタの管理者が任意に指定するアドレスです。また,マシンの機種がH9000VまたはHA8500の場合,系ごとに設定した障害管理プロセサのIPアドレスに対応するホスト名を,HAモニタの環境設定で指定しておきます。
系切り替え構成の種類によっては,実行系やほかの待機系が,待機系をリセットすることがあります。
HAモニタの環境設定のpatrolオペランドに指定した系障害監視時間を超えても待機系からaliveメッセージが送信されなかった場合,実行系のHAモニタは,待機系に系障害が発生したと判断します。この場合,実行サーバでは業務を継続できるため,実行系のHAモニタは何もしません。
ただし,待機系に系障害が発生した状態では,実行系に障害が発生した場合に待機系に系切り替えができません。そのため,待機系の系障害を検出した時点で,実行系のHAモニタに待機系をリセットさせることもできます。系障害時に待機系をリセットするかどうかは,HAモニタの環境設定のstandbyresetオペランドで指定します。なお,待機系のリセットは,1:1系切り替え構成以外では使用しないでください。
待機系の系障害時に待機系がリセットされた場合,オペレータは系障害が発生した原因を調査し,対策を取る必要があります。
複数スタンバイ構成では,一つの実行系に対して複数の待機系があります。待機系に系障害が発生した場合,別の待機系が,障害が発生した待機系をリセットすることがあります。複数スタンバイ構成での系のリセットについては,「4.2.3 複数の待機系がある場合の系のリセット」を参照してください。