2.3.1 系障害の検出

<この項の構成>
(1) 系の監視
(2) リセットパスのヘルスチェック(HI-UX/WE2)
(3) リセットパスのヘルスチェック(AIX)
(4) リセットパスのヘルスチェック(HP-UX(PA-RISC))
(5) リセットパスのヘルスチェック(HP-UX(IPF))
(6) リセットパスのヘルスチェック(Linux(IPF))
(7) 監視パスのヘルスチェック
(8) 問い合わせ応答メッセージのリトライ
(9) 自系のスローダウン認識

(1) 系の監視

系障害の検出には,実行系と待機系のHAモニタが,互いに一定時間ごとに報告するaliveメッセージを確認し合う方法を用います。そのためにHAモニタの環境設定のpatrolオペランドで系障害監視時間を指定しておきます。

指定した系障害監視時間を超えても他系からaliveメッセージが送信されなかった場合,HAモニタは他系に系障害が発生したと判断します。HAモニタが実行系の系障害を検出すると,HAモニタは系障害が発生した系に系のリセットを要求します。

(2) リセットパスのヘルスチェック(HI-UX/WE2)

系障害時に系リセットができるかどうかを判断するために,HAモニタではSSUの状態をヘルスチェックしています。SSUのヘルスチェックは,自系と接続した他系が系切り替えができる状態になった時点で開始します。それ以降は,10分ごとにチェックします。この間隔はHAモニタの環境設定のssupatrolオペランドで設定できます。なお,ヘルスチェックは待機系からだけ実行します。

SSUの障害を検出すると,HAモニタはSSU障害のメッセージを出力します。メッセージが出力された場合の処置は,「6.2 メッセージテキスト」で示す説明に従ってください。また,ユーザはmonssuコマンドでSSUの状態を表示できます。

(3) リセットパスのヘルスチェック(AIX)

系障害時に系リセットができるかどうかを判断するために,HAモニタでは接続するすべての他系のSPの状態をヘルスチェックしています。SPのヘルスチェックは,自系と接続した他系が実行サーバと待機サーバの起動完了によって系切り替えができる状態になった時点で開始します。それ以降は,2分ごとにチェックします。この間隔はHAモニタの環境設定のresetpatrolオペランドで設定できます。ヘルスチェックは実行系と待機系の双方から実行します。リセットパスを二重化している場合,ヘルスチェックは両方のパスに対して行います。

SPの障害を検出すると,HAモニタはSP障害のメッセージを出力します。メッセージが出力された場合の処置は,「6.2 メッセージテキスト」を参照してください。また,ユーザはmonspコマンドでSPの状態を表示できます。

(4) リセットパスのヘルスチェック(HP-UX(PA-RISC))

系障害時に系リセットができるかどうかを判断するために,HAモニタでは接続するすべての他系のGSPの状態をヘルスチェックしています。GSPのヘルスチェックは,自系と接続した他系が実行サーバと待機サーバの起動完了によって系切り替えができる状態になった時点で開始します。それ以降は,2分ごとにチェックします。この間隔はHAモニタの環境設定のresetpatrolオペランドで設定できます。なお,ヘルスチェックは待機系からだけ実行します。

GSPの障害を検出すると,HAモニタはGSP障害のメッセージを出力します。メッセージが出力された場合の処置は,「6.2 メッセージテキスト」を参照してください。また,ユーザはmongspコマンドでGSPの状態を表示できます。

(5) リセットパスのヘルスチェック(HP-UX(IPF))

系障害時に系リセットができるかどうかを判断するために,HAモニタでは接続するすべての他系のMPの状態をヘルスチェックしています。MPのヘルスチェックは,自系と接続した他系が実行サーバと待機サーバの起動完了によって系切り替えができる状態になった時点で開始します。それ以降は,2分ごとにチェックします。この間隔はHAモニタの環境設定のresetpatrolオペランドで設定できます。なお,ヘルスチェックは待機系からだけ実行します。

MPの障害を検出すると,HAモニタはMP障害のメッセージを出力します。メッセージが出力された場合の処置は,「6.2 メッセージテキスト」を参照してください。また,ユーザはmonmpコマンドでMPの状態を表示できます。

(6) リセットパスのヘルスチェック(Linux(IPF))

系障害時に系リセットができるかどうかを判断するために,HAモニタでは接続するすべての他系のMPの状態をヘルスチェックしています。MPのヘルスチェックは,自系と接続した他系が実行サーバと待機サーバの起動完了によって系切り替えができる状態になった時点で開始します。それ以降は,2分ごとにチェックします。この間隔はHAモニタの環境設定のresetpatrolオペランドで設定できます。なお,ヘルスチェックは待機系からだけ実行します。

MPの障害を検出すると,HAモニタはMP障害のメッセージを出力します。メッセージが出力された場合の処置は,「6.2 メッセージテキスト」を参照してください。また,ユーザはmonmpコマンドでMPの状態を表示できます。

(7) 監視パスのヘルスチェック

HAモニタでは,監視パスの状態を一定間隔でヘルスチェックできます。ヘルスチェックの間隔は,HAモニタの環境設定のpathpatrolオペランドで指定します。監視パスに障害が発生すると,HAモニタは通信障害のメッセージを出力します。

監視パスの状態は,HAモニタを起動してから,環境設定でヘルスチェック間隔に指定した時間が経過した時点でチェックします。それ以降は,指定したヘルスチェック間隔でチェックします。ヘルスチェックは,系に接続しているすべての監視パスについて実行し,HAモニタの停止時に終了します。また,自系と他系に監視パスが接続されていて,HAモニタが稼働している場合にだけチェックします。

監視パスの障害を検出した場合,HAモニタの環境設定のpathpatrol_retryオペランドを指定していれば,監視パスの状態を再チェックできます。再チェックしても障害を検出した場合,HAモニタは次に示すメッセージのどれかを出力します。

メッセージが出力された場合の処置は,「6.2 メッセージテキスト」で示す説明に従ってください。また,ユーザはmonpathコマンドで監視パスの状態を表示できます。

なお,KAMN641-Wメッセージは,一度出力するか,またはmonpathコマンドで障害を検出すると,以降は障害が回復するまで出力しません。

(8) 問い合わせ応答メッセージのリトライ

HAモニタでは,aliveメッセージ以外にも,監視パスを使用して他系とメッセージをやり取りしています。例えば,サーバの起動時に,同じサーバが他系ですでに起動していないかどうかを確認するための問い合わせ応答メッセージなども,監視パスを使用して送受信しています。

これらの問い合わせ応答メッセージの送信に失敗した場合は,HAモニタが3秒間隔でメッセージ送信をリトライし,送信が成功するまでリトライを続けます。60秒を超えても送信が成功しない場合,HAモニタは系障害が発生したと判断します。

HAモニタの環境設定のmessage_retryオペランドを指定しておくと,ユーザがメッセージ送信のリトライ間隔を指定できます。

(9) 自系のスローダウン認識

待機系がシステムの高負荷などでHAモニタの環境設定のpatrolオペランドに指定した系障害監視時間以上動作できなかった場合,実行系からは待機系の系障害が発生したと判断され,系間で状態が不一致となります。この場合,待機系のHAモニタは,自系のスローダウンから回復した時点で系間を再接続すること,および待機サーバを再起動することによって自動的に系間の状態を一致させます。