2.7.3 障害時のサーバ再起動
サーバの障害を検知した場合,HA Toolkit Exは系切り替えまたはサーバの再起動をします。ここでは,障害時のサーバ再起動について説明します。
サーバの再起動では,サーバの障害を検知すると,HA Toolkit Exは,サーバの障害が発生した系でサーバが自動で再起動するのを待ちます。サーバが再起動するまでの状態をサーバの再起動待ち状態と呼びます。HA Toolkit Exは,障害が発生した実行サーバを再起動待ち状態にして,サーバが自動で再起動するのを待ちます。サーバの再起動が失敗した場合は,サーバ自身が再起動を繰り返し試行します。
サーバで定義されているサーバの再起動試行回数を超えると,HA Toolkit Exは,環境設定での定義に従って次のどちらかを実行します。
-
系切り替え
HA Toolkit Exは,実行サーバを停止して,クラスタソフトに障害通知をします。系切り替えの場合,環境設定でサーバの再起動監視時間を指定できます。サーバの再起動監視時間を指定すると,実行サーバが再起動するまでの時間を監視できます。
-
オペレーターの操作待ち
HA Toolkit Exは,実行サーバを停止して,オペレーターの操作を待ちます。クラスタソフトに障害通知をしないので,系切り替えは実施されません。そのため,オペレーターが手動で系切り替えをしてください。手動で系切り替えをする方法を次に示します。
-
MC/ServiceGuardの場合,MC/ServiceGuardのコマンドを使用して実行系のパッケージを停止し,待機系でパッケージを起動してください。
-
MSCSまたはCLUSTERPROの場合,オフライン操作または移動操作でグループの系切り替えをしてください。
オペレーターの操作待ちの場合,サーバのスローダウンを検知しても,HA Toolkit Exは何もしないでサーバの監視を続けます。また,環境設定でサーバの再起動監視時間を指定できません。
-
障害時のサーバ再起動の流れを次に示します。
-
障害発生
実行サーバで障害が発生します。
-
再起動を試行
サーバが再起動を試行します。
-
再起動に失敗
サーバが再起動に失敗した場合,定義されている再起動試行回数まで,サーバの再起動を繰り返します。
-
サーバの停止
再起動試行回数を超えた場合,HA Toolkit Exの監視プロセスがサーバを停止します。サーバを停止したあとの動作は,環境設定での定義によって異なります。
- 系切り替えの場合
-
HA Toolkit Exがクラスタソフトに障害通知をして,クラスタソフトが系切り替えをします。
- オペレーターの操作待ちの場合
-
オペレーターが系切り替えをします。