Hitachi

高信頼化システム監視機能 HAモニタ AIX(R)編


7.5.2 サーバの再起動失敗に対処する

サーバ障害発生時にサーバを自動的に再起動する設定にしている場合で,サーバが自動的に起動しなかったときの対処について説明します。サーバの運用方法によって,対処をするタイミングが異なります。

サーバモードのサーバの場合
  • サーバの再起動をリトライ分繰り返したあとに再起動限界を検出したとき

モニタモードのサーバの場合
  • サーバの再起動に失敗したとき

〈この項の構成〉

(1) サーバモードのサーバの場合

ここでは,次の両方に当てはまる場合の対処方法について説明します。サーバ対応の環境設定のswitchtypeオペランドに"switch"または"restart"を指定している場合はHAモニタが系切り替えをするため,オペレータの操作は不要です。

上記に当てはまる場合,実行系(障害が発生した系)の実行サーバは停止し,待機系の待機サーバは実行サーバの起動待ち状態になっています。

対処

待機サーバが実行サーバの起動待ち状態になっているため,業務を再開するために,起動待ち状態の待機サーバを実行サーバとして起動します。

  1. 実行系の状態を確認する。

    次のことを確認します。

    • 実行サーバが停止していること

    • サーバが使用する共有リソースが切り離されていること

  2. 待機系の待機サーバを,実行サーバとして起動する。

    待ち状態のサーバ起動コマンド(monactコマンド)を実行して,実行サーバの起動待ち状態になっている待機サーバを,実行サーバとして起動します。

  3. 実行サーバが起動したことを確認する。

    メッセージKAMN251-Iが出力されることを確認します。

  4. 実行系(障害が発生した系)で,サーバの障害を取り除く。

  5. 実行系で,待機サーバを起動する。

    プログラムが提供する起動コマンドを実行します。

対処後の確認方法

  1. 系切り替えができる状態になったことを確認する。

    次のどちらかの方法で確認します。

    • メッセージKAMN252-Iが出力された。

    • サーバ・系の状態表示コマンド(monshowコマンド)を実行し,実行サーバの状態が"ONL",待機サーバの状態が"SBY"と表示された。

(2) モニタモードのサーバの場合

モニタモードのサーバの場合に再起動に失敗したときの対処方法を,それぞれ説明します。

(a) 実行サーバの再起動に失敗したとき

サーバをモニタモードで運用する場合,実行サーバの再起動失敗には,次の原因が考えられます。

  • HAモニタがサーバの起動コマンドの実行に失敗した。

  • HAモニタがサーバの停止コマンドの実行に失敗した。

ここでは,次に当てはまる場合の,対処方法について説明します。異なるメッセージが出力されている場合は,異なる原因が考えられます。出力されているメッセージを基に対処してください。

  • サーバ障害時にサーバを再起動する設定にしている。

  • メッセージKAMN273-Eが出力されている。

なお,サーバの再起動時に,サーバ対応の環境設定のnameオペランド,またはactcommandオペランドに指定したサーバの起動コマンドの戻り値が0以外だった場合,サーバ対応の環境設定のtermcommandオペランドに指定したサーバの停止コマンドは実行しないで処理を中断します。

対処

サーバの起動・停止コマンド,またはサーバ対応の環境設定を修正して,サーバを再起動させます。

  1. 障害の原因を取り除く。

    メッセージKAMN273-Eに表示されるエラーコードに基づいて,原因を取り除きます。

    エラーコードの詳細については,「表7-6 メッセージKAMN273-Eに表示されるエラーコード一覧(実行サーバの再起動に失敗したとき)」を参照してください。

  2. 待機系で,実行サーバを起動する。

    次のどちらかの方法があります。

    • 実行系(障害が発生した系)でモニタモードのサーバ停止コマンド(monendコマンド)を実行していったん実行サーバを停止したあとに,待機系でモニタモードのサーバ起動コマンド(monbeginコマンド)を実行して,実行サーバを起動します。

    • 待機系でモニタモードのサーバ起動コマンド(monbeginコマンド)を実行して待機サーバを起動したあと,実行系でサーバの系切り替えコマンド(monswapコマンド)を実行して待機系に計画系切り替えをします。

  3. 実行系で,待機サーバを起動する。

    モニタモードのサーバ起動コマンド(monbeginコマンド)を実行して待機サーバを起動します。

対処後の確認方法

  1. 系切り替えができる状態になったことを確認する。

    次のどちらかの方法で確認します。

    • メッセージKAMN252-Iが出力された。

    • サーバ・系の状態表示コマンド(monshowコマンド)を実行し,実行サーバの状態が"ONL",待機サーバの状態が"SBY"と表示された。

メッセージKAMN273-Eに表示されるエラーコードの一覧と対処を次の表に示します。

表7‒6 メッセージKAMN273-Eに表示されるエラーコード一覧(実行サーバの再起動に失敗したとき)

原因コード

詳細コード

コードの説明

対処

1

システムコールのerrno

サーバの起動コマンド実行時にシステムエラーが発生しました。

システムコールのエラー要因を取り除いてください。

2

コマンド戻り値

サーバの起動コマンドが戻り値として0以外を返しました。

サーバの起動コマンドの内容を確認し,修正してください。

126

nameオペランド,またはactcommandオペランドに指定したファイルに実行権限がありません。

サーバの起動コマンドに実行権限を与えてください。

127

nameオペランド,またはactcommandオペランドに指定したファイルがありません。

サーバ対応の環境設定のnameオペランド,またはactcommandオペランドに指定した値とサーバの起動コマンドの格納場所が一致していることを確認してください。

3

システムコールのerrno

サーバの停止コマンド実行時にシステムエラーが発生しました。

システムコールのエラー要因を取り除いてください。

4

コマンド戻り値

サーバの停止コマンドが戻り値として0以外を返しました。

サーバの停止コマンドの内容を確認し,修正してください。

126

termcommandオペランドに指定したファイルに実行権限がありません。

サーバ対応の環境設定のtermcommandオペランドに指定したサーバの停止コマンドに,実行権限を与えてください。

127

termcommandオペランドに指定したファイルがありません。

サーバ対応の環境設定のtermcommandオペランドに指定した値とサーバの停止コマンドの格納場所が一致していることを確認してください。

(b) 待機サーバの再起動に失敗したとき

サーバをモニタモードで運用する場合,次のときは,待機サーバの再起動が中止され,待機サーバが停止します。

  • HAモニタが次のコマンドの実行に失敗したとき

    • サーバ対応の環境設定のsby_actcommandオペランドに指定したコマンド

    • サーバ対応の環境設定のsby_termcommandオペランドに指定したコマンド

  • HAモニタが次のコマンドを実行し,リターンコードが0以外だったとき

    • サーバ対応の環境設定のsby_actcommandオペランドに指定したコマンド

    • サーバ対応の環境設定のsby_termcommandオペランドに指定したコマンド

対処

次に示す手順で,待機サーバを再起動させます。

  1. 障害の原因を取り除く。

    メッセージKAMN273-Eに表示されるエラーコードに基づいて,原因を取り除きます。

    エラーコードの詳細については,「表7-7 メッセージKAMN273-Eに表示されるエラーコード一覧(待機サーバの再起動に失敗したとき)」を参照してください。

  2. 待機系で,待機サーバを起動する。

    待機系(障害が発生した系)でmonbeginコマンドを実行して,待機サーバを起動します。

対処後の確認方法

  1. 系切り替えができる状態になったことを確認する。

    次のどちらかの方法で確認します。

    • メッセージKAMN252-Iが出力された。

    • サーバと系の状態表示コマンド(monshowコマンド)を実行し,実行サーバの状態が"ONL",待機サーバの状態が"SBY"と表示された。

メッセージKAMN273-Eに表示されるエラーコードの一覧と対処を次の表に示します。

表7‒7 メッセージKAMN273-Eに表示されるエラーコード一覧(待機サーバの再起動に失敗したとき)

原因

コード

詳細コード

コードの説明

対処

1

システムコールのerrno

sby_actcommandオペランドに指定したコマンドの実行時にシステムエラーが発生しました。

システムコールのエラー要因を取り除いてください。

2

コマンド戻り値

sby_actcommandオペランドに指定したコマンドが戻り値として0以外を返しました。

コマンドの内容を確認し,修正してください。

126

sby_actcommandオペランドに指定したコマンドに実行権限がありません。

コマンドに実行権限を付与してください。

127

sby_actcommandオペランドに指定したコマンドがありません。

コマンドの格納場所が正しいか確認してください。

3

システムコールのerrno

sby_termcommandオペランドに指定したコマンドの実行時にシステムエラーが発生しました。

システムコールのエラー要因を取り除いてください。

4

コマンド戻り値

sby_termcommandオペランドに指定したコマンドが戻り値として0以外を返しました。

コマンドの内容を確認し,修正してください。

126

sby_termcommandオペランドに指定したコマンドに実行権限がありません。

コマンドに実行権限を付与してください。

127

sby_termcommandオペランドに指定したコマンドがありません。

コマンドの格納場所が正しいか確認してください。