Hitachi

高信頼化システム監視機能 HAモニタ AIX(R)編


7.4 障害発生による系切り替え時の運用

HAモニタが障害を検出したあとのオペレータの対処について説明します。

障害発生から業務回復までの流れを次に示します。運用中は,syslogに出力されるメッセージから,システムが正常に動作していることを確認できます。エラーメッセージが出力された場合,次の流れに従って,対処してください。

  1. エラーメッセージの内容を確認する。

    syslogに出力されたエラーメッセージの内容を確認します。

  2. 系の状態およびサーバの状態を確認する。

    HAモニタによって,系切り替えが完了したかどうかを確認します。サーバ・系の状態表示コマンド(monshowコマンド)を実行して,次の点を確認します。

    • 実行系で実行サーバが再起動していることを確認する。

      サーバ対応の環境設定のswitchtypeオペランドに"restart"または"manual"を指定した場合に,確認してください。

    • 待機系の待機サーバが,実行サーバに切り替わったかを確認する。

    実行サーバが起動していなくて,待ち状態になっている場合は,業務が停止している状態です。業務を再開するには,オペレータの対処が必要です。オペレータの対処については,「7.4.1 待ち状態のサーバを起動して業務を再開する」を参照してください。

  3. 業務が問題なく継続できていることを確認する。

    業務自体に問題がないことを確認します。確認する内容や方法は,業務内容によって異なります。例えば,次の点を確認します。

    • サーバ,クライアント間の通信ができているか。

    • 業務を実行するプログラムが正しく動作しているか。

  4. 障害が発生した系で,障害を取り除く。

    出力されたメッセージと対処を参考にして,障害を取り除きます。共有リソースを操作する必要がある場合は,「7.2.3 共有リソースをメンテナンスするときの注意事項」に記載されている注意事項に従って操作してください。また必要に応じて,HAモニタの障害情報を収集してください。詳細については,「7.4.2 障害情報を収集する」を参照してください。

    主な障害については,対処方法を説明しています。障害への対処方法については,「7.5 障害への対処」を参照してください。

  5. 障害が発生した系を待機系として再起動する。

    現用系で障害が発生した場合は,予備系で業務を実行しているため,障害が発生した系を待機系として再起動しておくと,現在業務を実行している予備系の障害に備えることができます。詳細については,「7.4.3 障害が発生した系を待機系として再起動する」を参照してください。

  6. サーバや系の状態を確認する。

    障害が発生したサーバまたは系が問題なく再起動できたかを,HAモニタのコマンドを使用して確認します。詳細については,「7.4.4 障害対処後にサーバや系の状態を確認する」を参照してください。

〈この節の構成〉