7.3 障害発生による系切り替え時の運用

HAモニタが障害を検出したあとのオペレータの対処について説明します。

障害発生から業務回復までの流れを次に示します。運用中は,syslogに出力されるメッセージから,システムが正常に動作しているかを確認できます。エラーメッセージが出力された場合,次の流れに従って,対処してください。

  1. エラーメッセージの内容を確認する。
    syslogに出力されたエラーメッセージの内容を確認します。
  2. 系の状態およびサーバの状態を確認する。
    HAモニタによって,系切り替えが完了したかどうかを確認します。サーバ・系の状態表示コマンド(monshowコマンド)を実行して,次の点を確認します。
    • 実行系で実行サーバが再起動しているかを確認する。
      サーバ対応の環境設定のswitchtypeオペランドに"restart"または"manual"を指定した場合に,確認してください。
    • 待機系の待機サーバが,実行サーバに切り替わったかを確認する。
    実行サーバが起動していなくて,待ち状態になっている場合は,業務が停止している状態です。業務を再開するには,オペレータの対処が必要です。オペレータの対処については,「7.3.1 待ち状態のサーバを起動して業務を再開する」を参照してください。
  3. 業務が問題なく継続できていることを確認する。
    業務自体に問題がないことを確認します。確認する内容や方法は,業務内容によって異なります。例えば,次の点を確認します。
    • サーバ,クライアント間の通信ができているか。
    • 業務を実行するプログラムが正しく動作しているか。
  4. 障害が発生した系で,障害を取り除く。
    出力されたメッセージと対処を参考にして,障害を取り除きます。共有リソースを操作する必要がある場合は,「7.2.3 共有リソースをメンテナンスするときの注意事項」に記載されている注意事項に従って操作してください。また必要に応じて,HAモニタの障害情報を収集してください。詳細については,「7.3.2 障害情報を収集する」を参照してください。
    主な障害については,対処方法を説明しています。障害への対処方法については,「7.4 障害への対処」を参照してください。
  5. 障害が発生した系を再起動する。
    現用系で障害が発生した場合は,予備系で業務を実行しているため,障害が発生した系を待機系として再起動しておくと,現在業務を実行している予備系の障害に備えることができます。詳細については,「7.3.3 障害が発生した系を再起動する」を参照してください。
  6. サーバや系の状態を確認する。
    障害が発生したサーバまたは系が問題なく再起動できたかを,HAモニタのコマンドを使用して確認します。詳細については,「7.3.4 障害対処後にサーバや系の状態を確認する」を参照してください。
<この節の構成>
7.3.1 待ち状態のサーバを起動して業務を再開する
7.3.2 障害情報を収集する
7.3.3 障害が発生した系を再起動する
7.3.4 障害対処後にサーバや系の状態を確認する