HAモニタが障害を検出したあとのオペレータの対処について説明します。
障害発生から業務回復までの流れを次に示します。運用中は,syslogに出力されるメッセージから,システムが正常に動作しているかを確認できます。エラーメッセージが出力された場合,次の流れに従って,対処してください。
- エラーメッセージの内容を確認する。
syslogに出力されたエラーメッセージの内容を確認します。
- 系の状態およびサーバの状態を確認する。
HAモニタによって,系切り替えが完了したかどうかを確認します。サーバ・系の状態表示コマンド(monshowコマンド)を実行して,次の点を確認します。
- 実行系で実行サーバが再起動しているかを確認する。
サーバ対応の環境設定のswitchtypeオペランドに"restart"または"manual"を指定した場合に,確認してください。
- 待機系の待機サーバが,実行サーバに切り替わったかを確認する。
実行サーバが起動していなくて,待ち状態になっている場合は,業務が停止している状態です。業務を再開するには,オペレータの対処が必要です。オペレータの対処については,「7.3.1 待ち状態のサーバを起動して業務を再開する」を参照してください。
- 業務が問題なく継続できていることを確認する。
業務自体に問題がないことを確認します。確認する内容や方法は,業務内容によって異なります。例えば,次の点を確認します。
- サーバ,クライアント間の通信ができているか。
- 業務を実行するプログラムが正しく動作しているか。
- 障害が発生した系で,障害を取り除く。
出力されたメッセージと対処を参考にして,障害を取り除きます。共有リソースを操作する必要がある場合は,「7.2.3 共有リソースをメンテナンスするときの注意事項」に記載されている注意事項に従って操作してください。また必要に応じて,HAモニタの障害情報を収集してください。詳細については,「7.3.2 障害情報を収集する」を参照してください。
主な障害については,対処方法を説明しています。障害への対処方法については,「7.4 障害への対処」を参照してください。
- 障害が発生した系を再起動する。
現用系で障害が発生した場合は,予備系で業務を実行しているため,障害が発生した系を待機系として再起動しておくと,現在業務を実行している予備系の障害に備えることができます。詳細については,「7.3.3 障害が発生した系を再起動する」を参照してください。
- サーバや系の状態を確認する。
障害が発生したサーバまたは系が問題なく再起動できたかを,HAモニタのコマンドを使用して確認します。詳細については,「7.3.4 障害対処後にサーバや系の状態を確認する」を参照してください。
- <この節の構成>
- 7.3.1 待ち状態のサーバを起動して業務を再開する
- 7.3.2 障害情報を収集する
- 7.3.3 障害が発生した系を再起動する
- 7.3.4 障害対処後にサーバや系の状態を確認する