7.1 障害対策の流れ
障害対策に必要な情報を障害発生時に出力させるためには,事前設定が必要な場合があります。詳細については,「7.3 障害情報の取得」を参照してください。
構築中または運用中に障害が発生し環境構築に失敗した場合,次の図に示す手順で障害要因を特定してください。
各手順の説明を次に説明します。
-
現象の確認
障害解析のために,どのような環境でどのような現象が発生したのか状況を確認します。
確認する項目については,「7.2 障害の種類と障害情報」を参照してください。
-
障害情報の収集
障害を調査するために取得している障害情報(ログやトレースなど)のうち,必要な障害情報(一次資料および二次資料)を収集します。
-
一次資料:障害を調査する上で一次判別のために使用
-
二次資料:一次判別で判明した障害の内容に応じて使用する障害情報
必要な資料については,「7.2 障害の種類と障害情報」を参照してください。
また,障害情報の取得方法については,「7.3 障害情報の取得」を参照してください。障害情報の種類によって,必ず取得されるものと,取得の設定が必要なものとがあるため注意してください。
-
-
障害発生個所の特定
収集した障害情報の内容を確認して障害を調査し,障害発生個所を特定します。
エラーメッセージや例外の出力元がサービスリクエスタやサービス部品などのユーザプログラムである場合は,システム開発者に確認し,障害要因の特定および回復をする必要があります。
それ以外の場合は,障害発生時に実行していた操作で次のように分類します。
-
オペレーション(コマンド操作や運用環境の画面からの操作)実行時の障害
「7.6 オペレーション実行時の障害対策」を参照してください。
-
サービス部品呼び出し要求時の障害
「7.7 サービス部品呼び出し要求時の障害対策」を参照してください。
HCSCサーバおよびHCSC-Managerが出力するログおよびトレースの見方(出力形式)については,「7.4 出力された障害情報の確認方法」を参照してください。それ以外の前提製品が出力する障害情報については,各製品のマニュアルを参照してください。
-
-
障害要因の特定
障害発生個所や障害発生時の操作によって,障害が発生した要因(原因)を特定します。
-
障害情報の再収集
障害要因を特定できない場合,システム管理者または保守員への連絡に必要な保守情報を収集します。詳細については「7.2 障害の種類と障害情報」を参照してください。
-
システム管理者または保守員に連絡
システム管理者または保守員に連絡し,一次資料および保守資料を送付します。また,発生した障害などの状況に応じて二次資料を送付します。
-
回復
障害が発生した要因(原因)を取り除き,正常な動作となるよう回復させて,運用を再開します。