Cosminexus サービスプラットフォーム システム構築・運用ガイド

[目次][用語][索引][前へ][次へ]

7.1 障害対策の流れ

簡易構築中に障害が発生し環境構築に失敗した場合,次の図に示す手順で障害要因を特定してください。

図7-1 障害対策の流れ

[図データ]

各手順の説明を次に説明します。

(a) 現象の確認

障害解析のために,どのような環境でどのような現象が発生したのか状況を確認します。

確認する項目については,「7.2 障害調査のために必要な情報」を参照してください。

(b) 障害情報の収集

障害を調査するために取得している障害情報(ログやトレースなど)のうち,必要な障害情報(一次資料および二次資料)を集めます。一次資料は障害を調査する上で一次判別のために使用し,二次資料は一次判別で判明した障害の内容に応じて使用する障害情報です。

必要な資料については,「7.2 障害調査のために必要な情報」を参照してください。また,障害情報の取得方法については,「7.3 障害情報の取得」を参照してください。障害情報の種類によって,必ず取得されるものと,取得の設定が必要なものとがあるため注意してください。

(c) 障害発生個所の特定

収集した障害情報の内容を確認して障害を調査し,障害発生個所を特定します。障害調査の結果,サービスリクエスタやサービス部品などのユーザプログラムがエラーメッセージや例外を出力している場合は,システム開発者に確認し,障害要因の特定および回復をする必要があります。

それ以外の場合,最初に,サービス部品呼び出し要求時の障害であるか,オペレーション(コマンド操作や運用環境の画面からの操作)実行時の障害であるか,行った操作を基に要因を切り分けます。

HCSCサーバ,およびHCSC-Managerが出力するログおよびトレースの見方(出力形式)については,「7.4 障害情報の種類」を参照してください。それ以外の前提製品が出力する障害情報については,各製品のマニュアルを参照してください。

(d) 障害要因の特定

障害発生個所や障害発生時の操作によって,障害が発生した要因(原因)を特定します。

(e) 障害情報の再収集

障害要因を特定できない場合,システム管理者または保守員への連絡に必要な保守情報を収集します。詳細については「7.2 障害調査のために必要な情報」を参照してください。

(f) システム管理者または保守員に連絡

システム管理者または保守員に連絡し,一次資料および保守資料を送付します。また,発生した障害などの状況に応じて二次資料を送付します。

(g) 回復

障害が発生した要因(原因)を取り除き,正常な動作となるよう回復させて,運用を再開します。