Hitachi

Cosminexus V11 アプリケーションサーバ 仮想化システム構築・運用ガイド


6.3.1 仮想サーバの障害要因の調査

ここでは,仮想サーバの障害要因を調査する方法について説明します。

仮想サーバ上のアプリケーションサーバで発生する障害は,JP1/IMなどを利用して監視できます。また,仮想サーバの起動,停止,更新などの処理中に障害が発生した場合は,管理ユニットに属する仮想サーバの状態を表示して確認できます。

障害が発生した仮想サーバグループを調査する手順を次に示します。

ポイント

作業を実施するユーザ:システム構築者

ここでは,管理ユニット「gyoumu_a」で,仮想サーバグループ「vmgroup_1」内の仮想サーバ識別子が「192.168.1.101」の仮想サーバで障害が発生した例を示します。

  1. 管理用端末マシンから仮想化システム管理用サーバマシンにリモート接続します。

  2. vmiunitコマンドのサブコマンド「status」を使用して,管理ユニットに属する仮想サーバの状態を表示して,障害が発生した仮想サーバグループを特定します。

    コマンドの実行例と実行結果の例を次に示します。

    vmiunit status -unit gyoumu_a -target virtualserver
    (コマンド実行結果の例)
    Virtual Server ID:  192.168.1.101
    Tier ID:            combined-system01
    Group Name:         vmgroup_1
    Update Scope:       all
    Logical Status:     fault(updating)
    Observed Status:    stopped
    LB Status:          blocked
    Access:             online
     
    Virtual Server ID:  192.168.1.102
    Tier ID:            combined-system01
    Group Name:         vmgroup_2
    Update Scope:       none
    Logical Status:     working
    Observed Status:    working
    LB Status:          unblocked
    Access:             online

    この例は,管理ユニットに属する仮想サーバが次の表に示す状態であることを示しています。

    実行結果の項目

    説明

    管理ユニットに属する仮想サーバの状態

    Virtual Server ID

    仮想サーバ識別子

    192.168.1.101

    192.168.1.102

    Tier ID

    ティア識別子

    combined-system01

    combined-system01

    Group Name

    仮想サーバグループ名

    vmgroup_1

    vmgroup_2

    Update Scope

    仮想サーバの定義の変更範囲

    すべての定義で更新が必要

    更新の必要なし

    Logical Status

    仮想サーバの論理ステータス

    反映失敗の障害状態

    稼働中状態

    Observed Status

    仮想サーバの実ステータス

    停止状態

    稼働中状態

    LB Status

    仮想サーバの負荷分散機ステータス

    閉塞状態

    閉塞解除状態

    Access

    サーバ通信エージェントとの通信状態

    正常

    正常

    これによって,仮想サーバグループ「vmgroup_1」内の仮想サーバ識別子「192.168.1.101」の仮想サーバが,障害停止中(論理ステータスがfault(updating)(反映失敗の障害状態)と実ステータスがstopped(停止状態))であることがわかります。

  3. 管理用端末マシンからハイパーバイザ管理用サーバマシンにリモート接続します。

  4. 必要に応じて,障害が発生した仮想サーバが稼働するハイパーバイザの情報を取得するか,またはリソース管理者に取得依頼します。

  5. 特定した仮想サーバに直接アクセスして,障害要因を調査します。

    障害要因として,次の問題が考えられます。

    • 定義ディレクトリの問題

    • アプリケーションの問題

    • 仮想サーバのテンプレートの問題

    • 仮想サーバが稼働するハイパーバイザの問題

    フックスクリプトを利用してJP1連携を自動設定している場合は,次のファイルを順番に参照して障害要因を調査してください。

    • フックスクリプトによって出力されたトレースファイル

      トレースファイルは,フックスクリプトでSCRIPT_TRACEパラメタに指定したファイル名で出力されます。このファイルを参照してエラーメッセージとエラーが発生したコマンドを確認します。

    • フックスクリプト

      トレースファイルで確認したエラーメッセージをフックスクリプトで検索して,エラーメッセージを出力したコマンドを特定します。そのコマンドで使用しているパラメタの指定内容を確認してください。

    • JP1製品のログファイル

      フックスクリプトで特定したコマンドがJP1製品のコマンドの場合は,仮想サーバ上のJP1製品のログファイルを参照し,エラーの原因を調査してください。

    • Management Serverのログファイル

      フックスクリプトで特定したコマンドがManagement Serverのコマンドの場合は,仮想サーバ上のManagement Serverのログを参照し,エラーの原因を調査してください。

  6. 管理用端末マシンから仮想化システム管理用サーバマシンにリモート接続します。

  7. 必要に応じて,vmiunitコマンドのサブコマンド「mark」を使用して,特定した仮想サーバグループに障害マークを設定します。

    コマンドの実行例を次に示します。

    vmiunit mark -unit gyoumu_a -group vmgroup_1