Cosminexus V9 アプリケーションサーバ 仮想化システム構築・運用ガイド

[目次][用語][索引][前へ][次へ]

6.3.1 仮想サーバの障害要因の調査

ここでは,仮想サーバの障害要因を調査する方法について説明します。

仮想サーバ上のアプリケーションサーバで発生する障害は,JP1/IMなどを利用して監視できます。また,仮想サーバの起動,停止,更新などの処理中に障害が発生した場合は,管理ユニットに属する仮想サーバの状態を表示して確認できます。

障害が発生した仮想サーバグループを調査する手順を次に示します。

ポイント
作業を実施するユーザ:システム構築者

ここでは,管理ユニット「gyoumu_a」で,仮想サーバグループ「vmgroup_1」内の仮想サーバ識別子が「192.168.1.101」の仮想サーバで障害が発生した例を示します。

  1. 管理用端末マシンから仮想化システム管理用サーバマシンにリモート接続します。
  2. vmiunitコマンドのサブコマンド「status」を使用して,管理ユニットに属する仮想サーバの状態を表示して,障害が発生した仮想サーバグループを特定します。
    コマンドの実行例と実行結果の例を次に示します。
    vmiunit status -unit gyoumu_a -target virtualserver
    (コマンド実行結果の例)
    Virtual Server ID:  192.168.1.101
    Tier ID:            combined-system01
    Group Name:         vmgroup_1
    Update Scope:       all
    Logical Status:     fault(updating)
    Observed Status:    stopped
    LB Status:          blocked
    Access:             online
     
    Virtual Server ID:  192.168.1.102
    Tier ID:            combined-system01
    Group Name:         vmgroup_2
    Update Scope:       none
    Logical Status:     working
    Observed Status:    working
    LB Status:          unblocked
    Access:             online
    この例は,管理ユニットに属する仮想サーバが次の表に示す状態であることを示しています。
    実行結果の項目 説明 管理ユニットに属する仮想サーバの状態
    Virtual Server ID 仮想サーバ識別子 192.168.1.101 192.168.1.102
    Tier ID ティア識別子 combined-system01 combined-system01
    Group Name 仮想サーバグループ名 vmgroup_1 vmgroup_2
    Update Scope 仮想サーバの定義の変更範囲 すべての定義で更新が必要 更新の必要なし
    Logical Status 仮想サーバの論理ステータス 反映失敗の障害状態 稼働中状態
    Observed Status 仮想サーバの実ステータス 停止状態 稼働中状態
    LB Status 仮想サーバの負荷分散機ステータス 閉塞状態 閉塞解除状態
    Access サーバ通信エージェントとの通信状態 正常 正常
    これによって,仮想サーバグループ「vmgroup_1」内の仮想サーバ識別子「192.168.1.101」の仮想サーバが,障害停止中(論理ステータスがfault(updating)(反映失敗の障害状態)と実ステータスがstopped(停止状態))であることがわかります。
  3. 管理用端末マシンからハイパーバイザ管理用サーバマシンにリモート接続します。
  4. 必要に応じて,障害が発生した仮想サーバが稼働するハイパーバイザの情報を取得するか,またはリソース管理者に取得依頼します。
  5. 特定した仮想サーバに直接アクセスして,障害要因を調査します。
    障害要因として,次の問題が考えられます。
    • 定義ディレクトリの問題
    • アプリケーションの問題
    • 仮想サーバのテンプレートの問題
    • 仮想サーバが稼働するハイパーバイザの問題
    フックスクリプトを利用してJP1連携を自動設定している場合は,次のファイルを順番に参照して障害要因を調査してください。
    • フックスクリプトによって出力されたトレースファイル
      トレースファイルは,フックスクリプトでSCRIPT_TRACEパラメタに指定したファイル名で出力されます。このファイルを参照してエラーメッセージとエラーが発生したコマンドを確認します。
    • フックスクリプト
      トレースファイルで確認したエラーメッセージをフックスクリプトで検索して,エラーメッセージを出力したコマンドを特定します。そのコマンドで使用しているパラメタの指定内容を確認してください。
    • JP1製品のログファイル
      フックスクリプトで特定したコマンドがJP1製品のコマンドの場合は,仮想サーバ上のJP1製品のログファイルを参照し,エラーの原因を調査してください。
    • Management Serverのログファイル
      フックスクリプトで特定したコマンドがManagement Serverのコマンドの場合は,仮想サーバ上のManagement Serverのログを参照し,エラーの原因を調査してください。
  6. 管理用端末マシンから仮想化システム管理用サーバマシンにリモート接続します。
  7. 必要に応じて,vmiunitコマンドのサブコマンド「mark」を使用して,特定した仮想サーバグループに障害マークを設定します。
    コマンドの実行例を次に示します。
    vmiunit mark -unit gyoumu_a -group vmgroup_1