Hitachi

高信頼化システム監視機能 HAモニタ AIX(R)編


7.5.6 共有ディスクのデバイス障害に対処する(実行サーバ起動時)(ハイブリッドフェンシングを使用する場合)

リザーブをする対象となる共有ディスクのデバイスで,実行サーバ起動時に障害が発生した場合の対処について説明します。

ここで対処を説明する障害を次に示します。デバイスとは,サーバ対応の環境設定のscsi_deviceオペランドに指定したデバイスのことを指しています。

なお,一部のデバイスでI/Oエラーが発生している場合の対処については,「7.5.7 共有ディスクのデバイス障害に対処する(実行サーバ起動時以外)(ハイブリッドフェンシングを使用する場合)」を参照してください。

〈この項の構成〉

(1) デバイスがリザーブされている場合の対処

一部,またはすべてのデバイスがすでにリザーブされていると,HAモニタはメッセージKAMN725-W,およびKAMN726-Eを出力し,サーバの起動に失敗します。その場合は,リザーブされている原因を調査し,原因に応じた対処をしてください。

原因および対処を次に示します。

原因1
  • 系障害後に系切り替えをして実行サーバとなったあと,実行サーバの停止時に,メッセージKAMN728-Wが出力された

  • 系障害後に系切り替えをして実行サーバとなったあと,実行サーバが稼働したままOSをシャットダウンした

  • 系障害後に系切り替えをして実行サーバとなったあと,待機サーバが未起動の場合など,系切り替えできない状態で実行系の系障害が発生した

対処1

リザーブ解除コマンド(monscsiclrコマンド)を実行してリザーブを解除し,サーバを再起動してください。

原因2
  • HAモニタの定義誤りによって,同じ共有ディスクを定義したサーバが実行サーバとして稼働している

  • HAモニタ以外のプログラムがデバイスをリザーブしている

対処2

これらが原因でデバイスがリザーブされている場合,または原因が不明な場合は,次の図に従ってそれぞれ対処してください。そのあとで,サーバを再起動してください。

図中の番号は,以降の詳細説明の番号と対応しています。

図7‒4 デバイスがリザーブされている場合の原因の切り分けと対処

[図データ]

  1. メッセージKAMN725-Wに出力されたホストアドレスが,自系のHAモニタの環境設定のaddressオペランドの指定値と同じか。

    同じ:手順2.へ

    異なる:手順7.へ

  2. メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが停止するときに,メッセージKAMN728-Wを出力しているか。

    出力している:リザーブ解除コマンド(monscsiclrコマンド)を実行し,リザーブを解除してください。

    出力していない:手順3.へ

  3. メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが実行系として稼働しているときに,自系で次のどれかの事象が発生しているか。

    • OSのシャットダウン

    • メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの停止時に,リザーブの解除に失敗(メッセージKAMN725-Wを出力)

    • 自系のどれかのサーバで,リソースの切り離し失敗によってメッセージKAMN725-Wを出力し,HAモニタが停止

    発生している:リザーブ解除コマンド(monscsiclrコマンド)を実行し,リザーブを解除してください。

    発生していない:手順4.へ

  4. 自系と接続していない系にHAモニタ(テスト環境を含む)があるか。

    ある:手順5.へ

    ない:手順6.へ

  5. サーバ対応の環境設定のscsi_deviceオペランドの指定値が自系と重複していないか。

    重複している:共有ディスクの構成を確認して,scsi_deviceオペランドを修正してください。

    重複していない:手順6.へ

  6. HAモニタ以外のソフトウェアがリザーブしているか。

    している:リザーブしているプログラムを停止してください。

    していない:リザーブ解除コマンド(monscsiclrコマンド)を実行し,リザーブを解除してください。

  7. メッセージKAMN725-Wに出力されたホストアドレスの系で,メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが停止するときに,メッセージKAMN728-Wを出力しているか。

    出力している:リザーブ解除コマンド(monscsiclrコマンド)を実行し,リザーブを解除してください。

    出力していない:手順8.へ

  8. メッセージKAMN725-Wに出力されたホストアドレスの系で,同メッセージに出力されたサーバ識別名で示すサーバが実行系として稼働しているときに,自系で次のどれかの事象が発生しているか。

    • OSのシャットダウン

    • メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの停止時に,リザーブの解除に失敗(メッセージKAMN725-Wを出力)

    • 自系のどれかのサーバで,リソースの切り離し失敗によってメッセージKAMN725-Wを出力し,HAモニタが停止

    発生している:リザーブ解除コマンド(monscsiclrコマンド)を実行し,リザーブを解除してください。

    発生していない:手順9.へ

  9. メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの自系のscsi_deviceオペランドに設定したデバイス名と,同メッセージに出力されたホストアドレスの系のscsi_deviceオペランドの指定値が同じか。

    同じ:手順4.へ

    異なるscsi_deviceオペランドの指定値が系間で一致するように修正してください。

(2) すべてのデバイスでI/Oエラーが発生した場合の対処

すべてのデバイスでI/Oエラーが発生すると,HAモニタはメッセージKAMN725-W,およびKAMN726-Eを出力し,サーバの起動に失敗します。I/Oエラーが発生した場合の対処手順を次に示します。

  1. I/Oエラーの原因を調査する。

    メッセージKAMN725-WKAMN726-E,およびカーネルが出力するメッセージを参照したり,ハードウェアの管理ツールを使用したりして,障害の原因を調査してください。

  2. I/Oエラーの原因を取り除く。

    原因となった機器を交換するなどし,I/Oエラーの原因を取り除いてください。

  3. マルチパス構成の場合は,I/Oエラーから復旧したパスをオンライン状態に回復(フェイルバック)する。

    マルチパスソフトウェア(HDLM)のコマンドを使用して,復旧したパスをオンライン状態に回復(フェイルバック)します。パスをオンライン状態に回復する方法については,マニュアルHitachi Dynamic Link Manager Software ユーザーズガイド(AIX(R)用)を参照してください。

    シングルパス構成の場合は,この手順は不要です。

  4. サーバを再起動する。