Hitachi

高信頼化システム監視機能 HAモニタ Linux(R)(x86)編


7.5.6 共有ディスクのデバイス障害に対処する(実行サーバ起動時)(共有ディスクのSCSIリザーブをする場合)

リザーブをする対象となる共有ディスクのデバイスで,実行サーバ起動時に障害が発生した場合の対処について説明します。

ここで対処を説明する障害を次に示します。デバイスとは,サーバ対応の環境設定のscsi_deviceオペランド,またはdmmp_deviceオペランドに指定したデバイスのことを指しています。

なお,一部のデバイスでI/Oエラーが発生している場合の対処については,「7.5.7 共有ディスクのデバイス障害に対処する(実行サーバ稼働中)(共有ディスクのSCSIリザーブをする場合)」を参照してください。

〈この項の構成〉

(1) デバイスがリザーブされている場合の対処

一部,またはすべてのデバイスがすでにリザーブされていると,HAモニタはメッセージKAMN725-W,およびKAMN726-Eを出力し,サーバの起動に失敗します。その場合は,リザーブされている原因を調査し,原因に応じた対処をしてください。

原因および対処を次に示します。

原因1
  • 実行サーバを停止したときに,I/Oエラーなどの要因でリザーブを解除できなかった(メッセージKAMN726-Eを出力)

  • 待機サーバが未起動の場合など,系切り替えできない状態で実行系の系障害が発生した

  • 実行サーバが稼働したままOSをシャットダウンした

  • 系障害で系切り替えをしたとき,障害となった系および待機サーバを起動する前に実行サーバを停止した

対処1

リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」の手順に従ってリザーブを解除して,サーバを再起動してください。

原因2
  • HAモニタの定義誤りによって,同じ共有ディスクを定義したサーバが実行サーバとして稼働している

  • HAモニタ以外のプログラムがデバイスをリザーブしている

対処2

これらが原因でデバイスがリザーブされている場合,または原因が不明な場合は,次の図に従ってそれぞれ対処してください。そのあとで,サーバを再起動してください。

図中の番号は,以降の詳細説明の番号と対応しています。

図7‒4 デバイスがリザーブされている場合の原因の切り分けと対処

[図データ]

  1. メッセージKAMN725-Wに出力されたホストアドレスが,自系のHAモニタの環境設定のaddressオペランドの指定値と同じか。

    同じ:手順2.へ

    異なる:手順7.へ

  2. メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが停止するときに,メッセージKAMN728-Wを出力しているか。

    出力している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。

    出力していない:手順3.へ

  3. メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが実行系として稼働しているときに,自系で次のどれかの事象が発生しているか。

    • OSのシャットダウン

    • メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの停止時に,リザーブの解除に失敗(メッセージKAMN725-Wを出力)

    • 自系のどれかのサーバで,リソースの切り離し失敗によってメッセージKAMN725-Wを出力し,HAモニタが停止

    発生している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。

    発生していない:手順4.へ

  4. 自系と接続していない系にHAモニタ(テスト環境を含む)があるか。

    ある:手順5.へ

    ない:手順6.へ

  5. サーバ対応の環境設定のscsi_deviceオペランド,またはdmmp_deviceオペランドの指定値が自系と重複していないか。

    重複している:共有ディスクの構成を確認して,scsi_deviceオペランド,またはdmmp_deviceオペランドを修正してください。

    重複していない:手順6.へ

  6. HAモニタ以外のソフトウェアがリザーブしているか。

    している:リザーブしているプログラムを停止してください。

    していない:「7.5.12 共有ディスクのSCSIリザーブの解除手順」を参照し,リザーブを解除してください。

  7. メッセージKAMN725-Wに出力されたホストアドレスの系で,メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが停止するときに,メッセージKAMN728-Wを出力しているか。

    出力している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。

    出力していない:手順8.へ

  8. メッセージKAMN725-Wに出力されたホストアドレスの系で,同メッセージに出力されたサーバ識別名で示すサーバが実行系として稼働しているときに,自系で次のどれかの事象が発生しているか。

    • OSのシャットダウン

    • メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの停止時に,リザーブの解除に失敗(メッセージKAMN725-Wを出力)

    • 自系のどれかのサーバで,リソースの切り離し失敗によってメッセージKAMN725-Wを出力し,HAモニタが停止

    発生している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。

    発生していない:手順9.へ

  9. メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの自系のscsi_deviceオペランド,またはdmmp_deviceオペランドに設定したデバイス名と,同メッセージに出力されたホストアドレスの系のscsi_deviceオペランド,またはdmmp_deviceオペランドの指定値が同じか。

    同じ:手順4.へ

    異なるscsi_deviceオペランド,またはdmmp_deviceオペランドの指定値が系間で一致するように修正してください。

(2) すべてのデバイスでI/Oエラーが発生した場合の対処

すべてのデバイスでI/Oエラーが発生すると,HAモニタはメッセージKAMN725-W,およびKAMN726-Eを出力し,サーバの起動に失敗します。I/Oエラーが発生した場合の対処手順を次に示します。

  1. I/Oエラーの原因を調査する。

    メッセージKAMN725-WKAMN726-E,およびカーネルが出力するメッセージを参照したり,ハードウェアの管理ツールを使用したりして,障害の原因を調査してください。

  2. I/Oエラーの原因を取り除く。

    原因となった機器を交換するなどし,I/Oエラーの原因を取り除いてください。

  3. マルチパス構成の場合は,I/Oエラーから復旧したパスをオンライン状態に回復(フェイルバック)する。

    マルチパスソフトウェア(HDLM,DMMP,またはHFC-PCM)のコマンドを使用して,復旧したパスをオンライン状態に回復(フェイルバック)します。パスをオンライン状態に回復する方法については,マニュアルHitachi Dynamic Link Manager Software ユーザーズガイド(Linux(R)用),DMMPまたはHFC-PCMのマニュアルを参照してください。

    シングルパス構成,またはVMware ESXiでの仮想化環境(DMMP未使用時)の場合は,この手順は不要です。

  4. サーバを再起動する。