7.5.6 共有ディスクのデバイス障害に対処する(実行サーバ起動時)(共有ディスクのSCSIリザーブをする場合)
リザーブをする対象となる共有ディスクのデバイスで,実行サーバ起動時に障害が発生した場合の対処について説明します。
ここで対処を説明する障害を次に示します。デバイスとは,サーバ対応の環境設定のscsi_deviceオペランド,またはdmmp_deviceオペランドに指定したデバイスのことを指しています。
-
一部,またはすべてのデバイスがすでにリザーブされている。
-
すべてのデバイスでI/Oエラーが発生している。
なお,一部のデバイスでI/Oエラーが発生している場合の対処については,「7.5.7 共有ディスクのデバイス障害に対処する(実行サーバ稼働中)(共有ディスクのSCSIリザーブをする場合)」を参照してください。
(1) デバイスがリザーブされている場合の対処
一部,またはすべてのデバイスがすでにリザーブされていると,HAモニタはメッセージKAMN725-W,およびKAMN726-Eを出力し,サーバの起動に失敗します。その場合は,リザーブされている原因を調査し,原因に応じた対処をしてください。
原因および対処を次に示します。
- 原因1
-
-
実行サーバを停止したときに,I/Oエラーなどの要因でリザーブを解除できなかった(メッセージKAMN726-Eを出力)
-
待機サーバが未起動の場合など,系切り替えできない状態で実行系の系障害が発生した
-
実行サーバが稼働したままOSをシャットダウンした
-
系障害で系切り替えをしたとき,障害となった系および待機サーバを起動する前に実行サーバを停止した
-
- 対処1
-
リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」の手順に従ってリザーブを解除して,サーバを再起動してください。
- 原因2
-
-
HAモニタの定義誤りによって,同じ共有ディスクを定義したサーバが実行サーバとして稼働している
-
HAモニタ以外のプログラムがデバイスをリザーブしている
-
- 対処2
-
これらが原因でデバイスがリザーブされている場合,または原因が不明な場合は,次の図に従ってそれぞれ対処してください。そのあとで,サーバを再起動してください。
図中の番号は,以降の詳細説明の番号と対応しています。
図7‒4 デバイスがリザーブされている場合の原因の切り分けと対処
-
メッセージKAMN725-Wに出力されたホストアドレスが,自系のHAモニタの環境設定のaddressオペランドの指定値と同じか。
同じ:手順2.へ
異なる:手順7.へ
-
メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが停止するときに,メッセージKAMN728-Wを出力しているか。
出力している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。
出力していない:手順3.へ
-
メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが実行系として稼働しているときに,自系で次のどれかの事象が発生しているか。
-
OSのシャットダウン
-
メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの停止時に,リザーブの解除に失敗(メッセージKAMN725-Wを出力)
-
自系のどれかのサーバで,リソースの切り離し失敗によってメッセージKAMN725-Wを出力し,HAモニタが停止
発生している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。
発生していない:手順4.へ
-
-
自系と接続していない系にHAモニタ(テスト環境を含む)があるか。
ある:手順5.へ
ない:手順6.へ
-
サーバ対応の環境設定のscsi_deviceオペランド,またはdmmp_deviceオペランドの指定値が自系と重複していないか。
重複している:共有ディスクの構成を確認して,scsi_deviceオペランド,またはdmmp_deviceオペランドを修正してください。
重複していない:手順6.へ
-
HAモニタ以外のソフトウェアがリザーブしているか。
している:リザーブしているプログラムを停止してください。
していない:「7.5.12 共有ディスクのSCSIリザーブの解除手順」を参照し,リザーブを解除してください。
-
メッセージKAMN725-Wに出力されたホストアドレスの系で,メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバが停止するときに,メッセージKAMN728-Wを出力しているか。
出力している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。
出力していない:手順8.へ
-
メッセージKAMN725-Wに出力されたホストアドレスの系で,同メッセージに出力されたサーバ識別名で示すサーバが実行系として稼働しているときに,自系で次のどれかの事象が発生しているか。
-
OSのシャットダウン
-
メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの停止時に,リザーブの解除に失敗(メッセージKAMN725-Wを出力)
-
自系のどれかのサーバで,リソースの切り離し失敗によってメッセージKAMN725-Wを出力し,HAモニタが停止
発生している:リザーブ解除コマンド(monscsiclrコマンド),または「7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)」を参照し,リザーブを解除してください。
発生していない:手順9.へ
-
-
メッセージKAMN725-Wに出力されたサーバ識別名で示すサーバの自系のscsi_deviceオペランド,またはdmmp_deviceオペランドに設定したデバイス名と,同メッセージに出力されたホストアドレスの系のscsi_deviceオペランド,またはdmmp_deviceオペランドの指定値が同じか。
同じ:手順4.へ
異なる:scsi_deviceオペランド,またはdmmp_deviceオペランドの指定値が系間で一致するように修正してください。
(2) すべてのデバイスでI/Oエラーが発生した場合の対処
すべてのデバイスでI/Oエラーが発生すると,HAモニタはメッセージKAMN725-W,およびKAMN726-Eを出力し,サーバの起動に失敗します。I/Oエラーが発生した場合の対処手順を次に示します。
-
I/Oエラーの原因を調査する。
メッセージKAMN725-W,KAMN726-E,およびカーネルが出力するメッセージを参照したり,ハードウェアの管理ツールを使用したりして,障害の原因を調査してください。
-
I/Oエラーの原因を取り除く。
原因となった機器を交換するなどし,I/Oエラーの原因を取り除いてください。
-
マルチパス構成の場合は,I/Oエラーから復旧したパスをオンライン状態に回復(フェイルバック)する。
マルチパスソフトウェア(HDLM,DMMP,またはHFC-PCM)のコマンドを使用して,復旧したパスをオンライン状態に回復(フェイルバック)します。パスをオンライン状態に回復する方法については,マニュアルHitachi Dynamic Link Manager Software ユーザーズガイド(Linux(R)用),DMMPまたはHFC-PCMのマニュアルを参照してください。
シングルパス構成,またはVMware ESXiでの仮想化環境(DMMP未使用時)の場合は,この手順は不要です。
-
サーバを再起動する。