Hitachi

高信頼化システム監視機能 HAモニタ Linux(R)(x86)編


2.3.5 系のリセット

系のリセットとは,障害が発生した系の入出力を閉塞させるため,システムを強制停止させることです。系のリセットによって,同じ実行サーバが複数の系で稼働することを防ぎます。

この機能を使用するかどうかは「1.4 系切り替えの方式」および「3.1 HAモニタで使用できる機能一覧」を参照して判断してください。

系のリセットは,HAモニタと障害管理プロセサが連携することで実現しています。系のリセットをする場合で,かつVMware ESXiで仮想化する場合は,VMware ESXiおよび障害管理プロセサと連携します。

HAモニタは系障害を監視し,系障害を検出した時点で系切り替えができる状態だった場合は,系のリセットを要求します。通常は,待機系が,障害が発生した実行系をリセットします(実行系のリセット)。系切り替え構成の種類によっては,実行系が待機系をリセットすることもできます(待機系のリセット)。

メモ

系のリセットに失敗する場合の対処については,「7.5.3 系のリセット失敗に対処する」を参照してください。

〈この項の構成〉

(1) 実行系のリセット

実行系の系障害を待機系で検出すると,HAモニタはリセットパスを介してリセットコマンドを発行し,実行系の障害管理プロセサに実行系のリセットを要求します。リセット時には,システムダンプが取得できる状態であれば,OSの機能によって,リセットされた系のシステムダンプが取得されます。リセットが完了すると,HAモニタが系切り替えを開始します。リセットが失敗した場合は,ユーザが手動でリセットして,システムダンプを取得する必要があります。

システムダンプを正常に取得するには,Linux Tough Dumpが必要です。Linux Tough Dumpについては,弊社担当営業にお問い合わせください。

HAモニタが行う系の状態監視と系のリセットを,次の図に示します。

図2‒14 系の状態監視と系のリセット

[図データ]

HAモニタは,aliveメッセージを送信し合って,他系の状態監視をします。実行系で系障害が発生すると,待機系のHAモニタは実行系からのaliveメッセージを受信できないため,待機系のHAモニタは障害管理プロセサにリセットを要求します。要求を受けた障害管理プロセサは,系のリセットを指示します。

注※

HA8000xNモデル以降,またはRV3000の場合は,管理サーバにある障害管理プロセサと連携します。

VMware ESXiで仮想化する場合は,障害管理プロセサではなくVMware ESXiになります。

系のリセットはハードウェアとの連携で実現しているので,系ごとに固有のホストアドレスをHAモニタの環境設定のaddressオペランドで指定しておきます。指定するホストアドレスは,TCP/IPのIPアドレスやOSIのMACアドレスではなく,HAモニタの管理者が任意に指定するアドレスです。

マシンの機種がBladeSymphonyの場合,系障害が発生した実行系と,リセット指示を出す待機系が同じシャーシ内にあることもありますが,HAモニタおよび障害管理プロセサの動作は変わりません。

VMware ESXiで仮想化する場合,実行系のHAモニタが動作する仮想マシンに障害が発生すると,待機系のHAモニタは障害が発生した仮想マシンだけをリセットします。待機系のHAモニタが実行系のHAモニタの仮想マシンを管理するVMware ESXiにリセットを要求し,障害となった仮想マシンがリセットされます。そのため,VMware ESXiで仮想化する場合,通常の設定に加え,VMware ESXiのIPアドレスおよび仮想マシン名をHAモニタの環境設定コマンド(monsetupコマンド)で設定しておく必要があります。

なお,日立サーバ論理分割機構(Virtage)またはVMware ESXiによる仮想化環境で系のリセットに失敗した場合,物理パーティションリセット機能を使用してプロセサ全体をリセットすることもできます。物理パーティションリセット機能については,「3.3.7 仮想化環境での物理パーティションリセット機能」を参照してください。

RV3000で高信頼化機能を追加したvSphereを使用している場合は,HA Monitor Connectorが仮想マシンをリセットします。そのため,高信頼化機能を追加したvSphereに関する設定は,HA Monitor Connectorのドキュメントを参照して実施してください。

(2) 待機系のリセット

系切り替え構成の種類によっては,実行系やほかの待機系が,待機系をリセットすることがあります。

(a) 1:1系切り替え構成の場合

HAモニタの環境設定のpatrolオペランドに指定した系障害監視時間を超えても待機系からaliveメッセージが送信されなかった場合,実行系のHAモニタは,待機系に系障害が発生したと判断します。この場合,実行サーバでは業務を継続できるため,実行系のHAモニタは何もしません。

ただし,待機系に系障害が発生した状態では,実行系に障害が発生した場合に待機系に系切り替えができません。そのため,待機系の系障害を検出した時点で,実行系のHAモニタに待機系をリセットさせることもできます。系障害時に待機系をリセットするかどうかは,HAモニタの環境設定のstandbyresetオペランドで指定します。なお,待機系のリセットは,1:1系切り替え構成以外では使用しないでください。

待機系の系障害時に待機系がリセットされた場合,オペレータは系障害が発生した原因を調査し,対策を取る必要があります。

(b) 複数スタンバイ構成の場合

複数スタンバイ構成では,一つの実行系に対して複数の待機系があります。待機系に系障害が発生した場合,別の待機系が,障害が発生した待機系をリセットすることがあります。複数スタンバイ構成での系のリセットについては,「4.2.3 複数の待機系がある場合の系のリセット」を参照してください。