Hitachi

高信頼化システム監視機能 HAモニタ Linux(R)(x86)編


4.2.1 系のリセットをする系の決定方法

HAモニタでは,実行系に系障害が発生すると,待機系が実行系に対して系のリセットをしたあとに,系切り替えをします。系切り替え構成によっては,複数の待機系が系のリセットを発行するため,実行系の回復が遅くなる場合があります。そのため,あらかじめ系のリセットをする待機系を決めておきます。この系のリセットをする待機系をリセット発行系と呼びます。複数の待機系が系のリセットを発行するおそれがある構成については,「3.3.3 系の二重リセットの防止」を参照してください。

ここでは,リセット発行系の決定方法,および系障害時のリセット発行系の動作について説明します。

〈この項の構成〉

(1) リセット発行系の決定方法

システム起動時に,オペレータは実行系で実行サーバを起動し,待機系では,実行サーバに対応する待機サーバを起動します。最初に実行系と待機系の組み合わせ(ペア)が成り立つと,その待機系が,実行系に対するリセット発行系になります。実行系で系障害が発生すると,最初にその実行系とペアになった待機系(リセット発行系)が実行系をリセットします。そのあとにほかの系との間でペアが成り立っても,実行系をリセットする系は,最初にペアになったリセット発行系だけです。

サーバが停止して,実行系と,最初にリセット発行系になった待機系とのペアが成り立たなくなった場合,リセット発行系はあとからペアになった待機系に変更されます。あとからペアになった待機系が複数ある場合は,その中でホストアドレスの最も小さい待機系が,以降のリセット発行系になります。

HAモニタがリセット発行系を決定する方法を,次の図に示します。

図4‒10 HAモニタがリセット発行系を決定する方法

[図データ]

この図では,実行サーバ1が停止して実行系と待機系1とのペアが成り立たなくなったため,リセット発行系は,あとからペアになった待機系2または待機系3に変更されます。待機系2と待機系3とでは,待機系2のホストアドレスが小さいので,待機系2がリセット発行系になります。

(2) 系障害発生時のリセット発行系の動作

リセット発行系は,実行系をリセットすると,ほかの待機系に対してリセットの完了を連絡します。リセット発行系でない待機系は,リセット完了連絡を受けると,リセットされた実行系の実行サーバを,自系にある待機サーバに切り替えます。

リセット発行系でない待機系が実行系の系障害を検出した場合は,リセット発行系のリセット完了連絡があるまで,何もしないで待ちます。監視専用LANの障害などで,40秒(VMware ESXiで仮想化する場合は80秒)待ってもリセット完了連絡がない場合は,リセット発行系からのリセットが失敗したと見なし,実行系の系障害を検出した待機系が実行系をリセットします。

系障害発生時のリセット発行系の動作を,次の図に示します。

図4‒11 系障害発生時のリセット発行系の動作

[図データ]

次に,系障害発生時のリセット発行系の動作の詳細を説明します。番号は,上記の図と対応しています。

  1. リセット指示

    待機系(リセット発行系)は,実行系の系障害を検出すると,実行系をリセットします。

  2. リセット完了連絡

    リセット完了後,ほかの待機系にリセット完了を連絡します。

  3. 系切り替え

    リセット完了の連絡を受け取ると,実行系の実行サーバをそれぞれの待機サーバに系切り替えをします。

リセット発行系でない待機系が実行系の系障害を検出した場合の動作を,次の図に示します。

図4‒12 リセット発行系でない待機系が実行系の系障害を検出した場合の動作

[図データ]

次に,リセット発行系でない待機系が実行系の系障害を検出した場合の動作の詳細を説明します。番号は,上記の図と対応しています。

  1. リセット完了連絡未受信

    リセット発行系以外の系が実行系の系障害を検出した場合は,リセット発行系のリセット完了の連絡を待ちます。

  2. リセット指示

    監視専用LANの障害などでリセット完了の連絡がない場合,障害を検出した系が実行系をリセットします。

リセットの完了連絡を待つ時間は40秒です。ただし,VMware ESXiで仮想化する場合は,80秒になります。