Hitachi

高信頼化システム監視機能 HAモニタ パブリッククラウド編


2.1.1 【AWS】系障害時の系切り替え

HAモニタが系障害を検出した場合,次の2つの方法で系切り替えをします。

ここでは,HAモニタのそれぞれの系切り替えについて説明します。

〈この項の構成〉

(1) 系のリセットによる系切り替え

AWS環境では,障害系のインスタンスを強制停止することによって系をリセットし,系切り替えをします。強制停止に失敗した場合は,系切り替え待ち状態となり,オペレータの対処が必要です。

系障害時の,HAモニタの系のリセットによる系切り替えの概要を,次の図に示します。

図2‒1 系障害時の系のリセットによる系切り替えの概要(AWS)

[図データ]

注※

エンドポイントには,VPCエンドポイントを使用しても問題ありません。ただし,DNS名制御によって業務通信を切り替える場合は,インターネットゲートウェイを介してエンドポイントにアクセスする必要があります。

系障害時の,HAモニタの系切り替えの概要について説明します。番号は,上記の図と対応しています。

  1. 待機系が実行系の系障害を検知する。

  2. 待機系が実行系の強制停止を要求する。

  3. AWSによって実行系が強制停止される。

  4. 系切り替えによって待機系で実行サーバが起動して実行系になる。

  5. AWSによって障害が発生した系が再起動される。

  6. 系の起動時にHAモニタおよびサーバを自動起動させる設定にしている場合,再起動した系で待機サーバが起動して待機系になる。

(2) ネットワーク遮断による系切り替え

ネットワーク遮断による系切り替えは,障害系の入出力を閉塞させるため,障害系インスタンスのENIをデタッチして,障害系をネットワークから切り離すことで通信を遮断させる機能です。これによって,障害系の入出力を確実に遮断して系切り替えをします。

注※

ENIはDRBDレプリケーション,EFSへのアクセス,および業務通信に使用し,プライマリENIを使用していないことを前提としています。

ネットワーク遮断による系切り替えは,系のリセットによる系切り替えよりも所要時間が短いというメリットがあります。

系障害時のHAモニタのネットワーク遮断による系切り替えの概要を,次の図に示します。

図2‒2 ネットワーク遮断による系切り替えの概要(AWS)

[図データ]

ネットワーク遮断による系切り替えの動作は,次のとおりです。番号は,図中の番号と対応しています。

  1. 待機系が実行系の障害を検知する。

  2. 待機系が実行系のENIのデタッチを要求する。

  3. 実行系のENIがデタッチされ,実行系の実行サーバ用のネットワークが遮断される。

  4. 待機系が,ネットワークの遮断を確認後,実行サーバを系切り替えをする。

デタッチ対象のENIは次のとおりです。

ネットワークの遮断に掛かる時間はデタッチ対象のENIの数に比例するため,業務用LAN,レプリケーションパス,およびEFSへのアクセス用パスでENIを兼用するなど,ENIの数を必要最小限にすることを推奨します。

監視パスだけで使用するネットワークのENIについてはデタッチの対象外です。

なお,実行系のネットワークが遮断されると,系切り替えと並行して,実行系インスタンスは強制停止されます。実行系インスタンスの強制停止を確認後,実行系インスタンスにENIを再度アタッチし,実行系インスタンスの再起動によって,復旧に備えます。実行系インスタンスの強制停止から待機サーバ再起動までの流れについて,次の図に示します。

図2‒3 実行系の強制停止

[図データ]

図2‒4 実行系インスタンスの再起動

[図データ]

図2‒5 待機系サーバの再起動

[図データ]

実行系インスタンスの強制停止から待機サーバ再起動までの動作は,次のとおりです。番号は,図中の番号と対応しています。

  1. 系切り替えと並行して,待機系のHAモニタはAWSのエンドポイントに対し,実行系の強制停止を要求する。

  2. 実行系が強制停止される。

  3. 待機系のHAモニタは実行系が停止したことを確認後,AWSのエンドポイントに対し,実行系のENIのアタッチを指示する。

  4. 実行系のインスタンスにENIがアタッチされる。

  5. 待機系のHAモニタはENIがアタッチされたことを確認後,AWSのエンドポイントに対し,実行系のインスタンスの再起動を指示する。

  6. 実行系のインスタンスが再起動する。

  7. 系の起動時にHAモニタおよびサーバを自動起動させる設定にしている場合,再起動した系で待機サーバが起動して待機系になる。

ネットワークの遮断に失敗した場合でも,インスタンスの強制停止に成功すれば,系切り替えができます。ネットワークの遮断とインスタンスの強制停止の両方に失敗した場合は,系切り替え待ちとなります。

ネットワーク遮断による系切り替えは,次の場合に動作します。

ネットワーク遮断による系切り替えの動作時,次の事象が発生した場合は,ユーザによる対処が必要になります。