Hitachi

Hitachi Command Suite Configuration Manager REST API リファレンスガイド


13.3 Universal Replicatorペアの正サイト障害時のリカバリ操作の流れ

Universal Replicatorの正サイト側で障害が発生した場合に、REST APIを使用して、副サイト側に運用を切り替えて業務を継続することができます。また、正サイトが障害から復旧した後に、副サイトから正サイトへ運用を切り替え、障害発生前の状態に戻すこともできます。
Universal Replicatorペアのリカバリ操作は、大きく次のフェーズに分けて実施します。
  1. 副サイトでの業務に切り替える
  2. 副サイトから正サイトへデータをコピーする
  3. 正サイトと副サイトのペアの関係を障害前の状態に戻す
各フェーズでの操作の流れについて説明します。

副サイトでの業務に切り替える

正サイトでの障害を検知したあと、Universal Replicatorペアのプライマリボリュームとセカンダリボリュームの役割を入れ替え、セカンダリボリュームに書き込みができるようにすることで、副サイトで業務を引継いで継続できるようにします。

メモ

正サイトで障害が発生している場合、正側のペアの情報は取得できません。そのため、副サイト側での業務に切り替えるボリュームを特定するためには、正サイトにあるUniversal Replicatorペアが、どのストレージシステムとペアを構築しているかをあらかじめ把握しておく必要があります。

操作の流れを次の図に示します。

[図データ]
業務システムの停止

正サイトでの障害を検知したあと、業務システムを停止し、ホストからのI/Oがない状態にします。

コピーグループまたはペアの情報取得

副サイト側のストレージシステムでコピーグループの一覧を取得し、その情報をもとに副サイト側のコピーペアの情報を取得します。これらのAPIの実行時には、クエリパラメータやオブジェクトIDでリモートストレージシステムの情報を指定しますが、この場合はNotSpecifiedを指定します。

引継ぎ対象ペアの特定

副サイト側のペア情報をもとに、引継ぎ対象のペアを特定します。

副サイト側のボリュームへの業務の引き継ぎ

ペアまたはコピーグループを指定して、プライマリボリュームとセカンダリボリュームの役割を入れ替えます。セカンダリボリュームに書き込みができる状態になります。 

メモ

テイクオーバーの実行モードにautoを指定した場合は、自動的にストレージシステムが副サイトから正サイトへの再同期を試みます。再同期に成功した場合、次の流れ(副サイトから正サイトへデータへデータをコピーする流れ)で行うペアの分割や再同期は不要です。再同期に成功したかどうかは、ペアの情報を取得して確認してください。

業務システムの再開(副サイト側)

副サイトでの運用で業務システムを再開します。 

副サイトから正サイトへデータをコピーする

正サイトが復旧したあと、障害中に副サイト側に書き込まれたデータを正サイト側に反映します。操作の流れを次の図に示します。

[図データ]
業務システムの停止

業務システムを停止し、ホストからのI/Oがない状態にします。

コピーグループまたはペアの情報取得

コピーグループの情報をもとにコピーペアの情報を取得し、ペアの状態を確認します。

ペアの分割または削除

ペアの状態に応じて、次の操作を実行します。

  • S-VOLがSSWSのペアの場合は、ペアを分割します。
  • P-VOLまたはS-VOLのどちらかがSMPLの場合は、ペアを削除します。
ペアの再同期または再作成

ペアの状態に応じて、次の操作を実行します。

  • S-VOLがSSWSのペアの場合は、副サイト側(S-VOL)でペアを再同期します。そのとき、doSwapSvoltrueを指定します。
  • 正サイト側と副サイト側がともにSMPLのペアの場合、副サイト側がP-VOLになるよう指定してペアを作成します。

正サイトと副サイトのペアの関係を障害前の状態に戻す

ペアの状態がすべてPAIRになり、副サイト側のデータがすべて正サイト側に反映されたら、正サイト側で通常の運用を再開できるようにします。操作の流れを次の図に示します。

[図データ]
コピーグループまたはペアの情報取得

コピーグループの情報をもとにペアの情報を取得し、対象のペアの状態がPAIRになっていることを確認します。

ペアの分割

ペアを分割します。

ペアの再同期

正サイト側(P-VOL)でペアを再同期します。doSwapSvoltrueを指定します。

コピーグループまたはペアの情報取得

コピーグループの情報をもとにペアの情報を取得し、対象のペアの状態がPAIRになっていることを確認します。

正サイト側と副サイト側のペアの状態やコピーの方向が障害発生前の状態に戻り、業務システムを再開できる状態になります。