20.3.4 運用ケース別の設定項目と切り替え待ち時間

N+1コールドスタンバイおよびN+Mコールドスタンバイの自動切り替えを実施する場合,運用ケースによって必要な設定項目および自動切り替え対象アラートの切り替え待ち時間の見積もり方法が異なります。

自動切り替えに必要な設定,および自動切り替え待ち時間の見積もり方法を,運用ケースごとに,次の表に示します。

注意
  • ダンプを採取しないように運用すると障害の発生原因を特定できなくなるため,ダンプを採取するように運用してください。ダンプを採取しない運用は,障害の発生原因を追求するよりも現用系ホストの再起動または切り替えによる復旧を優先する場合に限って使用するようにしてください。
  • ダンプを手動で採取する場合は事前に設定が必要です。ダンプを採取するための設定方法については,マニュアル「BladeSymphonyソフトウェアガイド」を参照してください。
  • 自動切り替え待ち時間は表に示す見積もりの時間よりも長くなるように設定することをお勧めします。切り替え待ち時間が短過ぎる場合,ダンプの採取途中で自動切り替えが実行されてしまい,ダンプの採取に失敗することがあります。
  • N1Alert.datで自動切り替え待ち時間のデフォルト値が0分に設定されているアラートはハードウェア障害が原因で発生するアラートです。そのため,N+1コールドスタンバイの冗長化構成で切り替え開始順序の遅いマネージャサービスの場合を除き,自動切り替え待ち時間を変更しないことをお勧めします。
  • 管理対象ホストが複数ある場合,ダンプの採取に掛かる時間はOSやハードウェアの構成などによって異なります。ダンプの採取時間は,最も長く掛かる時間を見積もってください。
  • N+1コールドスタンバイの冗長化構成の場合,現用系ホストでのエージェントサービス起動による自動切り替えの中止は適用できません。また,N+1コールドスタンバイの冗長化構成で,切り替え開始順序の遅いマネージャサービスに対しては,表に示す自動切り替え待ち時間の見積もりに,「20.9 N+1冗長化の設定」で算出した切り替え時間を加算して設定する必要があります。

    表20-9 運用ケース別のN+1コールドスタンバイに必要な設定と自動切り替え対象アラートの自動切り替え待ち時間の見積もり

    項番障害アラート発生後の運用ケース必要な設定自動切り替え待ち時間の見積もり
    N1Alert.datの設定※1自動切り替え中止の設定※2障害監視の設定※3
    WindowsLinux
    1ダンプを採取してから自動切り替えを実行するForcedExeFlag=1
    WaitTime=自動切り替え待ち時間
    しない何もしない0障害発生からダンプの採取開始までの時間+ダンプの採取に掛かる時間
    2ダンプを採取してから自動切り替えを実行する
    (現用系ホストでエージェントサービスが起動した場合は自動切り替えを中止する)
    ForcedExeFlag=1
    WaitTime=自動切り替え待ち時間
    する何もしない0障害発生からダンプの採取開始までの時間+ダンプの採取に掛かる時間+ダンプ採取の完了後に現用系ホストでシステムを再起動して,[ホスト管理]ウィンドウでアイコンが活性化するまでの時間
    3自動切り替えを手動で中止してからダンプを採取するForcedExeFlag=1
    WaitTime=自動切り替え待ち時間
    しない何もしない0障害発生から自動切り替えの中止の実行に掛かる時間
    4ダンプを採取しないで自動切り替えを実行するForcedExeFlag=1
    WaitTime=0
    しない何もしない00分
    5ダンプを採取しないで自動切り替えを実行する
    (現用系ホストでエージェントサービスが起動した場合は自動切り替えを中止する)
    ForcedExeFlag=1
    WaitTime=自動切り替え待ち時間
    する
    アラートID 0x1470発生時に自動的にシステムを再起動したい場合
    リセットまたは電源OFF→電源ON
    アラートID 0x1470発生時に手動でシステムを再起動したい場合
    何もしない
    アラートID 0x1470発生時に自動的にシステムを再起動したい場合
    1または3
    アラートID 0x1470発生時に手動でシステムを再起動したい場合
    0
    現用系ホストでシステムを再起動して,[ホスト管理]ウィンドウでアイコンが活性化するまでの時間
    6自動切り替えを実行しないでダンプの採取だけを実行するForcedExeFlag=0
    WaitTime=0
    しない何もしない00分
    7自動切り替えを実行しないで自動的にシステムの再起動だけを実行するForcedExeFlag=0
    WaitTime=0
    しないリセットまたは電源OFF→電源ON1または30分
    注※1
    N1Alert.datでの設定内容を示します。N1Alert.datの設定内容変更については,「20.3.3 自動切り替えの対象となるアラートの設定」を参照してください。
    注※2
    [マネージャサービス設定]ダイアログボックスの[N+1設定]タブの[現用ホストでエージェントサービスが起動]チェックボックスでの設定内容を示します。自動切り替え中止の設定については,「20.10.4(2) 自動切り替えの自動中止」を参照してください。
    注※3
    BMC環境設定ユティリティまたはsmhaaeditコマンドでの,障害発生時の動作の設定を示します。Windowsの場合,BMC環境設定ユティリティの[障害発生時処理]で選択する項目を示します。Linuxの場合,障害監視設定メニューの「3.ProcessAtError」で選択する項目を示します。
    設定方法については,「3.16.1 管理対象がBladeSymphony(Windowsサーバ)の場合のBMCの設定」または「3.16.2 管理対象がBladeSymphony(Linuxサーバ)の場合のBMCの設定」を参照してください。

表に示した各項目について説明します。

<この項の構成>
(1) ダンプを採取してから自動切り替えを実行する
(2) ダンプを採取してから自動切り替えを実行する(現用系ホストでエージェントサービスが起動した場合は自動切り替えを中止する)
(3) 自動切り替えを手動で中止してからダンプを採取する
(4) ダンプを採取をしないで自動切り替えを実行する
(5) ダンプを採取をしないで自動切り替えを実行する(現用系ホストでエージェントサービスが起動した場合は自動切り替えを中止する)
(6) 自動切り替えを実行しないでダンプの採取だけを実行する
(7) 自動切り替えを実行しないで自動的にシステムの再起動だけを実行する

(1) ダンプを採取してから自動切り替えを実行する

障害の発生後,切り替え待ち時間が経過するまでにダンプの採取を完了させます。

(a) 運用の流れ
  1. 障害発生後にダンプの採取を手動で開始します。
    BMC環境設定ユティリティ(Windowsの場合)またはsmhaaeditコマンド(Linuxの場合)で,自動的にNMIを発生させてOSにダンプを出力させることができます。設定方法については,「3.16.1 管理対象がBladeSymphony(Windowsサーバ)の場合のBMCの設定」または「3.16.2 管理対象がBladeSymphony(Linuxサーバ)の場合のBMCの設定」を参照してください。
  2. 切り替え待ち時間の経過後,自動的に予備系サーバモジュールに切り替わります。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

障害発生からダンプの採取開始までの時間+ダンプの採取に掛かる時間を設定してください。

(2) ダンプを採取してから自動切り替えを実行する(現用系ホストでエージェントサービスが起動した場合は自動切り替えを中止する)

障害の発生後,切り替え待ち時間が経過するまでにダンプの採取を完了させます。また,ダンプの採取終了後にシステムを再起動して現用系ホストのエージェントサービスが起動した場合は,自動的に切り替えを中止します。この運用ケースはアラートID 0x1470が発生した場合だけ該当します。

(a) 運用の流れ
  1. 障害発生後にダンプの採取を手動で開始します。
    BMC環境設定ユティリティ(Windowsの場合)またはsmhaaeditコマンド(Linuxの場合)で,自動的にNMIを発生させてOSにダンプを出力させることができます。設定方法については,「3.16.1 管理対象がBladeSymphony(Windowsサーバ)の場合のBMCの設定」または「3.16.2 管理対象がBladeSymphony(Linuxサーバ)の場合のBMCの設定」を参照してください。
  2. ダンプの採取完了後にシステムを再起動します。
  3. 現用系ホストのエージェントサービスが起動した場合は,自動的に切り替えを中止します。
    ただし,切り替え待ち時間が経過するまでに現用系ホストのエージェントサービスが起動しない場合は予備系サーバモジュールへの切り替えを開始します。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

障害発生からダンプの採取開始までの時間+ダンプの採取に掛かる時間+ダンプ採取の完了後に現用系ホストでシステムを再起動して,[ホスト管理]ウィンドウでアイコンが活性化するまでの時間を設定してください。

(3) 自動切り替えを手動で中止してからダンプを採取する

障害の発生後,[N+1コールドスタンバイ詳細設定]ウィンドウから手動で自動切り替えを中止してダンプの採取を実施します。ダンプの採取が完了したら手動で復旧処理を実施します。

(a) 運用の流れ
  1. 障害発生後,[N+1コールドスタンバイ詳細設定]ウィンドウで自動切り替えを中止したい現用系ホストを選択し,[設定]メニューから[自動切り替え中止]を選択して,自動切り替えを中止します。
  2. ダンプの採取を開始します。
  3. ダンプの採取完了後,現用系ホストを再起動し手動で切り替えを実施して復旧処理を実行します。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

障害発生から自動切り替えの中止の実行に掛かる時間を設定してください。

(4) ダンプを採取をしないで自動切り替えを実行する

障害の発生後,即時に切り替えを実施します。

(a) 運用の流れ
  1. 障害発生後に自動的に予備系サーバモジュールに切り替わります。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

0分を設定してください。

(5) ダンプを採取をしないで自動切り替えを実行する(現用系ホストでエージェントサービスが起動した場合は自動切り替えを中止する)

障害発生後に切り替え待ち時間が経過したあと,切り替えを開始します。切り替え待ち時間中に現用系ホストのエージェントサービスが起動した場合は,自動的に切り替えを中止します。この運用ケースはアラートID 0x1470が発生した場合だけ該当します。

(a) 運用の流れ
  1. 障害発生後に切り替え待ち時間が経過したあと,自動的に予備系サーバモジュールに切り替わります。
    切り替え待ち時間中に現用ホストのエージェントサービスが起動した場合は,自動的に切り替えを中止します。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

現用系ホストでシステムを再起動して,[ホスト管理]ウィンドウでアイコンが活性化するまでの時間を設定してください。

(6) 自動切り替えを実行しないでダンプの採取だけを実行する

障害の発生後,ダンプの採取だけを実行します。

(a) 運用の流れ
  1. 障害の発生後にダンプの採取を手動で開始します。
    BMC環境設定ユティリティ(Windowsの場合)またはsmhaaeditコマンド(Linuxの場合)で,自動的にNMIを発生させてOSにダンプを出力させることができます。設定方法については,「3.16.1 管理対象がBladeSymphony(Windowsサーバ)の場合のBMCの設定」または「3.16.2 管理対象がBladeSymphony(Linuxサーバ)の場合のBMCの設定」を参照してください。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

0分を設定してください。

(7) 自動切り替えを実行しないで自動的にシステムの再起動だけを実行する

障害の発生後,自動的にシステムの再起動だけを実行します。この運用ケースはアラートID 0x1470が発生した場合だけ該当します。

(a) 運用の流れ
  1. 障害発生後に自動的にシステムを再起動します。
(b) 必要な設定内容
(c) 自動切り替え待ち時間

0分を設定してください。