JP1/ServerConductor/Blade Server Manager系 運用ガイド

[目次][用語][索引][前へ][次へ]

9.8.2 N+1コールドスタンバイ(ディスクパス切替え方式)の適用に必要な検討

この節では,N+1コールドスタンバイを利用する前に検討が必要な,サーバモジュールの割り当てや予備系への切り替えについて説明します。

<この項の構成>
(1) サーバシャーシ内のサーバモジュールの割り当て
(2) 予備系への切り替えの方法(N+1コールドスタンバイ)
(3) 自動切り替えの対象となるアラートの設定
(4) 運用ケース別の設定項目と切り替え待ち時間
(5) 自動切り替え時の現用系の電源OFF

(1) サーバシャーシ内のサーバモジュールの割り当て

N+1コールドスタンバイを使用する場合,現用系サーバモジュールと予備系サーバモジュールの割り当てを検討する必要があります。現用系サーバのグループおよび予備系サーバのグループをまとめてN+1グループと呼び,N+1グループ単位でサーバモジュールを割り当てます。

サーバモジュールの割り当ては,SMP構成の場合とSMP構成でない場合とで運用方法が異なります。ここでは,SMP構成の場合とSMP構成でない場合に分けて,サーバモジュールの割り当てを説明します。

注意
SMP構成のサーバモジュールとSMP構成でないサーバモジュールを1つのN+1グループに混在して運用することはできません。
(a) SMP構成の場合のサーバモジュールの割り当て

サーバモジュールがSMP構成の場合,「9.8.1(3) 予備系サーバモジュールの前提条件」記載される条件に加え,次の条件を満たしている必要があります。

また,4way-SMP構成のサーバモジュールのうち,どちらか1つのサーバモジュールを登録する場合,SMP構成を手動で解除してから登録する必要があります。

SMP構成だけで運用する場合のサーバモジュールの構成例を,次の図に示します。

図9-24 SMP構成の場合のサーバモジュール構成例

[図データ]

(b) SMP構成でない場合のサーバモジュールの割り当て

サーバモジュールがSMP構成でない場合,予備系サーバモジュールは,「9.8.1(3) 予備系サーバモジュールの前提条件」に記載される条件を満たしている必要があります。SMP構成でない場合のサーバモジュールの構成例を,次の図に示します。

図9-25 SMP構成でない場合のサーバモジュール構成例

[図データ]

(2) 予備系への切り替えの方法(N+1コールドスタンバイ)

N+1コールドスタンバイでは,サーバモジュール障害が発生したときに,自動または手動で予備系サーバモジュールに切り替えることができます。次にそれぞれの切り替え契機について説明します。

(a) 自動で切り替える場合

サーバモジュール障害が発生した場合,障害通知アラートが通知されると,次のどちらかの契機で自動的に予備系サーバモジュールに切り替わります。この契機は,アラートIDごとに設定できます。

なお,切り替えの契機は,切り替え要求アラートのアラートIDごとに設定できます。

各アラートIDの詳細および設定の変更方法については,「9.8.2(3) 自動切り替えの対象となるアラートの設定」を参照してください。

また,自動切り替え発生時,障害が発生した現用系のサーバモジュールの電源を強制電源OFFするか,OSをシャットダウンしてから電源OFFするか,どちらかを選択できます。自動切り替え時の電源OFF方式の変更方法については,「9.8.2(5) 自動切り替え時の現用系の電源OFF」を参照してください。

自動で予備系サーバモジュールに切り替えるためには,[マネージャサービス設定]ダイアログボックスの[N+1設定]タブでの設定が必要です。この設定については,「9.8.3 N+1コールドスタンバイ(ディスクパス切替え方式)の設定」を参照してください。自動切り替えの設定をしない場合は,手動で切り替える設定となります。

(b) 手動で切り替える場合

手動で予備系サーバモジュールに切り替える場合は,次に示す手順で実行します。

  1. BSMで障害発生を確認する
  2. OSのダンプ出力が完了したことを確認する
  3. 障害内容からサーバモジュールの障害であることを確認し,手動切り替えを実行する

手動切り替えの操作については,「9.9.2 予備系サーバモジュールへの手動切り替えの実行」を参照してください。

また,N+1コールドスタンバイの自動切り替えを設定していても,N+1コールドスタンバイ機能の手動切り替えの実行,現用系への復帰,または予備系の解除を実行できます。現用系への復帰,予備系の解除の詳細については,「9.9.3 現用系サーバモジュールへの復帰と予備登録の解除」を参照してください。

(3) 自動切り替えの対象となるアラートの設定

N+1コールドスタンバイ機能を利用する場合,BladeSymphonyに関するハードウェア障害のサーバモジュール系のアラートが,自動切り替えの対象となります。これらのアラートには,アラートごとに,障害が発生してから自動で切り替えるまでの待ち時間が設定されています。これ以外のアラートは,自動切り替えの対象にできません。

アラートの詳細については,マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 メッセージ」を参照してください。

注意
自動切り替え対象アラートが発生し,自動切り替えを開始したあと(切り替え待ちの状態を含む)に,新たに発生した自動切り替え対象アラートは無視されます。

自動切り替え対象アラートは,N+1対象アラート定義ファイルN1Alert.dat)に定義されています。N1Alert.datの定義内容を編集することで,N+1コールドスタンバイ自動切り替え対象アラートの設定を変更できます。

N1Alert.datは次のフォルダに格納されています。

<ServerConductorのインストール先フォルダ>\Data

N+1対象アラート定義ファイルの記述形式,デフォルトの定義内容,定義例,定義内容を有効にする手順,および注意事項について,次に説明します。

(a) 記述形式

N1Alert.datの記述形式を次に示します。

AlertID,ForcedExeFlag,WaitTime

AlertID,ForcedExeFlag,およびWaitTimeは,それぞれ半角コンマで区切って指定します。次に各設定項目について説明します。

AlertID
アラートIDを指定します。アラートIDは,16進で最後にhを付けて指定します。例えば,「0x1417」のアラートIDを指定するときは「1417h」と指定します。
注意
N+1コールドスタンバイ自動切り替え対象のアラートは,N1Alert.datにデフォルトで定義してあるアラートだけです。これ以外のアラートは,N+1コールドスタンバイ自動切り替え対象のアラートにできません。

ForcedExeFlag
N+1コールドスタンバイ自動切り替え対象アラートとするかしないかを,1または0で指定します。N+1コールドスタンバイ自動切り替え対象アラートとする場合,1を指定します。N+1コールドスタンバイ自動切り替え対象アラートとしない場合,0を指定します。デフォルトでは,1が指定されています。
値は半角で入力してください。
注意
N+1コールドスタンバイ自動切り替え対象アラートとしない場合,ForcedExeFlagとWaitTimeの両方に0を指定してください。WaitTimeに0以外の整数が指定されていた場合,ForcedExeFlagに0を指定しても,自動切り替え対象アラートとして扱われます。

WaitTime
AlertIDに指定したアラートで示される障害が発生してから,N+1コールドスタンバイの切り替えが実行されるまでの自動切り替え待ち時間を,0〜2147483647の整数で指定します。単位は分です。デフォルトでは,0または60が指定されています。
値は半角で入力してください。
ForcedExeFlagに1を指定している状態で,「0」を指定した場合は,障害発生と同時に即時に自動切り替えを行います。また,「60」を指定した場合は,障害発生から1時間後に自動切り替えを行います。障害発生から1時間後に自動切り替えを行う場合の障害は,原因特定のために,障害発生時に手動でダンプを採取することを推奨します。
注意
N+1コールドスタンバイ自動切り替え対象アラートとしない場合,WaitTimeに0を指定してください。WaitTimeに0以外の整数が指定されていた場合,ForcedExeFlagに0を指定しても,自動切り替え対象アラートとして扱われます。

行の先頭に,半角スペースまたは#が指定されている場合,その行はコメント行と見なされます。コメント行の入力文字の種類に制限はありません。

(b) デフォルトの定義内容

N1Alert.datに定義されている,各アラートのデフォルト値を次に示します。

表9-17 自動切り替えの対象となるアラートと設定内容のデフォルト値

アラートID(AlertID)
(変更不可)
実行フラグ(ForcedExeFlag)
(変更可)
待ち時間(WaitTime)
(分)(変更可)
1417h 1 60
1451h※1 1 0
1453h※1 1 0
1462h 1 0
1463h 1 0
1464h 1 60
1470h※2 1 60
1483h※3 1 0
1484h※3 1 60
1491h 1 60
1492h 1 60
1493h 1 60
1494h 1 60
1496h※4 1 60
1497h 1 60
1499h 1 60
14A0h 1 0
14A5h 1 0
14A8h 1 0
14AAh 1 0
14AFh※4 1 0
14B0h 1 0
14B1h 1 60
14D2h 1 60
14D5h 1 60

注※1
現在サーバモジュールを対象としたアラートではないため,自動切り替えの対象とはなりません。

注※2
SVPコマンド(TCコマンド)を入力した場合,このアラートが通知され,N+1コールドスタンバイ自動切り替えが発生することがあります。このとき,WaitTimeを「0」に設定していると,TCコマンド経由でのダンプ取得ができなくなります。ダンプの取得が必要な場合は,ダンプを取得するのに十分な時間を設定してください。

注※3
ユーザが任意のタイミングで発生させることができるN+1コールドスタンバイ構築テスト用のアラートです。発生させる方法については,マニュアル「BladeSymphonyユーザーズガイド」のRTコマンドについて記載されている章を参照してください。

注※4
現在未使用(予約)のアラートIDです。

(c) 定義例

自動切り替えの対象となるアラートの設定内容を変更する場合のN1Alert.datの定義例を次に示します。

0x1417をN+1コールドスタンバイ自動切り替え対象アラートとしない場合
次のように,ForcedExeFlagおよびWaitTimeの両方に0を指定します。
1417h,0,0
次のように,行全体をコメント行にすることでも,N+1コールドスタンバイ自動切り替え対象アラートとしないようにできます。
#1417h,1,60

0x1462アラートが発生したときに,即時にN+1コールドスタンバイの切り替えを実行する場合
次のように,ForcedExeFlagに1,WaitTimeに0を指定します。
1462h,1,0

0x1463アラートが発生してから,60分後にN+1コールドスタンバイの切り替えを実行する場合
次のように,ForcedExeFlagに1,WaitTimeに60を指定します。
1463h,1,60
(d) 定義内容を有効にする手順

N1Alert.datの設定内容を変更した場合は,次に示すどちらかの操作をしてください。この操作をしないと,変更した内容が有効になりません。

(e) N1Alert.dat指定時の注意事項

(4) 運用ケース別の設定項目と切り替え待ち時間

N+1コールドスタンバイの自動切り替えを実施する場合,運用ケースによって必要な設定項目および自動切り替え対象アラートの切り替え待ち時間の見積もり方法が異なります。

自動切り替えに必要な設定,および自動切り替え待ち時間の見積もり方法を,運用ケースごとに,次の表に示します。

注意
  • ダンプを採取しないように運用すると障害の発生原因を特定できなくなるため,ダンプを採取するように運用してください。ダンプを採取しない運用は,障害の発生原因を追及するよりも現用系ホストの再起動または切り替えによる復旧を優先する場合に限って使用するようにしてください。
  • ダンプを手動で採取する場合は事前に設定が必要です。ダンプを採取するための設定方法については,マニュアル「BladeSymphonyソフトウェアガイド」を参照してください。
  • 自動切り替え待ち時間は表に示す見積もりの時間よりも長くなるように設定することをお勧めします。切り替え待ち時間が短過ぎる場合,ダンプの採取途中で自動切り替えが実行されてしまい,ダンプの採取に失敗することがあります。
  • N1Alert.datで自動切り替え待ち時間のデフォルト値が0分に設定されているアラートはハードウェア障害が原因で発生するアラートです。そのため,N+1冗長化構成で切り替え開始順序の遅いマネージャサービスの場合を除き,自動切り替え待ち時間を変更しないことをお勧めします。
  • 管理対象ホストが複数ある場合,ダンプの採取に掛かる時間はOSやハードウェアの構成などによって異なります。ダンプの採取時間は,最も長く掛かる時間を見積もってください。
  • N+1冗長化構成で,切り替え開始順序の遅いマネージャサービスに対しては,表に示す自動切り替え待ち時間の見積もりに,「9.8.4 N+1冗長化の設定」で算出した切り替え時間を加算して設定する必要があります。

    表9-18 運用ケース別のN+1コールドスタンバイに必要な設定と自動切り替え対象アラートの自動切り替え待ち時間の見積もり

    項番 障害アラート発生後の運用ケース N1Alert.datの設定 自動切り替え待ち時間の見積もり
    1 ダンプを採取してから自動切り替えを実行する ForcedExeFlag=1
    WaitTime=自動切り替え待ち時間
    障害発生からダンプの採取開始までの時間+ダンプの採取に掛かる時間
    2 自動切り替えを手動で中止してからダンプを採取する ForcedExeFlag=1
    WaitTime=自動切り替え待ち時間
    障害発生から自動切り替えの中止の実行に掛かる時間
    3 ダンプを採取しないで自動切り替えを実行する ForcedExeFlag=1
    WaitTime=0
    0分
    4 自動切り替えを実行しないでダンプの採取だけを実行する ForcedExeFlag=0
    WaitTime=0
    0分
    5 自動切り替えを実行しないで自動的にシステムの再起動だけを実行する ForcedExeFlag=0
    WaitTime=0
    0分

    注※
    N1Alert.datでの設定内容を示します。N1Alert.datの設定内容変更については,「9.8.2(3) 自動切り替えの対象となるアラートの設定」を参照してください。

表に示した各項目について説明します。

(a) ダンプを採取してから自動切り替えを実行する

障害の発生後,切り替え待ち時間が経過するまでにダンプの採取を完了させます。

(i) 運用の流れ
  1. 障害発生後にダンプの採取を手動で開始します。
  2. 切り替え待ち時間の経過後,自動的に予備系サーバモジュールに切り替わります。

(ii) 必要な設定内容
  • N1Alert.datに設定する自動切り替え待ち時間には,「(iii) 自動切り替え待ち時間」に示す時間を設定してください。
  • [マネージャサービス設定]ダイアログボックスの[N+1設定]タブの[現用ホストでエージェントサービスが起動]チェックボックスをOFFにしてください。

(iii) 自動切り替え待ち時間
障害発生からダンプの採取開始までの時間+ダンプの採取に掛かる時間を設定してください。
(b) 自動切り替えを手動で中止してからダンプを採取する

障害の発生後,[N+1コールドスタンバイ詳細設定]ウィンドウから手動で自動切り替えを中止してダンプの採取を実施します。ダンプの採取が完了したら手動で復旧処理を実施します。

(i) 運用の流れ
  1. 障害発生後,[N+1コールドスタンバイ詳細設定]ウィンドウで自動切り替えを中止したい現用系ホストを選択し,[設定]メニューから[自動切り替え中止]を選択して,自動切り替えを中止します。
  2. ダンプの採取を開始します。
  3. ダンプの採取完了後,現用系ホストを再起動し手動で切り替えを実施して復旧処理を実行します。

(ii) 必要な設定内容
  • N1Alert.datに設定する自動切り替え待ち時間には,「(iii) 自動切り替え待ち時間」に示す時間を設定してください。
  • [マネージャサービス設定]ダイアログボックスの[N+1設定]タブの[現用ホストでエージェントサービスが起動]チェックボックスをOFFにしてください。

(iii) 自動切り替え待ち時間
障害発生から自動切り替えの中止の実行に掛かる時間を設定してください。
(c) ダンプを採取しないで自動切り替えを実行する

障害の発生後,即時に切り替えを実施します。

(i) 運用の流れ
  1. 障害発生後に自動的に予備系サーバモジュールに切り替わります。

(ii) 必要な設定内容
  • N1Alert.datに設定する自動切り替え待ち時間には,0分を設定してください。
  • [マネージャサービス設定]ダイアログボックスの[N+1設定]タブの[現用ホストでエージェントサービスが起動]チェックボックスをOFFにしてください。

(iii) 自動切り替え待ち時間
0分を設定してください。
(d) 自動切り替えを実行しないでダンプの採取だけを実行する

障害の発生後,ダンプの採取だけを実行します。

(i) 運用の流れ
  1. 障害の発生後にダンプの採取を手動で開始します。

(ii) 必要な設定内容
  • N1Alert.datでは,N+1コールドスタンバイの自動切り替え対象のアラートIDとしないように設定してください。
  • [マネージャサービス設定]ダイアログボックスの[N+1設定]タブの[現用ホストでエージェントサービスが起動]チェックボックスをOFFにしてください。

(iii) 自動切り替え待ち時間
0分を設定してください。
(e) 自動切り替えを実行しないで自動的にシステムの再起動だけを実行する

障害の発生後,自動的にシステムの再起動だけを実行します。この運用ケースはアラートID 0x1470が発生した場合だけ該当します。

(i) 運用の流れ
  1. 障害発生後に自動的にシステムを再起動します。

(ii) 必要な設定内容
  • N1Alert.datでは,N+1コールドスタンバイの自動切り替え対象のアラートIDとしないように設定してください。
  • [マネージャサービス設定]ダイアログボックスの[N+1設定]タブの[現用ホストでエージェントサービスが起動]チェックボックスをOFFにしてください。

(iii) 自動切り替え待ち時間
0分を設定してください。

(5) 自動切り替え時の現用系の電源OFF

自動切り替えが発生したとき,障害が発生した現用系のサーバモジュールの電源OFFの方式を次の中から選択できます。

サーバモジュールの電源OFFの方式は,N1Alert.datで定義されている自動切り替えの対象アラートごとに設定できます。また,設定した内容は,マネージャサービスが管理しているN+1グループの現用系のサーバモジュールすべてに適用されます。N1Alert.datで定義されている自動切り替えの対象アラートについては,「9.8.2(3) 自動切り替えの対象となるアラートの設定」を参照してください。

自動切り替え発生時,障害が発生した現用系のサーバモジュールの電源を強制電源OFFするか,OSをシャットダウンしてから電源OFFするかは,N+1コールドスタンバイ設定ファイルN1SwitchShutdownSet.ini)に定義されています。N1SwitchShutdownSet.iniの定義内容を編集することで,N+1コールドスタンバイ自動切り替え時の電源OFFの方式を変更できます。

N1SwitchShutdownSet.iniは次のフォルダに格納されています。

<ServerConductorのインストール先フォルダ>\Data

N+1コールドスタンバイ設定ファイルの記述形式,デフォルトの定義内容,定義例,定義内容を有効にする手順,および注意事項について,次に説明します。

(a) 記述形式

N1SwitchShutdownSet.iniの記述形式を次に示します。

[N1ShutdownSetting]
Function={0|1}
Timeout=監視時間
[AlertID]
アラートID={0|1}
     :
     :
アラートID={0|1}

次に各設定項目について説明します。

[N1ShutdownSetting]
N+1コールドスタンバイ自動切り替え時の電源OFFの方式を設定します。
Function={0|1}
N+1コールドスタンバイの自動切り替え時の電源OFFの方式を0または1で指定します。N+1コールドスタンバイの自動切り替え時に強制電源OFFを実行する場合,0を指定します。N+1コールドスタンバイ自動切り替え時にOSシャットダウンをしてから電源OFFを実行する場合,1を指定します。デフォルトでは0が指定されています。
値は半角で入力してください。
Timeout=監視時間
N+1コールドスタンバイ自動切り替え時,OSシャットダウンを開始してから電源OFFが実行されるまでの監視時間を1〜60で指定します。単位は分です。デフォルトでは5が指定されています。
値は半角で入力してください。
Timeoutで指定した時間が経過しても電源OFFがされない場合は,強制電源OFFが実行されます。
Timeoutの設定は,OSシャットダウンを開始してから電源OFFを実行する設定をした全アラートに対して適用されます。

[AlertID]
OSシャットダウンをしてから電源OFFを実行する対象となるアラートを設定します。
アラートID={0|1}
自動切り替えの対象となる各アラートに対して,N+1コールドスタンバイ自動切り替え時の電源OFFの方式を設定します。
アラートIDは,16進で最後にhを付けて指定します。例えば,「0x1417」のアラートIDを指定するときは「1417h」と指定します。
指定したアラートが発生した場合,OSシャットダウンを開始してから電源OFFを実行するときは,1を指定します。指定したアラートが発生した場合,強制電源OFFを実行するときは,0を指定します。デフォルトでは0が指定されています。
値は半角で入力してください。

「=」がない行,および先頭文字が「[」または「#」の行は,コメント行と見なされます。

(b) デフォルトの定義内容

N1SwitchShutdownSet.iniに定義されているデフォルト値を次に示します。

[N1ShutdownSetting]
Function=0
Timeout=5
[AlertID]
1417h=0
1492h=0
1493h=0
1494h=0
1470h=0
1496h=0
1497h=0
1499h=0
14A0h=0
14A5h=0
1453h=0
1451h=0
14A8h=0
1462h=0
14AAh=0
14AFh=0
1464h=0
14B0h=0
14B1h=0
1491h=0
1463h=0
14D2h=0
14D5h=0
1483h=0
1484h=0
1788h=0
1789h=0
(c) 定義例

0x1417アラートによる自動切り替えが発生したとき,OSシャットダウン後に電源OFFを実行する場合のN1SwitchShutdownSet.iniの定義例を次に示します。監視時間は5分とします。

[N1ShutdownSetting]
Function=1
Timeout=5
[AlertID]
1417h=1
     :
     :
(d) 定義内容を有効にする手順

N1SwitchShutdownSet.iniの設定内容を変更した場合は,次に示すどちらかの操作をしてください。この操作をしないと,変更した内容が有効になりません。

(e) 注意事項