1.26.2 [障害監視 詳細設定]ダイアログボックス

管理対象がHA8000シリーズの場合にSVPボードの設定で,障害監視するかどうかについて設定します。

注意
HA8000の致命的障害監視(アラート 0x13B0など)では,ウォッチドッグタイマを使用しません。HA8000の場合は,SVPボードとSVPドライバの相互監視を実施するため,Agentはウォッチドッグタイマをセットしません。
この項のウォッチドッグタイマとは,致命的障害監視のことを指しています。
[図データ]

[障害監視 詳細設定]ダイアログボックスでは,SVPマイクロプログラムのバージョンによって設定できる項目が異なります。

<この項の構成>
(1) SVPマイクロプログラム 03-00-00以降のバージョンを利用する場合
(2) SVPマイクロプログラム 03-00-00より前のバージョンを利用する場合

(1) SVPマイクロプログラム 03-00-00以降のバージョンを利用する場合

項目の内容を次の表に示します。

項目内容
システム動作中障害監視ウォッチドッグタイマの監視について設定します。
監視周期ウォッチドッグタイマの監視間隔を分単位で設定します。3~60の範囲で設定します。デフォルトは3分または5分※1です。
ウォッチドッグタイマの監視は,ここで設定した監視周期で実行されます。
障害発生時処理※2OSハングアップ,サーバダウンによって,ウォッチドッグタイマのタイムアウトが発生した場合,自動的にどのように処理するかを設定します。障害発生時処理の設定とアラート通知の設定は共に有効です。
ここでは,次のどれかを設定します。
  • 何もしない
    ウォッチドッグタイマのタイムアウトが発生しても,何も処理しません。
  • リセット
    サーバのRESETボタンを押したときと同じ処理をするときに設定します。なお,障害の状態によっては,正常にリセットできない場合があります。
  • 電源OFF
    ウォッチドッグタイマのタイムアウトが発生したときに電源をOFFにします。
  • 電源OFF→電源ON
    ウォッチドッグタイマのタイムアウトが発生したときに電源をOFFにして,すぐONにします。
  • NMI発行
    ウォッチドッグタイマのタイムアウトが発生したときにNMIを発生させます。メモリダンプ採取の設定がされている環境でNMIが発生すると,発生時点のメモリダンプが採取されます。この設定をする場合の注意事項については,「NMIを発生させる場合の注意事項」を参照してください。
障害発生時処理で「リセット」または「電源OFF→電源ON」を指定した場合,リセットまたは電源ON処理が失敗したときに一定時間(タイムアウト時間)内でリトライします。
これらのタイムアウト時間は次の値を使用します。
  • リセット
    リブート監視のタイムアウト値
  • 電源OFF→電源ON
    電源ON監視のタイムアウト値(電源ONの場合だけ監視)
デフォルトは[何もしない]です。
なお,リブート監視または電源ON監視が設定されていない場合はリトライしません。
アラート通知サーバで障害などのイベントが発生したときに,マネージャサービスにアラートとして通知するかどうかについて次のどれかを設定します。
  • なし
    アラートの通知をしません。
  • あり(障害通知)
    注意,警告,障害のイベントをアラートとして通知します。
  • あり(情報通知)
    情報のイベントだけをアラートとして通知します。
  • あり(全通知)
    すべてのイベントをアラートとして通知します。
デフォルトは[あり(障害通知)]です。
電源ON監視※3※4※5※6電源ONに失敗したときに,電源ONの処理を一定時間(タイムアウト時間)内でリトライするかどうかを設定します。
リトライする場合は,このチェックボックスをONにします。デフォルトはONです。
タイムアウト時間リトライする場合,タイムアウト時間はを分単位で設定します。10~60の範囲で設定します。デフォルトは10分です。
電源OFF監視※4※6次のどちらかの処理の電源OFFに失敗したときに,電源OFFの処理を一定時間(タイムアウト時間)内でリトライするかどうかを設定します。
  • 電源制御スケジュール
  • エージェントサービスが実行するアラート発生時のサーバ動作
    (マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 運用ガイド」の障害管理の章を参照)
リトライする場合は,このチェックボックスをONにします。デフォルトはOFFです。
タイムアウト時間リトライする場合,タイムアウト時間を分単位で設定します。10~60の範囲で設定します。デフォルトは10分です。
リブート監視※4※6次の処理のリブートに失敗したときに,リブートの処理を一定時間(タイムアウト時間)内でリトライするかどうかを設定します。
  • エージェントサービスが実行するアラート発生時のサーバ動作
    (マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 運用ガイド」の障害管理の章を参照)
リトライする場合は,このチェックボックスをONにします。デフォルトはOFFです。
タイムアウト時間リトライする場合,タイムアウト時間を分単位で設定します。20~60の範囲で設定します。デフォルトは20分です。
(凡例)
-:該当しない
注※1
使用するサーバの機種によって異なります。
注※2
障害発生時処理でリセットを設定する場合,Windowsが自動的に再起動しないように,Windowsのコントロールパネルのシステムアイコンで[起動/シャットダウン]ボタンをクリック後,[自動的に再起動する]チェックボックスをOFFにしてください。
注※3
電源ON監視をONに設定している場合,BIOS起動中にBIOS設定などをすると,設定したタイムアウト時間でリトライ(電源OFF→電源ON)します。電源ON監視をOFFに設定してからBIOS設定などをしてください。
注※4
管理対象サーバがSVPボードで動作している場合,電源ON監視をONに設定してJP1/ServerConductorをアンインストールすると,電源ON監視処理がアンインストール後も動作してしまいます。アンインストールするときは,電源ON監視,電源OFF監視,またはリブート監視をOFFに設定してからアンインストールしてください。
注※5
使用するサーバの機種によっては,設定できません。
注※6
電源ON監視,電源OFF監視,およびリブート監視のタイマ設定については各サーバによって起動時間やシャットダウン時間が異なります。事前に十分検証した上で設定してください。

注意
NMIを発生させる場合の注意事項
NMI発生機能は,通常の運用ケースでは使用しないでください。
NMI発生機能は,OSの不具合などでOSがハングアップした場合にダンプを出力させることを目的としています。この機能とは別に,OSには,メモリアクセス違反などの要因で発生したカーネルパニックまたはSTOPエラーを解析するために,自らメモリダンプを出力する仕組みが備わっています。NMI発生機能を有効にした場合,OSによって自動的にダンプが出力されている最中にNMIが発生すると,ダンプ出力が中断されてしまうことがあります。その結果,OSでメモリアクセス違反などの要因で発生したカーネルパニックまたはSTOPエラーによって処理が続行できなくなった場合の原因の究明が困難になることがあります。
OSのハングアップが頻繁に発生しており,NMI発生によるダンプからOSのハングアップの原因を調査したい場合だけ設定してください。

(2) SVPマイクロプログラム 03-00-00より前のバージョンを利用する場合

項目の内容を次の表に示します。

項目内容
システム動作中障害監視システム動作中の障害監視について設定します。
監視周期ウォッチドッグタイマの監視間隔を分単位で設定します。3~60の範囲で設定します。デフォルトは3分です。
設定した時間からさらに6分間OSから応答がない場合,障害を検出します。
障害発生時処理OSハングアップ,サーバダウンによって,ウォッチドッグタイマのタイムアウトが発生した場合,次のような要因でマネージャサービスに通知できないとき,自動的にどのように処理するか設定します。
  • アラート通知で「なし」を設定している
  • すべての通報先マネージャサービスに対するアラート通知が失敗した
ここでは,次のどれかを設定します。
  • 何もしない
    ウォッチドッグタイマのタイムアウトが発生しても,何も処理しません。
  • リセット
    サーバについているRESETボタンを押したときと同じ処理をするときに設定します。なお,障害の状態によっては,正常にリセットできない場合があります。
  • 電源OFF
    ウォッチドッグタイマのタイムアウトが発生したときに電源をOFFにします。
  • 電源OFF→電源ON
    ウォッチドッグタイマのタイムアウトが発生したときに電源をOFFにして,すぐONにします。
デフォルトは[何もしない]です。
アラート通知サーバで障害などのイベントが発生したときに,マネージャサービスにアラートとして通知するかどうかについて次のどれかを設定します。
  • なし
    アラートの通知をしません。
  • あり(障害通知)
    注意,警告,障害のイベントをアラートとして通知します。
  • あり(情報通知)
    情報のイベントだけをアラートとして通知します。
  • あり(全通知)
    すべてのイベントをアラートとして通知します。
デフォルトは,[あり(障害通知)]です。
電源ON監視この機能は無効です。
電源OFF監視この機能は無効です。
リブート監視この機能は無効です。
(凡例)
-:該当しない
注※
障害発生時処理でリセットを設定する場合,Windowsが自動的に再起動しないように,Windowsのコントロールパネルのシステムアイコンで[起動/シャットダウン]ボタンをクリック後,[自動的に再起動する]チェックボックスをOFFにしてください。