JP1/ServerConductor/Blade Server Manager系 設計・構築ガイド

[目次][用語][索引][前へ][次へ]

4.9.2 管理対象がBladeSymphony(Linuxサーバ)の場合のBMCの設定

管理対象がBladeSymphony(Linuxサーバ)の場合のSVP/BMCの設定には,Advanced Agent用環境設定コマンドsmhaaedit)を使用します。smhaaeditコマンドの書式については,マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 リファレンス」に記載されているsmhaaeditコマンド(Linuxサーバ)を参照してください。

<この項の構成>
(1) smhaaeditコマンドによるBMCの設定手順

(1) smhaaeditコマンドによるBMCの設定手順

smhaaeditコマンドによるBMCの設定手順を次に示します。なお,各環境設定メニューの詳細については,マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 リファレンス」に記載されているsmhaaeditコマンド(Linuxサーバ)を参照してください。

  1. smhaaeditコマンドをオプションなしで実行する
    次のようにコマンドを指定して実行します。
    /usr/sbin/smhaaedit
    Advanced Agent環境設定のメインメニューが表示されます。
     
    #### JP1/ServerConductor/Advanced Agent ####
    ####      Configuration Main Menu       ####
      1. Advanced Agent Configuration File
      2. BMC Configuration File
      3. SNMP Configuration File
    Command (1-3/Quit)>
     
  2. 「1.Advanced Agent Configuration File」を選択する
    Advanced Agent設定メニューが表示されます。
     
    #### JP1/ServerConductor/Advanced Agent ####
    #### Advanced Agent Configuration File  ####
      1. SVPAgentService              [Disabled]
      2. SNMPTranslatorAgentService   [Disabled]
    Command (1-2/Menu/Quit)>
     
  3. 「1. SVPAgentService」を選択し,「Enabled」に設定する
    Advanced Agent設定メニューの「1. SVPAgentService」が「Enabled」になります。
     
    #### JP1/ServerConductor/Advanced Agent ####
    #### Advanced Agent Configuration File  ####
      1. SVPAgentService              [Enabled]
      2. SNMPTranslatorAgentService   [Disabled]
    Command (1-2/Menu/Quit)>
     
  4. 「Quit」を選択する
    確認メッセージが表示されたら,「Yes」を選択します。
    Advanced Agent環境設定のメインメニューに戻ります。
  5. 「2. BMC Configuration File」を選択する
    障害監視設定メニューが表示されます。
     
    #### JP1/ServerConductor/Advanced Agent ####
    ####       BMC Configuration File       ####
     1.ErrorWatching           [Enabled]
     2.ErrorWatchingInterval   [5]
     3.ProcessAtError          [0]
     4.PowerOffWatching        [Disabled]
     5.PowerOffWatchingTimeout [10]
     6.RebootWatching          [Disabled]
     7.RebootWatchingTimeout   [10]
     
    Command (1-7/Menu/Quit)>
  6. 必要な項目を設定する
    障害監視設定メニューでの設定項目を次に示します。

    表4-4 障害監視設定メニューの設定項目

    設定項目 デフォルト 設定内容
    ErrorWatching※1 Enabled ウォッチドッグタイマを設定します。
    • Enabled:する
    • Disabled:しない
    障害監視の仕組みについては,マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 運用ガイド」の障害監視について記載されている章を参照してください。
    ErrorWatchingInterval 5 ウォッチドッグタイマの監視間隔を分単位で設定します。設定範囲は3〜60です。
    OSハングアップなどが発生すると,設定時間経過後に障害が検出され,マネージャサービスにアラートID 0x1470が通知されます。
    Advanced Agentが08-60よりも前のバージョンの場合,設定時間+5分が経過後に障害が検出され,マネージャサービスにアラートID 0x1470が通知されます。
    ProcessAtError 0 OSハングアップ,サーバダウンによって,ウォッチドッグタイマのタイムアウトが発生した場合,自動的にどのように処理するかを設定します。
    ここでは,次のどれかを設定します。
    • 0:
      ウォッチドッグタイマのタイムアウトが発生しても,何も処理しません。
    • 1:
      サーバのRESETボタンを押したときと同じ処理をします。なお,障害の状態によっては,正常にリセットできない場合があります。
    • 2:
      ウォッチドッグタイマのタイムアウトが発生したときに電源をOFFにします。
    • 3:※1
      ウォッチドッグタイマのタイムアウトが発生したときに電源をOFFにして,すぐONにします。
    • 4:※2
      ウォッチドッグタイマのタイムアウトが発生したときにNMIを発生させます。メモリダンプ採取の設定がされている環境でNMIが発生すると,発生時点のメモリダンプが採取されます。この設定をする場合の注意事項については,「NMIを発生させる場合の注意事項」を参照してください。
      なお,NMI受信後のサーバ(OS)の動作は,OSの設定に従います。ただし,N+1コールドスタンバイ機能を使用し,自動切り替えの自動中止の設定をしていない場合は,再起動されないように設定してください。
    PowerOffWatching Disabled 次のどちらかの処理の電源OFFに失敗したときに,電源OFFの処理を一定時間(タイムアウト時間)内でリトライするかどうかを設定します。
    • 電源制御スケジュール
    • エージェントサービスが実行するアラート発生時のサーバ動作
    設定値を次に示します。
    • Enabled:リトライする
    • Disabled:リトライしない
    PowerOffWatchingTimeout 10 電源OFFのリトライタイムアウト時間を設定します。PowerOffWatchingがEnabledの場合だけ有効です。設定範囲は10〜60分です。
    RebootWatching Disabled 次の処理のリブートに失敗したときに,リブートの処理を一定時間(タイムアウト時間)内でリトライするかどうかを設定します。
    • エージェントサービスが実行するアラート発生時のサーバ動作
    設定値を次に示します。
    • Enabled:リトライする
    • Disabled:リトライしない
    RebootWatchingTimeout 10 リブートのリトライタイムアウト時間を設定します。RebootWatchingがEnabledの場合だけ有効です。設定範囲は10〜60分です。

    注※1
    N+1コールドスタンバイ機能を使用し,現用系ホストでエージェントサービス起動による自動切り替えの中止を適用していない場合,障害監視設定メニューでErrorWatchingをEnabledにしたときは,ProcessAtErrorで3を選択しないでください。
    アラート0x1470での自動切り替えが適用されている場合,切り替え実行後に,障害が発生した現用系サーバモジュールで電源ONが発生するため,現用系サーバモジュールと予備系サーバモジュールの両方で電源ONが実行されてしまいます。

    注※2
    ProcessAtErrorで4を選択する場合は,あらかじめダンプを取得するように設定してください。netdumpでoopsメッセージおよびメモリダンプを取得する場合の設定手順の概要を次に示します。
    ・netdumpサーバの設定
    1. netdumpユーザのパスワードを設定する
    次のコマンドを実行します。
    # passwd netdump
    2. netdumpサーバを起動する
    次のコマンドを実行します。
    # service netdump-server start
    3. sshdを起動する
    次のコマンドを実行します。
    # service sshd start
    ・netdumpクライアントの設定
    1. /etc/sysconfig/netdumpファイルに次の設定をする
    DEV=eth0
    NETDUMPADDR=netdumpサーバのIPアドレス
    2. ssh公開鍵を転送する
    次のコマンドを実行します。
    # service netdump propagate
    3. netdumpクライアントを起動する
    次のコマンドを実行します。
    # service netdump start
    4. ハングアップ時のmagic sysrq keyを有効にする設定をする
    /etc/sysctl.confファイルを次のように変更します。
    <変更前>
    kernel.sysrq = 0
    <変更後>
    kernel.sysrq = 1
    また,次のコマンドを実行します。
    # sysctl -p
    Linuxの場合,OSの設定やハードウェアなどによって使用できるダンプ機能が異なります。ダンプを取得するための設定方法については,ハードウェアのドキュメント,OSのヘルプまたはOSのドキュメントなどを参照してください。

  7. 「Quit」を選択する
    確認メッセージが表示されたら,「Yes」を選択します。
    Advanced Agent環境設定のメインメニューに戻ります。
  8. 「Quit」を選択する
    smhaaeditコマンドを終了します。
    注意
    NMIを発生させる場合の注意事項
    • Linux ES3,Linux ES4,Linux AS3,およびLinux AS4の場合
      NMI発生機能は,通常の運用ケースでは使用しないでください。
      NMI発生機能は,OSの不具合などでOSがハングアップした場合にダンプを出力させることを目的としています。この機能とは別に,OSには,メモリアクセス違反などの要因で発生したカーネルパニックまたはSTOPエラーを解析するために,自らメモリダンプを出力する仕組みが備わっています。NMI発生機能を有効にした場合,OSによって自動的にダンプが出力されている最中にNMIが発生すると,ダンプ出力が中断されてしまうことがあります。その結果,OSでメモリアクセス違反などの要因で発生したカーネルパニックまたはSTOPエラーによって処理が続行できなくなった場合の原因の究明が困難になることがあります。
      OSのハングアップが頻繁に発生しており,NMI発生によるダンプからOSのハングアップの原因を調査したい場合だけ設定してください。
      また,アラートID 0x1470をN+1コールドスタンバイ機能の自動切り替え対象アラートとして設定している場合,自動切り替え待ち時間にはダンプを採取するのに十分な時間を設定してください。N+1コールドスタンバイ機能の自動切り替え対象アラートについては,マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 運用ガイド」のN+1コールドスタンバイ機能について記載されている章を参照してください。
      なお,IA32サーバモジュールでNMIが発生した場合,アラートID 0x1413が通知されます。
    • Linux 5およびLinux 6の場合
      NMI発生機能は,OSの不具合などでOSがハングアップした場合にダンプを出力させることを目的としています。この機能とは別に,OSには,メモリアクセス違反などの要因で発生したカーネルパニックまたはSTOPエラーを解析するために,自らメモリダンプを出力する仕組みが備わっています。NMI発生機能を有効にすることで,OSがハングアップした場合などのダンプ採取ができます。また,OS側でダンプ出力がされている最中にNMIが発生しても,OS側のダンプ出力が優先されます。
      アラートID 0x1470をN+1コールドスタンバイ機能の自動切り替え対象アラートとして設定している場合,自動切り替え待ち時間にはダンプを採取するのに十分な時間を設定してください。N+1コールドスタンバイ機能の自動切り替え対象アラートについては,マニュアル「JP1 Version 9 JP1/ServerConductor/Blade Server Manager系 運用ガイド」のN+1コールドスタンバイ機能について記載されている章を参照してください。
      なお,IA32サーバモジュールでNMIが発生した場合,アラートID 0x1413が通知されます。