Hitachi

JP1 Version 12 JP1/Integrated Management 2 - Manager 構築ガイド


2.17.5 JP1/IM - Managerの障害に備えた設定(UNIXの場合)

JP1/IM - ManagerはJP1/IM - Manager自身に障害が発生した場合に備えて,トラブル解決の調査資料を採取するツールや,プロセスの異常終了時に自動で再起動する機能などを提供しています。

ここでは,JP1/IM - Managerの障害に備えた設定項目について説明します。

〈この項の構成〉

(1) 障害発生時の資料採取の準備

JP1/IM - Managerではトラブル発生時に資料を採取するためのツールをシェルスクリプト(jim_log.sh)として提供しています。このツールは,トラブルの解決の調査資料となる情報を一括して採取するツールです。

JP1/IM - Managerの資料採取ツールで採取できるのは,JP1/IM - ManagerおよびJP1/Baseのトラブルシュート資料です。採取できる資料の詳細については,マニュアル「JP1/Integrated Management 2 - Manager 運用ガイド」の「11.3 トラブル発生時に採取が必要な資料」を参照してください。

資料採取ツールについて
  • jim_log.shについて

    参照先:マニュアル「JP1/Integrated Management 2 - Manager コマンド・定義ファイル・APIリファレンス」の「jim_log.sh(UNIX限定)」(1. コマンド)

なお,トラブルが発生した場合に調査資料として,コアダンプファイルが必要になることがあります。コアダンプファイルの出力はユーザーの環境設定に依存するため,次に示す設定を確認しておいてください。

(a) コアダンプファイルのサイズ設定

コアダンプファイルの最大サイズは,rootユーザーのコアダンプファイルのサイズ設定(ulimit -c)によって制限されます。JP1/IM - Managerではコアダンプファイルがユーザーの環境設定に依存しないで出力されるよう,jco_startおよびjco_start.clusterスクリプト内で次の設定をしています。

ulimit -c unlimited

この設定が,ご使用のマシンのセキュリティポリシーに反する場合は,これらのスクリプトの設定を次のように許容できる値に変更してください。

  • 例 8388608ブロックに制限する場合

ulimit -c 8388608

重要

コメント行にした場合やunlimited以外を設定した場合は,JP1/IM - Managerのプロセスで発生したセグメンテーション障害,バス障害やjcogencoreコマンド実行時などのコアダンプファイルの出力契機に,調査に十分なサイズのコアダンプファイルが出力されないため,調査が行えないおそれがあります。

(b) コアダンプに関連するカーネルパラメーターの設定(Linux限定)

Linuxのカーネルパラメーター(kernel.core_pattern)の設定で,コアダンプファイルの出力先が採取対象のログファイルディレクトリ以外に設定されている場合や,ファイル名をデフォルトの設定から変更している場合,資料採取ツールの実行時にコアダンプファイルを採取できません。

資料採取ツールは,次に示す採取対象のログファイルディレクトリにあるファイル名がcoreから始まるファイルを採取します。

物理ホストの場合
  • /var/opt/jp1cons/log/

  • /var/opt/jp1scope/log

  • /var/opt/jp1imm/log/imcf

  • /var/opt/jp1imm/log/imdb

  • /var/opt/jp1imm/log/imdd

論理ホストの場合
  • 共有ディレクトリ/jp1cons/log/

  • 共有ディレクトリ/jp1socpe/log

  • 共有ディレクトリ/jp1imm/log/imcf

  • 共有ディレクトリ/jp1imm/log/imdb

  • 共有ディレクトリ/jp1imm/log/imdd

kernel.core_patternの設定によって,資料採取ツールの実行前に次のことを確認および対処を実施しておく必要があります。デフォルトの設定内容はOSのバージョンによって異なるので,必ず設定内容を確認してください。

  • コアダンプファイルの出力先ディレクトリが採取対象のログファイルディレクトリ以外の場合

    コアダンプファイルをデフォルトの出力先ディレクトリにコピーしておく。

  • コアダンプファイルのファイル名を変更している場合

    コアダンプファイルのファイル名をcoreから始まるファイル名にリネームしておく。

  • コアダンプファイルを圧縮している場合

    コアダンプファイルを解凍しておく。

(c) コアダンプファイルに関連するABRTの設定(Linux限定)

自動バグレポートツール(ABRT)をインストールしているLinuxで,ABRTの設定でプロセスやOSアカウントのユーザーまたはユーザーのグループに対してコアダンプファイルの生成を制限している場合,JP1/IM - Managerのプロセスで発生したセグメンテーション障害,バス障害やjcogencoreコマンド実行時などのコアダンプファイルの出力契機に,コアダンプファイルが出力されないため,調査が行えません。

ご使用の運用に合わせて,JP1/IM - Managerを実行するOSアカウントのユーザーまたはユーザーのグループやプロセスに対して,コアダンプファイルの生成を制限しないようにABRTの設定を見直してください。詳しくは,ご使用のLinuxのドキュメントを参照してください。

(d) コアダンプファイルに関連するsystemdの設定(Linux限定)

コアダンプファイル名の設定ファイル(/proc/sys/kernel/core_pattern)が「|/usr/lib/systemd/systemd-coredump」から始まる文字列で設定されているLinuxが対象です。

コアダンプファイルの動作設定ファイル(/etc/systemd/coredump.conf)でコアダンプファイルを生成しない設定をしている場合,JP1/IM - Managerのプロセスで発生したセグメンテーション障害,バス障害やjcogencoreコマンド実行時などのコアダンプファイルの出力契機に,コアダンプが出力されないため,調査が行えません。

ご使用の運用に合わせて,コアダンプファイルを生成するようにコアダンプファイルの動作設定ファイル(/etc/systemd/coredump.conf)の設定を見直してください。詳しくは,ご使用のLinuxのドキュメントを参照してください。

(e) SUSE Linuxでの注意事項

SUSE Linux Enterprise Server 12 SP2以降で,jcogencoreコマンドでダンプを出力するときに,コマンドを格納するディレクトリにコアダンプファイルが出力されず,次のどちらかのメッセージが出力された場合は,次の手順を実行してください。

・KAVB8428-W コアダンプファイルが見つかりません

・KAVB8408-E 指定したプロセスは起動していません

なお,コアダンプファイルが/var/lib/systemd/coredump/ に出力する設定であるものとして示します。

  1. /var/lib/systemd/coredump/にある,jcogencoreコマンドを実行した頃のタイムスタンプのJP1/IM - Managerの実行ファイル名を含むファイルを次に示すコピー先ディレクトリにコピーしてください。

    No

    JP1/IM - Managerの実行ファイル名

    実行ファイル名ごとのコピー先ディレクトリ

    物理ホスト

    論理ホスト

    1

    evflow

    /var/opt/jp1cons/log/

    <共有ディスク>/jp1cons/log/

    2

    jcamain

    3

    evtcon

    4

    evgen

    5

    jcdmain

    6

    jcfmain

    /var/opt/jp1imm/log/imcf/

    <共有ディスク>/jp1imm/log/imcf/

    7

    jcfallogtrap

  2. 圧縮されたファイルの場合は,展開する(非圧縮ファイルの場合は3.へ)。コピーしたファイルの拡張子がxzの場合は,次のコマンドで展開する。

    unxz <1.でコピーしたファイルパス>

  3. 次のファイル名に変更する。

    No

    変更前のファイル名(デフォルトの場合)

    変更後のファイル名

    1

    接頭辞"core.evflow."のファイル名

    core.evflow

    2

    接頭辞"core.jcamain."のファイル名

    core.jcamain

    3

    接頭辞"core.evtcon"のファイル名

    core.java

    4

    接頭辞"core.evgen"のファイル名

    core.evgen

    5

    接頭辞"core.jcdmain "のファイル名

    core.jcdmain

    6

    接頭辞"core.jcfmain"のファイル名

    core.jcfmain

    7

    接頭辞"core.jcfallogtrap"のファイル名

    core.<PID>.jcfallogtrap

注※ <PID>は変更前のファイルにある<PID>を指定してください。変更前のファイル名は次の命名規則になっています(圧縮されてない場合は拡張子xzはありません)。

core.<実行ファイル名>.<実UID>.<Boot ID>.<PID>.<通算秒>.xz

次のファイル名の場合は,1378が<PID>になります。

core.jcfallogtrap.0.71abdba3becd450a8ac5c4469dfcd648.1378.1493089252000000.xz

(2) プロセス異常終了時の再起動の設定

  1. プロセス再起動を定義する。

    プロセス再起動が有効になるよう,次の拡張起動プロセス定義ファイル(jp1co_service.conf)を編集します。

    /etc/opt/jp1cons/conf/jp1co_service.conf

    「再起動可否」パラメーターは「|」で区切られた4番目の値で,0(再起動しない:デフォルト)または1(再起動する)を設定します。

  2. 定義内容を反映する。

    JP1/IM - Managerが稼働している場合は,プロセス再起動の設定が有効になるよう,JP1/IM - Managerのリロードコマンドを実行します。

    /opt/jp1cons/bin/jco_spmd_reload

プロセス再起動の定義について
  • 拡張起動プロセス定義ファイル(jp1co_service.confについて

    参照先:マニュアル「JP1/Integrated Management 2 - Manager コマンド・定義ファイル・APIリファレンス」の「拡張起動プロセス定義ファイル(jp1co_service.conf)」(2. 定義ファイル)

注意事項

異常終了時の再起動設定は,クラスタ運用時には設定しないでください。JP1/IM - Managerの障害時にはプロセス再起動の機能も障害の影響を受けるおそれがあります。クラスタ運用時に再起動をしたい場合は,JP1/IM - Manager外部のクラスタソフトから再起動を制御してください。

(3) プロセス異常検知時のJP1イベントの発行の設定

  1. JP1イベント発行の設定をする。

    次のIMパラメーター定義ファイル(jp1co_param_V7.conf)を編集します。

     /etc/opt/jp1cons/conf/jp1co_param_V7.conf

    このファイルの「SEND_PROCESS_TERMINATED_ABNORMALLY_EVENT」と「SEND_PROCESS_RESTART_EVENT」がJP1イベント発行の設定パラメーターです。JP1イベントを発行するには,値を「dword:1」に変更します。

  2. jbssetcnfコマンドを実行して,定義内容を反映する。

    /opt/jp1base/bin/jbssetcnf /etc/opt/jp1cons/conf/jp1co_param_V7.conf

  3. JP1/BaseおよびJP1/Baseを前提とする製品を再起動する。

    再起動後に設定内容が反映されます。

JP1イベント発行の設定について
  • IMパラメーター定義ファイル(jp1co_param_V7.confについて

    参照先:マニュアル「JP1/Integrated Management 2 - Manager コマンド・定義ファイル・APIリファレンス」の「IMパラメーター定義ファイル(jp1co_param_V7.conf)」(2. 定義ファイル)

(4) ヘルスチェック機能の設定

ヘルスチェック機能を使ってJP1/IM - Managerプロセスのハングアップを検知したい場合に設定します。

  1. ヘルスチェック定義ファイル(jcohc.conf)を開き,パラメーターを設定する。

    ヘルスチェック機能を有効にするため,ENABLE=trueにします。

    また,ハングアップ検知時にJP1イベントを発行する場合にはEVENT=trueを,通知コマンドを実行する場合にはCOMMAND=実行するコマンドを指定します。

  2. jco_spmd_reloadコマンドでJP1/IM - Managerをリロードする。または,JP1/IM - Managerを再起動する。

  3. 通知コマンドを設定した場合は,jcohctestコマンドを実行して動作確認する。

    jcohctestコマンドを実行して,正しくCOMMANDで指定したコマンドが実行されるか確認します。正しく動作しなかった場合は指定を見直してください。

ヘルスチェック機能の設定について
  • ヘルスチェック定義ファイル(jcohc.conf)について

    参照先:マニュアル「JP1/Integrated Management 2 - Manager コマンド・定義ファイル・APIリファレンス」の「ヘルスチェック定義ファイル(jcohc.conf)」(2. 定義ファイル)

  • jcohctestコマンドについて

    参照先:マニュアル「JP1/Integrated Management 2 - Manager コマンド・定義ファイル・APIリファレンス」の「jcohctest」(1. コマンド)

(5) 監視オブジェクトDBの自動バックアップ・リカバリー設定

セントラルスコープの機能を使用する場合に設定します。

監視ツリーの更新中に,OSがシャットダウンしたり,クラスタ運用時にフェールオーバーしたりすると,監視オブジェクトDBが破損するおそれがあります。このため,監視ツリーの更新時に監視オブジェクトDBを自動でバックアップ・リカバリーするよう設定します。

新規インストールの場合は有効,旧バージョンのJP1/IM - Managerで設定を無効にしていた場合は無効となっています。運用に合わせて,設定を変更してください。

  1. JP1/IM - Managerを停止する。

  2. 次のファイルを引数にjbssetcnfコマンドを実行する。

    監視オブジェクトDBの自動バックアップ・リカバリー機能を有効にする:auto_dbbackup_on.conf

    監視オブジェクトDBの自動バックアップ・リカバリー機能を無効にする:auto_dbbackup_off.conf

    jbssetcnfコマンドを実行すると,JP1共通定義情報に設定内容が反映されます。

    jbssetcnfコマンドについては,マニュアル「JP1/Base 運用ガイド」を参照してください。

    ファイルの設定内容について

    ファイルの設定内容については,マニュアル「JP1/Integrated Management 2 - Manager コマンド・定義ファイル・APIリファレンス」の「監視オブジェクトDBの自動バックアップ・リカバリー設定ファイル(auto_dbbackup_xxx.conf)」(2. 定義ファイル)を参照してください。

  3. JP1/IM - Managerを起動する。