16.22 エージェントの障害回復待ち時間を短縮する設定方法

JP1/AJS2では,ジョブ(キューレスジョブを除くPCジョブ・UNIXジョブ,JP1/AJS2上で実行するQUEUEジョブ,アクションジョブ,およびカスタムジョブ)の実行ホスト(エージェントホスト)が障害状態になった場合や通信障害が発生した場合,即時に異常検知とはしないで,ある程度の待ち時間を設けて通信リトライすることで,エージェントホスト上のシステム障害や通信障害状態が回復するのを待ちます。これによって,一時的な障害による,回復可能な業務停止を防止しています。通常,障害回復待ち時間はデフォルトで10分です。

ただし,運用によっては障害が発生した場合は回復を待つことよりも,直ちに異常を検知して早急なリカバリーを優先させる場合があります。その場合は障害回復待ち時間を短縮することで,早急な障害検知ができます。

エージェントホストの障害回復待ち時間を短縮する設定方法について次に説明します。

<この節の構成>
(1) 定義手順
(2) 定義パラメーター一覧
(3) 定義内容

(1) 定義手順

  1. JP1/AJS2のサービスを停止する。
    次のコマンドを実行して,プロセスがすべて停止していることを確認します。

    # /etc/opt/jp1ajs2/jajs_stop
    # /opt/jp1ajs2/bin/jajs_spmd_status

    注※
    自動停止の設定が行われていることを確認してください。
    クラスタ運用をしている場合は,論理ホストのJP1/AJS2のサービスも停止してください。
  2. viなどのテキストエディターで,「(2) 定義パラメーター一覧」の定義パラメーターを記述した設定ファイルを作成する。
    設定ファイルのファイル名は任意です。
  3. ファイルを保存し,次のコマンドを実行する。

    jbssetcnf 設定ファイル名

    jbssetcnfコマンドのパスは,「/opt/jp1base/bin/jbssetcnf」です。
    jbssetcnfコマンドの詳細については,マニュアル「JP1/Base 運用ガイド」を参照してください。
    注意事項
    クラスタ運用をしている場合は,実行系・待機系の両方でこの設定をしてください。
  4. JP1/AJS2を再起動する。
    設定ファイルに記述した内容が反映されます。

(2) 定義パラメーター一覧

表16-25 エージェントの障害回復待ち時間の設定のための定義パラメーター一覧

定義キー環境設定パラメーター定義内容
[{JP1_DEFAULT|論理ホスト名}¥JP1NBQMANAGER¥Job]"QueuingJobRecoveryTime"=キューイング中のジョブに対するエージェントの障害回復待ち時間(単位:秒)
[{JP1_DEFAULT|論理ホスト名}¥JP1NBQMANAGER¥Job]"ExecutingJobRecoveryTime"=実行中のジョブに対するエージェントの障害回復待ち時間(単位:秒)
注※
{JP1_DEFAULT|論理ホスト名}の部分は,物理ホストの場合は「JP1_DEFAULT」を,論理ホストの場合は「論理ホスト名」を指定します。

(3) 定義内容

"QueuingJobRecoveryTime"=dword:設定値
キューイング中のジョブに対するエージェントの障害回復待ち時間を16進数で指定します。
指定できる範囲は0000001E~00000E10(10進数で30~3600)(単位:秒)です。
デフォルトは「00000258」(10進数で600)で10分です。
注※
ジョブが実行されていない時間帯は,ジョブの異常を数十秒の間隔で監視しているため,ジョブの異常検知が数十秒遅れる場合があります。
"ExecutingJobRecoveryTime"=dword:設定値
実行中のジョブに対するエージェントの障害回復待ち時間を16進数で指定します。
指定できる範囲は0000001E~00000E10(10進数で30~3600)(単位:秒)です。
デフォルトは「00000258」(10進数で600)で10分です。
注※
デフォルトの動作では,ジョブの異常検知までに実行中のジョブの状態確認を最大で3回実行します。また,実行中のジョブに対するエージェントの障害回復待ち時間をエージェント監視インターバル未満に設定した場合は,実行中のジョブの状態確認を実行する前に障害回復待ち時間に到達するため,実行中のジョブの状態確認を最大で2回実行します。障害検知までの合計時間の内訳は次のようになります。
障害検知までの合計時間 ≒
(エージェント監視インターバル × 1回)
+ (通信時間 × 2回)
+ 障害発生時間から最初の状態確認までの時間
また,エージェント監視インターバル,TCP/IP通信接続エラーのリトライ間隔,リトライ回数を短く変更すると,障害検知までの合計時間はさらに短くなります。エージェント監視インターバルの設定については,「14.2.2 マネージャー環境(JP1/AJS2 - Manager)で設定する内容」を参照してください。TCP/IP通信接続エラーのリトライ間隔,およびリトライ回数の設定の詳細については,「16.17 TCP/IP通信接続エラーのリトライ間隔・回数の変更」を参照してください。
エージェント監視インターバルを使用したポーリングはエージェントホストごとに行います。したがって,エージェント監視インターバルの設定値を短くしてポーリング回数が増えるとエージェントホスト数に比例して通信回数が増えますので,設定を変更する場合は十分に注意してください。また,TCP/IP通信接続エラーのリトライ間隔,リトライ回数を変更する際にも注意事項がありますので十分に確認してください。