JP1/Base 運用ガイド
JP1/Baseでは,JP1/Base自体の障害がJP1/IMやJP1/AJS2を利用したシステム運用に及ぼす影響をできるだけ防ぐために,次の機能を提供しています。
- プロセスの異常を検知する機能(ヘルスチェック機能による異常検知)
ヘルスチェック機能を使用してプロセスの異常を検知できます。
プロセス管理機能,イベントサービス,イベント変換機能などのプロセスのハングアップ(無限ループやデッドロック),および異常終了(強制終了した場合を除く)を検知します。
- プロセスの異常終了,および認証サーバの切り替え発生を検知する機能(プロセス管理機能による異常検知)
プロセス管理機能が管理するプロセスの異常終了と,認証サーバの切り替え発生を検知します。
- プロセス管理機能が管理するプロセスが異常終了した場合に再起動する機能
プロセス管理機能が管理するプロセスが異常終了した場合に,自動で再起動します。
- イベントサービスのプロセスが異常終了した場合に再起動する機能(UNIX限定)
物理ホストのイベントサービスのプロセスが異常終了した場合に,自動で再起動します。
- 障害発生時に資料を採取する機能
JP1/Baseでトラブルが発生したときに,トラブルシュートのための保守資料を採取できます。
プロセスの異常終了には,プロセス自体が異常と判断して終了する場合と,OSのkillコマンドなどで強制的に終了する場合の2種類あります。ヘルスチェック機能では,強制的にプロセスが終了した場合を異常終了として検知できず,プロセスの処理が停滞しているものとして検知します。そのため,プロセスの異常終了を確実に検知したい場合は,ヘルスチェック機能とプロセス管理機能による異常検知を併用してください。
ヘルスチェック機能が検知できるプロセスの障害の範囲と,プロセス管理機能が検知できるプロセスの障害の範囲を次の図で示します。
図2-3 ヘルスチェック機能とプロセス管理機能が検知できるプロセスの障害の範囲
各機能について説明します。
- <この項の構成>
- (1) ヘルスチェック機能でプロセスの異常を検知する
- (2) プロセスの異常終了および認証サーバの切り替え発生を検知する
- (3) 異常終了したプロセス管理機能が管理するプロセスを再起動させる
- (4) 異常終了したイベントサービスのプロセスを再起動させる(UNIX限定)
- (5) 障害発生時の資料採取の準備(Windows限定)
(1) ヘルスチェック機能でプロセスの異常を検知する
JP1/Baseのヘルスチェック機能は,JP1/Baseのプロセスが無限ループやデッドロックの状態になり処理が長時間終了しない場合に,プロセスの異常を検知してメッセージやJP1イベントを発行し,オペレーターにJP1/Baseの回復を促すことを目的とした機能です。
ヘルスチェック機能を利用すると,プロセスの異常を早期に検知できます。また,メッセージによる異常通知によって異常が発生したプロセスを特定できるため,プロセス異常時の影響を最小限に抑えた対処を行うことができます。
ヘルスチェック機能の詳細や設定方法については,「9. ヘルスチェック機能の設定」を参照してください。
(2) プロセスの異常終了および認証サーバの切り替え発生を検知する
JP1/Baseでは,プロセスが異常終了したり,認証サーバを2台設置した運用で自動で認証サーバの切り替えが発生した場合に,エラーメッセージを統合トレースログに出力しています。あらかじめ設定しておくことで,これらのメッセージをJP1イベントとして発行できます。発行されるJP1イベントの詳細については,「14. JP1イベント」を参照してください。
(a) 監視対象プロセス
プロセス管理(jbs_spmd)が管理する次のプロセスの異常終了を検知します。
- jbssessionmgr(認証サーバ)
- jbsroute(構成管理)
- jcocmd(コマンド実行)
- jbsplugind(プラグインサービス)
- jbshcd(ヘルスチェック:自ホスト監視用)
- jbshchostd(ヘルスチェック:他ホスト監視用)
(b) JP1イベントの発行契機
設定を有効にした場合,次に示す契機でJP1イベントが発行されます。
- プロセス管理機能が管理するプロセスの状態
- プロセスの起動時にタイムアウトした場合
- プロセスが異常終了した場合
- 起動時に起動通知がなく,タイムアウトした場合
- 異常終了した管理対象プロセスの再起動が完了した場合※
注※ プロセスの再起動の設定をした場合に発行されます。
- 認証サーバの状態(セカンダリー認証サーバを設置した場合)
- 認証サーバへの接続に失敗し,認証サーバへの接続が自動で閉塞状態になった場合
- 閉塞状態が自動で解除された場合
- プライマリー認証サーバおよびセカンダリー認証サーバへの接続がともに閉塞状態になった場合
(c) 設定手順
設定手順を次に示します。
- JP1/Baseパラメーター定義ファイル(jp1bs_param_V7.conf)を編集する。
- jbssetcnfコマンドを実行する。
JP1/Baseパラメーター定義ファイルの設定内容が共通定義情報に反映されます。
jbssetcnfコマンドの詳細については,「13. コマンド」の「jbssetcnf」を参照してください。
- JP1/BaseおよびJP1/Baseを前提とする製品を再起動する。
設定が有効になります。
(d) JP1/Baseパラメーター定義ファイルの詳細
JP1/Baseパラメーター定義ファイルの格納先を次に示します。
- Windows:インストール先フォルダ\conf\jp1bs_param_V7.conf
- UNIX:/etc/opt/jp1base/conf/jp1bs_param_V7.conf
jp1bs_param_V7.conf内から下記記述を探してください。
- プロセスの異常終了時にJP1イベントを発行する場合
[JP1_DEFAULT\JP1BASE] "SEND_PROCESS_TERMINATED_ABNORMALLY_EVENT"=dword:0 "SEND_PROCESS_RESTART_EVENT"=dword:0- SEND_PROCESS_TERMINATED_ABNORMALLY_EVENTは,プロセスが異常終了した場合や,プロセス起動時にタイムアウトした場合にJP1イベントを発行するかどうかを定義するパラメーターです。
- SEND_PROCESS_RESTART_EVENTは,プロセスの再起動が完了した場合にJP1イベントを発行するかどうかを定義するパラメーターです。
- 認証サーバの切り替え発生時にJP1イベントを発行する場合
[JP1_DEFAULT\JP1BASE] "SEND_AUTHSRV_EVENT"=dword:0JP1イベントを発行したい場合は,各パラメーターの値をdword:0からdword:1に変更してください。
JP1イベントを発行する設定を解除したい場合は,各パラメーターの値をdword:1からdword:0に戻してください。
なお,論理ホスト上で設定する場合は,実行系および待機系の両方で設定します。その際,[JP1_DEFAULT\JP1BASE]のJP1_DEFAULTを論理ホスト名に変更してください。
(3) 異常終了したプロセス管理機能が管理するプロセスを再起動させる
JP1/Baseを起動すると,複数のプロセスが生成されます。07-00以降のJP1/Baseでは,あらかじめ再起動の設定をしておくことで,何らかの理由でプロセスが異常終了した場合に自動でプロセスを再起動できます。
なお,ここで説明する再起動の設定は,クラスタ運用ではないJP1/Baseの再起動を目的としています。クラスタ運用の場合に再起動を行いたい場合は,クラスタソフトの制御によって再起動するようにしてください。
(a) 再起動の対象のプロセス
再起動の対象は,プロセス管理機能(jbs_spmd)が管理する次のプロセスです。
- jbssessionmgr(認証サーバ)
- jbsroute(構成管理)
- jcocmd(コマンド実行)
- jbsplugind(プラグインサービス)
- jbshcd(ヘルスチェック:自ホスト監視用)
- jbshchostd(ヘルスチェック:他ホスト監視用)
(b) 設定手順
設定手順を次に示します。
- 拡張起動プロセス定義ファイル(jp1bs_service_0700.conf)を編集する。
- 設定を有効にする。
JP1/Baseを再起動するか,リロードコマンド(jbs_spmd_reload)を実行すると設定が有効になります。
- ワトソン博士によるエラー通知を抑止する(Windows限定)
エラー発生時に,ワトソン博士のメッセージボックスやMicrosoftへのエラー報告のダイアログが表示されると,JP1/Baseが正常にフェールオーバーできないおそれがあるため,これらの表示を抑止する必要があります。抑止方法については,「(d) ワトソン博士によるエラー通知を抑止する(Windows限定)」を参照してください。
- Microsoftへのエラー報告を抑止する(Windows限定)
Windowsでは,アプリケーションエラーが発生すると,Microsoftへのエラー報告ダイアログボックスが表示されます。ダイアログボックスが表示されると再起動が有効にならないため,エラー報告を抑止する必要があります。抑止方法については,「(e) Microsoftへのエラー報告を抑止する(Windows限定)」を参照してください。
(c) 拡張起動プロセス定義ファイルの詳細
拡張起動プロセス定義ファイルの格納先を次に示します。
- Windows:インストール先フォルダ\conf\jp1bs_service_0700.conf
- UNIX:/etc/opt/jp1base/conf/jp1bs_service_0700.conf
ファイルの形式を次に示します。
プロセス名|パス|起動オプション|再起動可否|再起動回数|リトライ間隔|再起動回数リセット時間|
定義ファイルには,あらかじめ定義情報が記載されています。プロセス名,パス,起動オプションのフィールドは変更しないでください。また,フィールドを区切っている|は省略できません。コメント文を挿入したい場合は,行頭に#を付けてください。改行されるまでコメント文になります。
変更できるフィールドに指定できる値を次の表に示します。
フィールド名 内容 再起動可否 プロセスが異常終了した場合に,再起動するかどうかを指定します。再起動しない場合は0,再起動する場合は1を指定します。デフォルトは0です。 再起動回数 プロセスの再起動の試行回数を指定します。指定できる値は,0〜99です。各プロセスで,あらかじめ最適値が設定されています。運用方法に応じてカスタマイズしてください。再起動可否のフィールドに0が指定されている場合は,値が指定されていても無効になります。 リトライ間隔 プロセスの再起動のリトライ間隔を秒単位で指定します。指定できる値は,0〜3,600です。各プロセスで,あらかじめ最適値が設定されています。運用方法に応じてカスタマイズしてください。再起動可否のフィールドに0が指定されている場合は,値が指定されていても無効になります。 再起動回数リセット時間 再起動によってプロセスが起動してから,何時間後に再起動回数をリセットするかを秒単位で指定します。プロセスが起動してから,指定した時間が経過すると,再起動回数がリセットされます。再度プロセスが異常終了した場合は,再起動回数が1からカウントされます。
再起動によってプロセスが起動してから,指定した時間より前に再度異常終了した場合は,前回の再起動回数を引き継ぎます。指定できる値は,3,600〜2,147,483,647(秒)です。各プロセスで,あらかじめ最適値が設定されています。運用方法に応じてカスタマイズしてください。再起動可否のフィールドに0が指定されている場合は,値が指定されていても無効になります。
- 注意事項
- 設定を省略したり,正常値を設定していない状態でプロセスを起動したりすると,エラーとなり起動しません。また,設定を省略したり正常値を設定していない状態でjbs_spmd_reloadコマンドを実行すると,エラーとなり,設定は反映されません。
- クラスタ構成では,論理ホストのプロセス管理のプロセスを起動する際,論理ホストのconfフォルダに拡張起動プロセス定義ファイルがない場合,物理ホストの拡張起動定義ファイルがコピーされます。
(d) ワトソン博士によるエラー通知を抑止する(Windows限定)
エラー発生時に,ワトソン博士のメッセージボックスやMicrosoftへのエラー報告のダイアログが表示されると,JP1/Baseが正常にフェールオーバーできないおそれがあるため,これらの表示を抑止する必要があります。
エラーの通知を抑止すると,アプリケーションエラーが発生した際の情報取得に影響が出る場合があるためご注意ください。
ワトソン博士によるエラー通知を抑止する手順を次に示します。
- ワトソン博士の設定を有効にするため,コマンドプロンプトで「drwtsn32 -i」を入力する。
ワトソン博士が既定のアプリケーションデバッガとしてインストールされます。
- スタートメニューから[ファイル名を指定して実行]を選択する。
- テキストボックスに「drwtsn32」と入力し,[OK]ボタンをクリックする。
[ワトソン博士]ダイアログボックスが開きます。
- [メッセージボックスによる通知]のチェックを外す。
- [OK]ボタンをクリックする。
(e) Microsoftへのエラー報告を抑止する(Windows限定)
Windowsでは,アプリケーションエラーが発生すると,Microsoftへエラーを報告するダイアログボックスが表示されます。このダイアログボックスが表示されると再起動が有効にならないため,エラー報告を抑止する必要があります。
Microsoftへのエラー報告を抑止する手順を次に示します。
- コントロールパネルの「システム」を選択する。
[システムのプロパティ]ダイアログボックスが開きます。
- [詳細設定]タブの[エラー報告]ボタンをクリックする。
[エラー報告]ダイアログボックスが開きます。
- 「エラー報告を無効にする」のラジオボタンを選択したあと,「重大なエラーが発生した場合は通知する」のチェックを外す。
- [OK]ボタンをクリックする。
拡張起動プロセス定義ファイルの設定例と,プロセスが異常終了した場合の動作を次に示します。
ここでは,JP1/Baseのプロセスに対して次の条件を設定します。
再起動可否:する 再起動回数:4回 リトライ間隔:3秒 再起動回数リセット時間:3,600秒図2-4 拡張起動プロセス定義ファイルの設定例
図2-5 プロセスが異常終了した場合の動作例
図の例では,再起動後,再起動回数のリセット時間で指定した3,600秒以内に異常終了しなかった場合,3,600秒の時点で再起動回数がリセットされます。次回異常終了したときには1回目からカウントされます。一方,再起動後,3,600秒以内に異常終了した場合は,再起動回数を引き継ぎます。再起動回数が,指定した回数に達すると,次回異常終了時には再起動しません。
(4) 異常終了したイベントサービスのプロセスを再起動させる(UNIX限定)
08-10以降のUNIX版のJP1/Baseでは,物理ホストのイベントサービスのプロセスが異常終了した場合,あらかじめ再起動の設定をしておくことで,自動で再起動できます。この設定は,デフォルトでは無効です。
この設定はUNIX版のJP1/Baseだけで有効となります。Windows版のJP1/Baseの場合は,WindowsのService Control Managerでサービスを再起動する設定をしてください。
なお,ここで説明する再起動の設定は,クラスタ運用ではないJP1/Baseの再起動を目的としています。クラスタ運用の場合に再起動を行いたい場合は,クラスタソフトの制御によって再起動するようにしてください。
(a) 再起動の対象のプロセス
再起動の対象のプロセスは,jevservice(イベントサービス)が管理する子プロセスjevservice(イベントサービス)です。
jevservice(イベントサービス)が管理する子プロセスjevservice(イベントサービス)とは,jevstatコマンドで確認できるプロセスIDを親プロセスとして持つjevservice(イベントサービス)プロセスです。
(b) 設定手順
設定手順を次に示します。
- イベントサーバ設定ファイル(conf)にrestartパラメーターを定義する。
- イベントサービスを起動する。
イベントサーバ設定ファイル(conf)およびrestartパラメーターの詳細については,「6.4.2 イベントサーバ設定ファイル(conf)の詳細」を参照してください。
(5) 障害発生時の資料採取の準備(Windows限定)
トラブル発生時に資料を採取するためのツールを準備します。このツールは,トラブルの解決に必要な情報を一括して採取します。
なお,資料採取ツールで採取できる資料には,メモリーダンプ,クラッシュダンプがあります。これらのダンプは,出力されるようにあらかじめ次の設定をしてください。出力設定すると,資料採取ツールでこれらのダンプも採取できます。
メモリーダンプの出力設定の手順を次に示します。
- コントロールパネルから[システム]をダブルクリックする。
- [詳細設定]タブの[起動と回復]の[設定]をクリックする。
- [デバッグ情報の書き込み]で,[完全メモリダンプ]を選択し,出力先のファイルを指定する。
- 注意事項
- メモリーダンプのサイズは,実メモリーのサイズによって異なります。搭載している物理メモリーが大きいと,メモリーダンプのサイズも大きくなります。メモリーダンプを採取できるだけのディスク領域を確保してください。詳細は,Windowsのヘルプの「STOPエラー」の項目を参照してください。
クラッシュダンプの出力設定手順を次に示します。
- スタートメニューから[ファイル名を指定して実行]を選択する。
- テキストボックスに「drwtsn32」と入力し,[OK]ボタンをクリックする。
- [ワトソン博士]ダイアログボックスが開きます。
- [クラッシュ ダンプ ファイルの作成]にチェックを入れ,クラッシュ ダンプテキストボックスに出力先のファイルを指定する。
- [OK]ボタンをクリックする。
- 注意事項
- クラッシュダンプに出力される情報はJP1だけでなく,ほかのアプリケーションプログラムのトラブル情報も出力されます。また,クラッシュダンプが出力されると,その分ディスク容量が圧迫されます。クラッシュダンプが出力されるように設定する場合は,十分なディスク領域を確保しておいてください。
All Rights Reserved. Copyright (C) 2006, 2008, Hitachi, Ltd.