JP1/Base 運用ガイド
ヘルスチェック機能は,JP1/Base自身の障害を検知することを目的としていますが,ヘルスチェック機能自体にハングアップなどの異常が生じると,JP1/Baseの障害を検知できなくなります。また,JP1/IM - Managerを利用したシステムでは,イベントサービスに異常が生じると,JP1イベントを発行,および転送できないため,異常を検知しても上位ホストへ通知できなくなります。
JP1/Baseは,自ホストのプロセスの異常を検知,または通知する手段がなくなった場合に備え,他ホストからヘルスチェック機能およびイベントサービスのプロセスの状態を監視できます。1台のホストで1,024台まで監視できます。
JP1/IM - Managerを利用したシステムでの他ホストの監視方法,および他ホストを監視する場合の運用方法について説明します。
他ホストのJP1/Baseのヘルスチェック機能,およびイベントサービスが正常に稼働しているかどうかを監視できます。
次の図に示す構成例を基に,JP1/IM - Managerを利用したシステムでの他ホストの監視について説明します。
図1-25 JP1/IM - Managerを利用したシステムでの他ホスト監視の例
図の例では,各ホストで次のように設定されています。
| ホスト | 役割 | 他ホスト監視の設定 |
|---|---|---|
| hostA | マネージャーホスト | hostB,hostXを監視する。 |
| hostB | サブマネージャーホスト | hostA,hostY,hostZを監視する。 |
| hostX | エージェントホスト | 設定なし。 |
| hostY | エージェントホスト | 設定なし。 |
| hostZ | エージェントホスト | 設定なし。 |
エージェントホストhostY,およびマネージャーホストhostAで,ヘルスチェック機能,およびイベントサービスに異常が生じた場合の処理について説明します。
1台のホストで複数のホストを監視する場合,ヘルスチェック機能は1台ずつホストのプロセス状況を確認します。1台のホストの監視に掛かる時間は3秒程度です。そのため,1台のホストが監視するホスト数が多いと監視に時間が掛かります。
例えば,1台のホストで200台のホストを監視すると,すべてのホストを監視し終わるまでに600秒程度掛かります。監視時間を短縮したい場合は,監視対象ホストをグループに分け,グループごとに擬似的なマネージャーホストを決めて監視してください。
図1-26 200台のホストを監視する場合の運用例
図の例では監視対象ホストを20台ずつのグループに分けています。また,マネージャーホストhostAから擬似的なマネージャーホストhost1,host21などを監視するよう設定します。グループごとに監視すると,監視に掛かる時間を60秒程度に短縮できます。
監視対象ホストを階層管理している構成で,障害が発生した場合の運用方法について次の図で説明します。
図1-27 階層管理している構成で,障害が発生した場合の運用例
hostBのヘルスチェック機能やイベントサービスに障害が発生した場合,hostBが監視しているhostDやhostEの異常を検知,および通知できなくなります。
hostBが短時間で復旧した場合は,hostBの停止中にhostDやhostEで障害が発生してJP1イベントが発行されても,JP1イベントの転送のリトライによって,hostBが回復した時点でJP1イベントが転送されます。hostBの復旧に長時間掛かる場合は,hostBが復旧するまでの間,hostAからhostD,hostEを直接監視するようヘルスチェック定義ファイル(jbshc.conf)を設定し直す必要があります。
このように階層管理している構成では,サブマネージャーホストの障害に備えて,マネージャーホストから直接エージェントホストを監視するよう定義したヘルスチェック定義ファイル(jbshc.conf)をあらかじめ用意しておくと便利です。
他ホストを監視する場合は,ヘルスチェック定義ファイル(jbshc.conf)で監視間隔を指定できます。運用を開始する前に試運転をして,指定した監視間隔が妥当かどうか確認してください。このとき,統合トレースログにKAVA7219-Wのメッセージが出力された場合は,指定した監視間隔が短いおそれがあります。「14. 定義ファイル」の「ヘルスチェック定義ファイル」に記載してある見積もり式を参照して,監視間隔を設定し直してください。
監視元ホストと監視対象ホストにインストールされているJP1/Baseのバージョンが両方とも09-10以降の場合,監視対象ホストの起動・停止を監視するかどうかを選択できます。監視対象ホストの起動・停止を監視すると,運用上計画的にホストが停止する場合,正常に停止したホストはエラーとして通知されません。
監視対象ホストの起動・停止を監視する場合と監視しない場合の動作の違いを次の図に示します。
図1-28 監視対象ホストの起動・停止を監視する場合と監視しない場合の動作の違い
JP1/Baseが起動・停止した場合,JP1イベントを発行します。エージェントホストの停止通知イベントを受信すると,監視対象ホストの起動・停止を監視する場合は,KAVA7228-Iメッセージを出力します。この場合,停止通知イベントを受信したあとも,指定された監視間隔で接続確認を行いますが,接続できなくても正常な運用と見なし,エラーの通知は行いません。
一方,監視対象ホストの起動・停止を監視しない場合は,起動または停止通知イベントを受信しても,メッセージを出力しません。この場合,停止通知イベントを受信したあとも,通常の監視を行い,接続できない場合はエラーメッセージを出力します。
現在どちらの設定になっているかは,ヘルスチェック(他ホスト監視)を起動したときに出力されるメッセージで確認できます。設定とメッセージIDの対応を次に示します。
| 設定 | メッセージID |
|---|---|
| 監視対象ホストの起動・停止を監視する | KAVA7231-I |
| 監視対象ホストの起動・停止を監視しない | KAVA7230-I |
監視対象ホストの起動・停止を監視するかどうかの設定は,ヘルスチェック定義ファイル(jbshc.conf)で変更できます。
All Rights Reserved. Copyright (C) 2012, Hitachi, Ltd.