ヘルスチェック機能を利用した他ホストの監視

ヘルスチェック機能は，JP1/Base自身の障害を検知することを目的としていますが，ヘルスチェック機能自体にハングアップなどの異常が生じると，JP1/Baseの障害を検知できなくなります。また，JP1/IM - Managerを利用したシステムでは，イベントサービスに異常が生じると，JP1イベントを発行，および転送できないため，異常を検知しても上位ホストへ通知できなくなります。

JP1/Baseは，自ホストのプロセスの異常を検知，または通知する手段がなくなった場合に備え，他ホストからヘルスチェック機能およびイベントサービスのプロセスの状態を監視できます。1台のホストで1,024台まで監視できます。

JP1/IM - Managerを利用したシステムでの他ホストの監視方法，および他ホストを監視する場合の運用方法について説明します。

＜この項の構成＞: (1)　JP1/IM - Managerを利用したシステムでの他ホスト監視; (2)　他ホストを監視する場合の運用方法

(1)　JP1/IM - Managerを利用したシステムでの他ホスト監視

他ホストのJP1/Baseのヘルスチェック機能，およびイベントサービスが正常に稼働しているかどうかを監視できます。

次の図に示す構成例を基に，JP1/IM - Managerを利用したシステムでの他ホストの監視について説明します。

図1-25　JP1/IM - Managerを利用したシステムでの他ホスト監視の例

[図データ]

図の例では，各ホストで次のように設定されています。

ホスト	役割	他ホスト監視の設定
hostA	マネージャーホスト	hostB，hostXを監視する。
hostB	サブマネージャーホスト	hostA，hostY，hostZを監視する。
hostX	エージェントホスト	設定なし。
hostY	エージェントホスト	設定なし。
hostZ	エージェントホスト	設定なし。

エージェントホストhostY，およびマネージャーホストhostAで，ヘルスチェック機能，およびイベントサービスに異常が生じた場合の処理について説明します。

hostYのヘルスチェック機能に異常が生じた場合: hostBのヘルスチェック機能が異常を検知してJP1イベントを発行します。発行されたJP1イベントはhostAに転送され，JP1/IM - ViewにhostYの異常通知が表示されます。

hostYのイベントサービスに異常が生じた場合: hostYのヘルスチェック機能が異常を検知しますが，JP1イベントを発行できないため，hostBのヘルスチェック機能が異常を検知してJP1イベントを発行します。hostBで発行されたJP1イベントはhostAに転送され，JP1/IM - ViewにhostYの異常通知が表示されます。

hostAのヘルスチェック機能に異常が生じた場合: hostBのヘルスチェック機能が異常を検知してJP1イベントを発行します。発行されたJP1イベントはhostAに転送され，JP1/IM - ViewにhostAの異常通知が表示されます。

hostAのイベントサービスに異常が生じた場合: hostAのJP1/IM - Managerでヘルスチェック機能を有効にしている場合は，JP1/IM - Managerのヘルスチェック機能がhostAのイベントサービスの異常を検知し，JP1/IM - ViewにhostAの異常通知が表示されます。

(2)　他ホストを監視する場合の運用方法

(a)　監視対象ホストの数が多い場合の運用方法

1台のホストで複数のホストを監視する場合，ヘルスチェック機能は1台ずつホストのプロセス状況を確認します。1台のホストの監視に掛かる時間は3秒程度です。そのため，1台のホストが監視するホスト数が多いと監視に時間が掛かります。

例えば，1台のホストで200台のホストを監視すると，すべてのホストを監視し終わるまでに600秒程度掛かります。監視時間を短縮したい場合は，監視対象ホストをグループに分け，グループごとに擬似的なマネージャーホストを決めて監視してください。

図1-26　200台のホストを監視する場合の運用例

[図データ]

図の例では監視対象ホストを20台ずつのグループに分けています。また，マネージャーホストhostAから擬似的なマネージャーホストhost1，host21などを監視するよう設定します。グループごとに監視すると，監視に掛かる時間を60秒程度に短縮できます。

(b)　階層管理した構成で障害が発生した場合の運用方法

監視対象ホストを階層管理している構成で，障害が発生した場合の運用方法について次の図で説明します。

図1-27　階層管理している構成で，障害が発生した場合の運用例

[図データ]

hostBのヘルスチェック機能やイベントサービスに障害が発生した場合，hostBが監視しているhostDやhostEの異常を検知，および通知できなくなります。

hostBが短時間で復旧した場合は，hostBの停止中にhostDやhostEで障害が発生してJP1イベントが発行されても，JP1イベントの転送のリトライによって，hostBが回復した時点でJP1イベントが転送されます。hostBの復旧に長時間掛かる場合は，hostBが復旧するまでの間，hostAからhostD，hostEを直接監視するようヘルスチェック定義ファイル（jbshc.conf）を設定し直す必要があります。

このように階層管理している構成では，サブマネージャーホストの障害に備えて，マネージャーホストから直接エージェントホストを監視するよう定義したヘルスチェック定義ファイル（jbshc.conf）をあらかじめ用意しておくと便利です。

(c)　監視間隔の見直し

他ホストを監視する場合は，ヘルスチェック定義ファイル（jbshc.conf）で監視間隔を指定できます。運用を開始する前に試運転をして，指定した監視間隔が妥当かどうか確認してください。このとき，統合トレースログにKAVA7219-Wのメッセージが出力された場合は，指定した監視間隔が短いおそれがあります。「14.　定義ファイル」の「ヘルスチェック定義ファイル」に記載してある見積もり式を参照して，監視間隔を設定し直してください。

(d)　監視対象ホストが停止する場合の運用方法

監視元ホストと監視対象ホストにインストールされているJP1/Baseのバージョンが両方とも09-10以降の場合，監視対象ホストの起動・停止を監視するかどうかを選択できます。監視対象ホストの起動・停止を監視すると，運用上計画的にホストが停止する場合，正常に停止したホストはエラーとして通知されません。

監視対象ホストの起動・停止を監視する場合と監視しない場合の動作の違いを次の図に示します。

図1-28　監視対象ホストの起動・停止を監視する場合と監視しない場合の動作の違い

[図データ]

JP1/Baseが起動・停止した場合，JP1イベントを発行します。エージェントホストの停止通知イベントを受信すると，監視対象ホストの起動・停止を監視する場合は，KAVA7228-Iメッセージを出力します。この場合，停止通知イベントを受信したあとも，指定された監視間隔で接続確認を行いますが，接続できなくても正常な運用と見なし，エラーの通知は行いません。

一方，監視対象ホストの起動・停止を監視しない場合は，起動または停止通知イベントを受信しても，メッセージを出力しません。この場合，停止通知イベントを受信したあとも，通常の監視を行い，接続できない場合はエラーメッセージを出力します。

現在どちらの設定になっているかは，ヘルスチェック（他ホスト監視）を起動したときに出力されるメッセージで確認できます。設定とメッセージIDの対応を次に示します。

設定	メッセージID
監視対象ホストの起動・停止を監視する	KAVA7231-I
監視対象ホストの起動・停止を監視しない	KAVA7230-I

監視対象ホストの起動・停止を監視するかどうかの設定は，ヘルスチェック定義ファイル（jbshc.conf）で変更できます。

1.7.2 ヘルスチェック機能を利用した他ホストの監視

(1) JP1/IM - Managerを利用したシステムでの他ホスト監視

(2) 他ホストを監視する場合の運用方法

(a) 監視対象ホストの数が多い場合の運用方法

(b) 階層管理した構成で障害が発生した場合の運用方法

(c) 監視間隔の見直し

(d) 監視対象ホストが停止する場合の運用方法

1.7.2　ヘルスチェック機能を利用した他ホストの監視

(1)　JP1/IM - Managerを利用したシステムでの他ホスト監視

(2)　他ホストを監視する場合の運用方法

(a)　監視対象ホストの数が多い場合の運用方法

(b)　階層管理した構成で障害が発生した場合の運用方法

(c)　監視間隔の見直し

(d)　監視対象ホストが停止する場合の運用方法