9.5.5 統合エージェント制御基盤のポーリング監視
統合エージェント管理基盤は,統合エージェント制御基盤からの接続と切断を検知して,JP1イベントを発行します。
(1) 機能概要
統合エージェント制御基盤のポーリング監視は,統合エージェント管理基盤が統合エージェント制御基盤からの接続と切断を検知して,JP1イベントを発行します。統合エージェント制御基盤は起動してから定期的に統合エージェント管理基盤へ接続します。そのため,統合エージェント管理基盤は一定期間,統合エージェント制御基盤からの接続がない場合に切断されたと判断します。発行したJP1イベントは,統合オペレーション・ビューアーの統合エージェント制御基盤SIDのIM管理ノードを選択してJP1イベント一覧を表示することで確認できます。
なお,統合エージェント管理基盤と統合エージェント制御基盤は,それぞれ次に示すプロセスで構成されています。この機能では,統合エージェント管理基盤はimbaseプロセス,統合エージェント制御基盤はimagentプロセスを指します。各プロセスの役割については,「9.5.2(1)共通機能」を参照してください。
■統合エージェント管理基盤
-
imbase
-
imbaseproxy
■統合エージェント制御基盤
-
imagent
-
imagentproxy
-
imagentaction
(2) 統合エージェント制御基盤のポーリング監視
統合エージェント制御基盤は,起動してから定期的に統合エージェント管理基盤へ接続します。統合エージェント管理基盤は,一定期間,統合エージェント制御基盤からの接続がない場合,切断されたと検知してJP1イベントを発行します。統合エージェント制御基盤を起動する場合や一度切断されたあとに統合エージェント制御基盤から統合エージェント管理基盤へ接続があった場合,接続されたと検知してJP1イベントを発行します。また,統合エージェント制御基盤が正常に停止する場合,統合エージェント管理基盤から切断されるため,JP1イベントを発行します。
統合エージェント制御基盤のポーリング監視で発行するJP1イベントと発行契機を次に示します。JP1イベントの詳細については,マニュアル「JP1/Integrated Management 3 - Manager コマンド・定義ファイル・APIリファレンス」の「3.2.3 JP1/IM - Agent が発行するJP1 イベント一覧」を参照してください。なお,接続・切断の状態が変更したときだけJP1イベントを発行します。
イベントID |
重大度 |
メッセージ |
---|---|---|
00007620 |
エラー |
KNBC20043-E |
00007621 |
情報 |
KNBC20044-I |
00007622 |
情報 |
KNBC20045-I |
統合エージェント制御基盤のポーリング監視で発行するJP1イベントを確認するユースケースを次に示します。
ユースケース |
イベントID |
---|---|
統合エージェント制御基盤の異常検知※時の確認 |
00007620 |
統合エージェント制御基盤が正常停止後に起動して統合エージェント管理基盤に初めて接続したときの確認 |
00007621 |
統合エージェント制御基盤の異常検知※後に統合エージェント制御基盤が統合エージェント管理基盤に初めて接続したときの確認 |
|
統合エージェント管理基盤の再起動後に統合エージェント制御基盤が統合エージェント管理基盤に初めて接続したときの確認 |
|
JP1/IM - Agentインストール・セットアップ後にライセンス情報を取得して統合エージェント制御基盤が統合エージェント管理基盤に初めて接続したときの確認 |
|
統合エージェント制御基盤の正常停止時の確認 |
00007622 |
注※ 次のようなケースで,統合エージェント制御基盤が統合エージェント管理基盤に60秒(最大120秒)以上接続がない場合,異常検知します。
-
統合エージェント管理基盤と統合エージェント制御基盤間のネットワーク不可
-
統合エージェント制御基盤のハングアップや異常停止
統合エージェント制御基盤のポーリング監視で発行するJP1イベントを確認できないユースケースを,次に示します。
項番 |
ユースケース |
---|---|
1 |
統合エージェント制御基盤の異常停止後に,統合エージェント管理基盤が異常検知※する前に統合エージェント制御基盤が起動して統合エージェント管理基盤に接続 |
2 |
統合エージェント管理基盤が停止中に統合エージェント制御基盤の異常検知※ |
3 |
統合エージェント管理基盤が停止中に統合エージェント制御基盤の正常停止 |
注※ 次のようなケースで,統合エージェント制御基盤が統合エージェント管理基盤に60秒(最大120秒)以上接続がない場合,異常検知します。
-
統合エージェント管理基盤と統合エージェント制御基盤間のネットワーク不可
-
統合エージェント制御基盤のハングアップや異常停止
一時的なネットワークエラーで統合エージェント制御基盤と統合エージェント管理基盤が接続できない場合,次の動作によって60〜120秒以内に再接続できたときは,切断として検知しません。
-
統合エージェント制御基盤は約10秒に一度以上統合エージェント管理基盤に接続する。
-
統合エージェント管理基盤は60秒間隔で60秒以上接続がない統合エージェント制御基盤がないかをチェックする。
60秒以上更新がない統合エージェント制御基盤がないか統合エージェント管理基盤が確認する処理について,次に示します。
-
統合エージェント管理基盤は,60秒間隔でチェックする処理でJP1イベントの発行に失敗した場合,「KNBC20038-E」のメッセージをログ出力し,次のタイミングで再度チェックを行います。
-
統合エージェント管理基盤は,60秒間隔でチェックする処理で55秒以内に処理が終わらない場合,処理を中断したあと,「KNBC20048-E」のメッセージをログ出力し,接続が切断されたとして扱います。
-
統合エージェント管理基盤と統合エージェント制御基盤間の通信のリトライについて,次に示します。
-
統合エージェント制御基盤は,定期的に統合エージェント管理基盤に接続するため,リトライをしません。接続に失敗した場合,次の定期接続で再度接続を行います。
-
起動の通知ではリトライをしません。通知に失敗した場合,次の定期接続で接続したときに通知します。
-
停止の通知ではリトライをしません。
- 重要
-
-
統合エージェント管理基盤が停止すると,接続していた統合エージェント制御基盤は切断されますが,検知はされません。統合エージェント管理基盤の起動後に統合エージェント制御基盤が接続され,イベントIDが00007621のJP1イベントが発行されます。
-
統合エージェント制御基盤が異常停止して,統合エージェント管理基盤が検知する前(最大120秒以内)に統合エージェント制御基盤を起動すると,イベントIDが00007620のJP1イベントは発行されません。そのようなケース(統合エージェント制御基盤が異常停止してから短時間で起動するケース)を検知したい場合は,マニュアル「JP1/Integrated Management 3 - Manager 構築ガイド」の「統合エージェントのプロセスの死活監視の設定」について記載している個所を参照して,imagentプロセスを監視してください。この設定では,統合エージェント制御基盤を経由して統合マネージャーに通知するため,統合エージェント制御基盤が異常停止したときには通知されませんが,統合エージェント制御基盤が起動したときに異常があったことが通知されます。
-
統合エージェント制御基盤のポーリング監視は,ライセンス情報を取得してから開始されます(初期シークレットを使っている間ポーリング監視は実施されません)。ライセンス情報については,「9.5.2(1)(b)初期シークレットによる認証」を参照してください。
-
(3) ヘルスチェック機能
統合エージェント制御基盤のimagentプロセスについてだけ,ヘルスチェック機能によるポーリング監視に対応しています。
統合エージェント制御基盤のimagentプロセス以外のプロセスについては,ユーザーの運用によるプロセスの死活監視で対応してください。
ユーザーの運用によるプロセスの死活監視については,マニュアル「JP1/Integrated Management 3 - Manager 構築ガイド」の「統合エージェントのプロセスの死活監視の設定」を記載している個所を参照してください。
- 重要
-
統合エージェント基盤のプロセスが停止している場合,JP1/IM - AgentがJP1/IM - Managerに対して通信できないため,統合エージェントホストのJP1イベントが発行されません。統合エージェント基盤のプロセスを起動させることで,停止していた間の通信はリトライされます。ただし,ログ監視機能では,統合エージェント基盤のプロセスを長時間※停止していた場合,JP1イベントが破棄されることがあります。
詳細については,「9.5.4(9)(c)送信するログデータのバッファ機能(buffer)」を参照してください。
- 注※
-
Fluentdのデフォルトの設定で約27万件のJP1イベントが登録される時間