2.5.2 大規模システムでの運用の検討
大規模システムでの運用で検討が必要な内容について説明します。
- 〈この項の構成〉
(1) 再接続処理の分散機能が無効なホストのPFMサービスを一斉起動する場合
再接続処理の分散機能が無効なホストのPFMサービスを一斉起動する場合,通常モードで起動するまでに3時間以上掛かる場合があります。この場合,エージェントを複数回に分けて起動すると,通常モードで起動するまでの時間を短縮できます。エージェントを複数回に分けて起動する場合,運用で許容できる起動時間と,すべてのエージェントがスタンドアロンモードにならずに起動する時間を十分に検証・比較しながら,同時に起動するエージェント数および間隔時間を決定する必要があります。
(2) PFMサービスを一斉起動したときに通常モードで起動するまでの時間
OSの一斉起動や定期的な再起動などによりPFMサービスが同時に起動した場合,監視マネージャーに負荷が掛かり,エージェントとアクションハンドラが一時的にスタンドアロンモードで起動します。エージェント数が多いとスタンドアロンモードから通常モードに移行するまでに時間が掛かります。スタンドアロンモードの間は,レコードの収集は行われますがアラームの評価が行われません。大規模システムでの運用は,これを考慮する必要があります。通常モードに移行するまでの時間の目安を次の表に示します。
エージェント数※ |
アクションハンドラ数 |
通常モードで起動するまでの時間の目安(単位:分) |
---|---|---|
100 |
100 |
20 |
500 |
500 |
40 |
1,200 |
1,024 |
70 |
2,500 |
2,500 |
120 |
(3) コマンドの実行時間について
jpctool config syncコマンド,jpctool config alarmsyncコマンド,およびjpcconf primmgr notifyコマンドは,エージェントとアクションハンドラに対して通信するため,大規模システムでは実行に時間が掛かります。コマンドの実行時間の目安を次の表に示します。
エージェント数※1 |
アクションハンドラ数 |
コマンドの実行時間の目安(単位:分) |
||
---|---|---|---|---|
jpctool config syncコマンド |
jpctool config alarmsyncコマンド※2 |
jpcconf primmgr notifyコマンド |
||
100 |
100 |
25 |
15 |
2 |
500 |
500 |
120 |
55 |
10 |
1,200 |
1,024 |
240 |
120 |
20 |
2,500 |
2,500 |
585 |
290 |
50 |
jpctool config syncコマンドは,エージェントとアクションハンドラのアラーム情報とノード情報を同期します。jpctool config alarmsyncコマンドは,反映状態がFailedまたはUncertainであるエージェントとアクションハンドラのアラーム情報を同期します。大規模システムではコマンドの実行に時間が掛かるため,必要に応じてコマンドを使い分けてください。
(4) 自動バインド機能を使用するシステムでPFMサービスを一斉起動する場合
自動バインドを設定したあとの初回エージェント起動時にPFMサービスを一斉起動する場合,PFMサービスの過負荷によって,一部のエージェントで自動バインドが失敗する場合があります。自動バインドが失敗すると,KAVE00568-Eメッセージが出力されます。この場合,アラームを再バインドするか対象エージェントを再起動して,アラーム情報を反映してください。
なお,エージェントを複数回に分けて起動すると,この現象を回避できます。この場合,運用で許容できる起動時間と,すべてのエージェントがスタンドアロンモードにならずに起動する時間を十分に検証・比較しながら,同時に起動するエージェント数および間隔時間を決定する必要があります。