2.5.1 大規模システムでの構築の検討
大規模システムでの構築で検討が必要な内容について説明します。
- 〈この項の構成〉
(1) Performance Managementの機能の有効化
大規模システムでは,次に示すPerformance Managementの機能を有効にしてください。
- ステータス管理機能
-
PFMサービスの状態を管理することで,監視マネージャーに負荷が掛かることを防ぐ機能です。ステータス管理機能の設定方法については,マニュアル「JP1/Performance Management 運用ガイド」の,Performance Managementの障害検知について説明している章を参照してください。
- アラームテーブル複数バインド機能
-
複数のアラームテーブルをエージェントにバインドできる機能です。アラームテーブル複数バインド機能の設定方法については,Windowsの場合は「4.4.4 アラームテーブル複数バインド機能の設定手順」を,UNIXの場合は「5.4.4 アラームテーブル複数バインド機能の設定手順」を参照してください。
- 再接続処理の分散機能
-
複数のエージェントがスタンドアロンモードで起動した時,再接続を試みるタイミングを分散させる機能です。再接続処理の分散機能の設定方法については,マニュアル「JP1/Performance Management 運用ガイド」の,同時に起動した複数のエージェントでスタンドアロンモードからの回復に時間が掛かる場合の対処について説明している個所を参照してください。
- 監視一時停止機能
-
アラームやヘルスチェックなどの監視を一時的に停止したり再開したりすることができる機能です。監視一時停止機能の設定方法については,マニュアル「JP1/Performance Management 運用ガイド」の監視一時停止機能の設定について説明している個所を参照してください。
- ポート固定時の通信削減機能
-
Master ManagerとCorrelatorのポート番号を固定することで,エージェント起動時の通信を減らし監視マネージャーの負荷を減らす機能です。ポート番号の設定方法については,Windowsの場合は「4.1.4(2) ネットワークの設定」を,UNIXの場合は「5.1.4(3) ネットワークの設定」を参照してください。
- 重要
-
Master ManagerとCorrelatorのポート番号を固定したあと,ポート番号の設定を変更する場合は,次の個所を参照してください。
- Windowsの場合
- UNIXの場合
(2) 最大アラーム数を考慮したアラームの作成
システム内で作成できる最大アラーム数は20,000です。大規模システムでは,サーバごとにアラームテーブルを作成すると,アラーム数が20,000を超える可能性があります。アラームの定義数が20,000以下となるように,必要に応じてアラームテーブルを共通化してください。
Performance Managementでは,同じアラーム定義が別のアラームテーブルに属していると,それぞれ別のアラームとして扱われます。複数のサーバでバインドしているアラームを共通のアラームテーブルとしてまとめて定義することで,アラームの定義数を削減できます。
また,レコードのインスタンスごとの状態変化を1つのアラームで監視できます。この場合,状態が変化したときにレコードのインスタンスごとの状態変化を通知するアラームを作成してください。詳細な設定方法については,「3.3.4 アラームの通知方法」を参照してください。
(3) アラームイベントの発生頻度を考慮した環境構築
システム内で発生するアラームイベントの数は,ピーク時で1分間につき150程度に抑える必要があります。システム内のエージェント数が増加すると,1エージェントあたりに発生できるアラームイベント数が少なくなります。環境構築する場合は,次に示す設定に注意してください。
- 発生頻度
-
「監視のインターバル何回中に何回しきい値を超えたら通知するか」という発生頻度を設定することで,一時的な負荷の場合には通知せず,継続的に高負荷となる状態の場合だけアラームイベントを通知できます。
- 監視一時設定
-
システムをメンテナンスする場合など,多くのアラームイベントが通知される可能性がある場合,監視一時停止機能を使用してアラームイベントの監視を停止できます。
(4) ヘルスチェックエージェントのポーリング間隔設定
ヘルスチェック機能では,ヘルスチェックエージェントという稼働状態を監視するための専用のエージェントを使用して,監視エージェントや監視エージェントが稼働するホストの稼働状態を監視します。このとき,ヘルスチェックエージェントはデフォルトでは5分間隔でポーリングしています。
大規模システムの場合,ヘルスチェックエージェントでの収集に時間が掛かるため,5分で処理が終わらずにポーリングがスキップする場合があります。詳細については,マニュアル「JP1/Performance Management 運用ガイド」の,ヘルスチェック機能に関する注意事項について説明している個所を参照してください。
(5) PAレコードの保存数の設定
Master StoreサービスのPAレコードは,Agent/RM Collectorサービス1つ当たりの保存レコード数の上限を設定する必要があります。
次の式を満たすように,bの値を設定してください。
a*b*0.015 < 2000(メガバイト)
- (凡例)
-
a:接続するAgent Collectorサービス,Remote Monitor Collectorサービス,Remote Agent,Group Agentの総数
b:PAレコードの保存数(初期状態は1,000)