2.4.7 稼働監視システム自身の障害対策の検討
稼働監視システム自身を安定稼働させるために,システム管理者は稼働監視システム自身の障害を検知し,トラブルが発生した場合の対処を検討します。
(1) Performance Managementの障害検知
Performance Managementでは,ヘルスチェック機能を利用すると,監視エージェントが稼働するホストの死活監視や監視エージェントによって監視対象を正しく監視できているかを確認できます。ヘルスチェック機能には,監視レベルの違いによって次に示す2段階の監視方法があります。
- 監視エージェントが稼働するホストの稼働状態監視
-
PFM - AgentまたはPFM - RMが稼働するホストの稼働状態およびPFM - RMの監視対象ホストの稼働状態を監視し,PFM - Web Console上で稼働状態を確認できます。
- 監視エージェントのサービスの稼働状態監視
-
PFM - AgentまたはPFM - RMが稼働するホストの稼働状態監視に加え,Agent Collector,Remote Monitor Collector,Agent Store,およびRemote Monitor Storeサービスの稼働状態を監視し,PFM - Web Console上で稼働状態を確認できます。
ヘルスチェック機能では,監視したい対象と条件によって自由に運用を切り替えられます。ただし,それぞれ前提となる条件が異なります。ヘルスチェック機能使用時の前提条件については,マニュアル「JP1/Performance Management 運用ガイド」の,Performance Managementの障害検知について説明している章を参照してください。
なお,PFM - Manager自身の稼働状態はヘルスチェック機能では監視できません。jpctool service listコマンドを使用することで,PFM - Manager,PFM - Agent,またはPFM - RMのサービスの詳細な状態を確認できます。また,ほかのJP1製品(JP1/Base)と連携することで障害を検知できます。
Performance Managementの障害検知の詳細については,マニュアル「JP1/Performance Management 運用ガイド」の,Performance Managementの障害検知について説明している章を参照してください。
(2) PFMサービスの自動再起動
Performance Managementでは,PFMサービス自動再起動機能を利用することで,万が一PFMサービスが何らかの原因で異常停止した場合でも自動的に該当サービスを再起動できます。これによってシステムの監視が続けられるようになります。システムの高可用性を実現するクラスタシステムを利用しない場合は,PFMサービス自動再起動機能を利用することを検討してください。PFMサービス自動再起動機能には次に示す2つの機能があります。
- 自動再起動機能
-
何らかの原因によって異常停止したPFMサービスを自動的に再起動します。
- 定期再起動機能
-
OSやPFMサービス自身の問題によるメモリーリーク,ハンドルリークなどを回避するため,PFMサービスを定期的に再起動します。
PFMサービス自動再起動機能を利用する場合の前提条件や設定方法については,マニュアル「JP1/Performance Management 運用ガイド」の,Performance Managementの障害検知について説明している章を参照してください。
(3) トラブル時の保守情報の収集
障害の原因を解明するには,稼働情報のほかにOSのログやPerformance Managementが出力している内部ログなどの情報が必要になる場合があります。Performance Managementでは,これらの保守情報を一括取得するための運用コマンド(jpcrasコマンドおよびjpcwrasコマンド)を提供しています。
トラブル時の,保守情報の採取の詳細については,マニュアル「JP1/Performance Management 運用ガイド」の,トラブルへの対処方法について説明している章を参照してください。