3.4.7 稼働監視システム自身の障害対策の検討

稼働監視システム自身を安定稼働させるために,システム管理者は稼働監視システム自身の障害を検知し,トラブルが発生した場合の対処を検討します。

<この項の構成>
(1) Performance Managementの障害検知
(2) PFMサービスの自動再起動
(3) トラブル時の保守情報の収集

(1) Performance Managementの障害検知

Performance Managementでは,ヘルスチェック機能を利用すると,監視エージェントが稼働するホストの死活監視や監視エージェントによって監視対象を正しく監視できているかを確認できます。ヘルスチェック機能には,監視レベルの違いによって次に示す2段階の監視方法があります。

監視エージェントが稼働するホストの稼働状態監視
PFM - Agentが稼働するホストの稼働状態を監視し,PFM - Web Console上で稼働状態を確認できます。
監視エージェントのサービスの稼働状態監視
PFM - Agentが稼働するホストの稼働状態監視に加え,Agent Collector,Agent Storeサービスの稼働状態を監視し,PFM - Web Console上で稼働状態を確認できます。

ヘルスチェック機能では,監視したい対象と条件によって自由に運用を切り替えられます。ただし,それぞれ前提となる条件が異なります。ヘルスチェック機能使用時の前提条件については,「19.2.1 ヘルスチェック機能の設定」を参照してください。

なお,PFM - Manager自身の稼働状態はヘルスチェック機能では監視できません。jpcctrl listコマンドを使用することで,PFM - ManagerやPFM - Agentのサービスの詳細な状態を確認できます。また,ほかのJP1製品(JP1/Base)と連携することで障害を検知できます。

Performance Managementの障害検知の詳細については,「19. Performance Managementの障害検知」を参照してください。

(2) PFMサービスの自動再起動

Performance Managementでは,PFMサービス自動再起動機能を利用することで,万が一PFMサービスが何らかの原因で異常停止した場合でも自動的に該当サービスを再起動できます。これによってシステムの監視が続けられるようになります。システムの高可用性を実現するクラスタシステムを利用しない場合は,PFMサービス自動再起動機能を利用することを検討してください。PFMサービス自動再起動機能には次に示す二つの機能があります。

自動再起動機能
何らかの原因によって異常停止したPFMサービスを自動的に再起動します。
定期再起動機能
OSやPFMサービス自身の問題によるメモリリーク,ハンドルリークなどを回避するため,PFMサービスを定期的に再起動します。

PFMサービス自動再起動機能を利用する場合の前提条件や設定方法については,「19.4 PFMサービス自動再起動機能によるPFMサービスの再起動」を参照してください。

(3) トラブル時の保守情報の収集

障害の原因を解明するには,稼働情報のほかにOSのログやPerformance Managementが出力している内部ログなどの情報が必要になる場合があります。Performance Managementでは,これらの保守情報を一括取得するための運用コマンド(jpcrasコマンドおよびjpcwrasコマンド)を提供しています。

トラブル時の,保守情報の採取の詳細については,「20.4 トラブル発生時に採取が必要な資料」を参照してください。