1.2 JP1/PFMと連携してサービスの状況を監視します(JP1/PFMとの連携)
JP1/SLMでは,監視対象サービスを提供しているホストやミドルウェアの状況や,監視対象サービスの稼働状況を監視できます。これらの監視をするためには,JP1/PFMと連携する必要があります。連携は必須ではありません。必要に応じてJP1/PFMとの連携を検討してください。
JP1/PFMと連携すると次のような監視ができます。
ホストやミドルウェアの性能の監視
JP1/SLMでは,JP1/PFMの監視エージェントが収集した情報を取得し,ホストやミドルウェアの性能をJP1/SLMの画面上で監視できます。ホストやミドルウェアの性能に対してもしきい値に基づいた監視ができるため,ふだんと異なるサービスの状況を検知した場合に,該当の時間帯にホストやミドルウェアがどのような状況だったかをJP1/SLMの画面から確認できます。この情報を基に,ホストやミドルウェアに原因がないかを調査できます。
この監視は,監視エージェントとしてJP1/PFM - AgentまたはJP1/PFM - RMを使用している場合に実行できます。
稼働状況の監視
サービスの稼働状況を監視することで,サービスが停止することなく提供されているかを確認できます。また,稼働状況を監視したデータを基に,可用性に関する評価指数(SLO)を算出し,JP1/SLMの画面上で確認できます。
この監視は,JP1/PFM - Agent for Service Responseを使用している場合に実行できます。
- 重要
JP1/SLMの監視では,ジョブ監視は対象外です。
- 監視対象サービスのサービス性能の異常の予兆検知と問題調査の支援の例
ここでは,ホストやミドルウェアの監視結果を使用してサービス性能の監視で検知されたトラブルの予兆の原因を特定する例を説明します。
ある企業システムでは,JP1/SLMでサービスの状況を監視していましたが,システムの複雑化に伴い,トラブルの原因特定に時間が掛かることが増えてきました。そこで,従来のJP1/SLMの監視システムをJP1/PFMと連携させることで,ホストやミドルウェアの状況も監視し,原因を特定するまでの時間を短縮することにしました。
監視対象サービスについて,サービス性能の異常の予兆を検知して対処するまでの流れを次の図に示します。
図1‒9 JP1/SLMとJP1/PFMを連携させて監視対象サービスのサービス性能の異常の予兆を検知して対処するまでの流れ 最初に,応答時間の増加という「サービス性能の異常の予兆」がJP1/SLMを使用したサービスの状況監視によって検知されます。次に,JP1/SLMでの過去の監視結果から,「サービス性能の異常の予兆」の原因と考えられる事象の発生時期を確認します。発生時期が確認できたら,そのサービスを提供しているホストやミドルウェアの監視結果で警告などが発生していないかを確認します。警告が発生している場合は,その警告がサービス性能に影響を与えていることが考えられるため,さらに調査を進め,原因を特定します。例えば,サービス性能の異常の予兆が検知された時期にCPU使用率が大幅に増加していることを検知した場合は,むだなCPU使用がないか,該当ホスト上のミドルウェアの情報を調査し,原因を特定して対策します。
対処したあと,JP1/SLMでサービスレベルが回復したことを確認すれば,サービス性能の異常の予兆段階での対処は完了です。
なお,この事例については,監視項目の設定例を「3.3.3 監視対象サービスのシステムの異常の予兆検知と対処の支援の設定例(JP1/PFMとの連携)」,監視の実行例を「4.6.3 監視対象サービスのシステム性能の異常の予兆検知と対処の支援の実行例(JP1/PFMとの連携)」で説明しています。