4.1 障害の根本原因の解析
監視マネージャーは障害発生時に,根本原因解析機能によって,大量に発生するイベントの相関関係を調査し,フィルタリングします。レイヤー2トポロジおよびレイヤー3トポロジに基づいた障害の解析によって,根本原因を特定し,インシデントとして通知します。インシデントの対応の進行状況(ライフサイクル状態)を問題発生から解決まで管理します。
ネットワーク機器(ルーター)の監視を例にして,根本原因解析の動きを見てみましょう。
ルーター03でノードダウンが発生すると,ルーター03が持つ多数のインタフェースやIPアドレスが無応答となります。
インタフェース障害やIPアドレスの無応答などによる障害イベントが大量に発生します。
監視マネージャーは,IPアドレスの無応答は,インタフェース障害によって発生したと判断し,インシデントを抑止します。
近隣ノードでの通信断の状況を基に,ルーター03のノードダウンが根本原因と判断します。インタフェース障害はその影響と判断し,ルーター03で発生したノードダウンと関連づけます。
根本原因のインシデントとしてルーター03のノードダウンが通知されます。
また,監視マネージャーはネットワークを構成する複数のノードでも,レイヤー2トポロジの情報を有効に活用して,根本原因を解析します。レイヤー2トポロジのネットワーク構成を使った根本原因解析の例について次に示します。
レイヤー2トポロジの解析 |
説明 |
---|---|
通常時 |
監視マネージャーは最上位のスイッチ「S1」に接続されていて,監視中のネットワークはすべて正常な状態です。 |
最上位スイッチの障害時 |
障害内容:最上位のスイッチ「S1」がダウン 発生イベント:
監視マネージャーは,この状況を次のように対応します。
この結果,「S1」の障害だけを根本原因のインシデントとして通知します。 |
中間スイッチの障害時 |
障害内容:中間のスイッチ「C2」がダウン 発生イベント:
監視マネージャーは,この状況を次のように対応します。
この結果,「C2」の障害だけを根本原因のインシデントとして通知します。 |
監視マネージャーは,ほかにも多くの事象と根本原因の対応を解析できます。