Hitachi

JP1 Version 12 ネットワーク管理 基本ガイド


4.1 障害の根本原因の解析

監視マネージャーは障害発生時に,根本原因解析機能によって,大量に発生するイベントの相関関係を調査し,フィルタリングします。レイヤー2トポロジおよびレイヤー3トポロジに基づいた障害の解析によって,根本原因を特定し,インシデントとして通知します。インシデントの対応の進行状況(ライフサイクル状態)を問題発生から解決まで管理します。

ネットワーク機器(ルーター)の監視を例にして,根本原因解析の動きを見てみましょう。

[図データ]

  1. ルーター03でノードダウンが発生すると,ルーター03が持つ多数のインタフェースやIPアドレスが無応答となります。

  2. インタフェース障害やIPアドレスの無応答などによる障害イベントが大量に発生します。

  3. 監視マネージャーは,IPアドレスの無応答は,インタフェース障害によって発生したと判断し,インシデントを抑止します。

  4. 近隣ノードでの通信断の状況を基に,ルーター03のノードダウンが根本原因と判断します。インタフェース障害はその影響と判断し,ルーター03で発生したノードダウンと関連づけます。

  5. 根本原因のインシデントとしてルーター03のノードダウンが通知されます。

また,監視マネージャーはネットワークを構成する複数のノードでも,レイヤー2トポロジの情報を有効に活用して,根本原因を解析します。レイヤー2トポロジのネットワーク構成を使った根本原因解析の例について次に示します。

レイヤー2トポロジの解析

説明

通常時

[図データ]

監視マネージャーは最上位のスイッチ「S1」に接続されていて,監視中のネットワークはすべて正常な状態です。

最上位スイッチの障害時

[図データ]

障害内容:最上位のスイッチ「S1」がダウン

発生イベント:

  • 「S1」と通信が不可

  • 「S1」を経由する他スイッチへの通信が不可

監視マネージャーは,この状況を次のように対応します。

  • 「S1」のノード障害を検知します。

  • 「S1」の先も通信できないが,「S1」障害の影響と判断し,インシデントを抑止して,状態不明とします。

この結果,「S1」の障害だけを根本原因のインシデントとして通知します。

中間スイッチの障害時

[図データ]

障害内容:中間のスイッチ「C2」がダウン

発生イベント:

  • 「C2」との通信が不可

  • 各ノードの「C2」と接続しているインタフェースがダウン状態

監視マネージャーは,この状況を次のように対応します。

  • 「C2」のノード障害を検知します。

  • 「C2」と接続している各インタフェースは,「C2」の障害の影響と判断してインシデントを抑止します。

この結果,「C2」の障害だけを根本原因のインシデントとして通知します。

監視マネージャーは,ほかにも多くの事象と根本原因の対応を解析できます。