Hitachi

JP1 Version 12 JP1/Network Node Manager i セットアップガイド


付録D.6 失敗のシナリオは何ですか?

次のシナリオは,ネットワークでの問題の例と,Causal Engineがこれらの問題を診断するために行う作業を示しています。これらのシナリオが示すインシデントの例をほかの例とともに次の表に示します。

表D‒1 インシデントの定義

インシデント名

説明

AddressNotResponding

IPv4アドレスはICMPに応答していません。次の理由が考えられます。

  1. ノードが停止している。

  2. デバイス(ルーターなど)の設定に誤りがあるため,幾つかのIPv4アドレスに到達できない。

InterfaceDown

インタフェースの動作状態が停止中であることを意味します。

ConnectionDown

接続の末端部の両方(またはすべて)が停止しています。

NodeDown

このインシデントは,NmsApaサービスが次の解析に基づいてノードが停止していると判定したことを示しています。

  • このノードに割り当てられているIPv4アドレスの100%が到達できない。

  • このマシンにインストールされているSNMPエージェントが応答していない。少なくとも2つの隣接デバイスが到達可能であり,このノードへの接続性について問題を報告している。

NodeOrConnectionDown

このインシデントは,ノードがICMPまたはSNMPクエリーに応答していないことを示します。また,隣接インタフェースが1つだけ停止しているため,ノードが停止しているのか接続が停止しているのかNmsApaサービスが判断できないことを示しています。

〈この項の構成〉

(1) SNMPエージェントがSNMPクエリーに応答しない

[図データ]

シナリオ:SNMPエージェントが応答していません。例えば,このSNMPエージェントのコミュニティ文字列が変更され,NNMiの通信設定がまだ更新されていないが,ノードが稼働しています(IPv4アドレスをping可能です)。

根本原因:SNMPエージェントが応答していません。

インシデント:SNMPAgentNotRespondingインシデントが発生しました。

ステータス:SNMPエージェントが危険な状態です。

結論SNMPAgentNotResponding

結果:ノードステータスは警戒域であり,ノードについての結論はUnresponsiveAgentInNodeです。ポーリングされたすべてのインタフェースは,NNMiで管理できないため,不明ステータスです。各インタフェースについての結論はInterfaceUnmanageableです。

(2) SNMPエージェントがSNMPクエリーに応答している

[図データ]

シナリオ:このシナリオは,「(1) SNMPエージェントがSNMPクエリーに応答しない」のシナリオに続いています。NNMi管理者が通信設定を更新して新しいコミュニティ文字列を含めることを想定します。管理対象ノードのSNMPエージェントがSNMPクエリーへの応答を開始します。

根本原因:SNMPエージェントが応答しています。

インシデント:発生なし。SNMPAgentNotRespondingインシデントがクローズしました。

ステータス:SNMPエージェントは正常な状態です。

結論SNMPAgentResponding

結果:ノードステータスは正常域であり,ノードについての結論はResponsiveAgentInNodeです。InterfaceUnmanageableはポーリングされたすべてのインタフェースから除去されて,インタフェースは前のステータスに戻ります。

(3) IPv4アドレスがICMPに応答しない

[図データ]

シナリオ:S1のIPv4アドレス1が応答していません。例えば,ルーター1(R1)の経路がインタフェース1からインタフェース2に変わったことによって,S1のインタフェース1を宛て先としていたパケットが現在はR1のインタフェース2からルーティングされていると想定します。関連づけられているインタフェースは稼働しており,幾つかのIPv4アドレスをpingできるので,ノードは到達可能です。SNMPエージェントは稼働しています。

根本原因:IPv4アドレスが応答していません。

インシデントAddressNotRespondingインシデントが発生しました。

ステータス:IPv4アドレスは危険な状態です。

結論AddressNotResponding

結果:ノードステータスは警戒域であり,ノードについての結論はSomeUnresponsiveAddressesInNodeです。

(4) ICMPへのIPv4アドレス応答

[図データ]

シナリオ:このシナリオは,「(3) IPv4アドレスがICMPに応答しない」のシナリオに続いています。IPv4アドレスが現在は応答しており,関連づけられたインタフェースが稼働しており,ノードに到達可能であることを想定してください。例えば,幾つかのIPv4アドレスをpingできたり,SNMPエージェントが稼働していたりする状況です。

根本原因:IPv4アドレスが応答しています。

インシデント:発生なし。AddressNotRespondingインシデントがクローズしました。

ステータス:IPv4アドレスは正常な状態です。

結論AddressResponding

結果:ノードステータスは正常域であり,ノードについての結論はResponsiveAddressesInNodeです。

(5) インタフェースを操作できない

[図データ]

シナリオ:R1インタフェース1は操作できず(ifOperStatus=down),管理可能(ifAdminStatus=up)です。R1はLinkDownトラップを送信します。R1は到達可能です。幾つかのIPv4アドレス(IPv4アドレス2など)をpingできるためです。SNMPエージェントは稼働しています。IPv4アドレス1はインタフェース1に関連づけられており,ICMPへの応答を停止しました。

根本原因:インタフェースは停止しています。

インシデントInterfaceDownインシデントが発生しました。LinkDownインシデントがInterfaceDownインシデントの下に相関付けされています。

ステータス:インタフェースは危険な状態です。

結論InterfaceDown

結果:ノードステータスは警戒域であり,ノードについての結論はInterfacesDownInNodeです。AddressNotRespondingインシデントがIPv4アドレスに関連づけられていません。

(6) インタフェースは操作可能である

[図データ]

シナリオ:このシナリオは,「(5) インタフェースを操作できない」のシナリオに続いています。R1インタフェース1が現在は操作可能であると想定します(ifOperStatus=up)。ノードは到達可能です。そのIPv4アドレスをすべてpingできます。SNMPエージェントは稼働しています。

根本原因:インタフェースは稼働しています。

インシデント:発生なし。InterfaceDownインシデントがクローズしました。

ステータス:インタフェースは正常な状態です。

結論InterfaceUp

結果:ノードステータスは正常域であり,ノードについての結論はInterfacesUpInNodeです。

(7) インタフェースを管理できない

[図データ]

シナリオ:R1インタフェース1は管理できません(ifAdminStatus=down)が,ノードは到達可能です。例えば,インタフェース2をpingしてSNMPエージェントが稼働していると想定します。R1インタフェース1を無効にすると,そのインタフェースが操作できなくなります。このインタフェースIPv4アドレス1に関連づけられたIPv4アドレスがICMPへの応答を停止します。

根本原因:R1インタフェース1は使用不可です。

インシデント:発生なし。

ステータス:インタフェースは使用不可の状態です。

結論InterfaceDisabled

結果:R1インタフェース1に関連づけられたIPv4アドレスはステータスが使用不可です。IPv4アドレスについての結論はAddressDisabledです。

(8) インタフェースを管理できる

[図データ]

シナリオ:このシナリオは,「(5) インタフェースを操作できない」のシナリオに続いています。R1インタフェース1が現在管理可能であり(ifAdminStatus=up),そのインタフェースの幾つかのIPv4アドレスをpingすることでこのノードに到達できると想定します。SNMPエージェントは稼働しています。R1インタフェース1を有効にすることによって,操作可能になります。このインタフェースに関連づけられたIPv4アドレスがICMPへの応答を開始します。

根本原因:インタフェースは有効です。

インシデント:発生なし。

ステータス:インタフェースは正常な状態です。

結論InterfaceEnabled

結果:R1インタフェース1に関連づけられたIPv4アドレスはステータスが有効です。IPv4アドレスについての結論はAddressEnabledです。

(9) 接続を操作できない

[図データ]

シナリオ:スイッチ1(IF13)に接続しているスイッチ3のインタフェースと,スイッチ3(IF31)に接続しているスイッチ1のインタフェースとの間の接続が停止しています。トラフィックは,管理サーバーからスイッチ1(SW1)とスイッチ2(SW2)を通って流れます。IF13とIF31の両方が停止とマークされます。

根本原因:IF13とIF31の間の接続が停止しています。

インシデントConnectionDownインシデントが発生します。IF13とIF31からのInterfaceDownインシデントはConnectionDownの下に相関付けされます。

ステータス:接続は危険な状態です。

結論ConnectionDown

(10) 接続を操作できる

[図データ]

シナリオ:このシナリオは,「(9) 接続を操作できない」のシナリオに続いています。IF13とIF31の間の接続が現在稼働していると想定します。

根本原因:IF13とIF31の間の接続が稼働しています。

インシデント:発生なし。ConnectionDownインシデントがクローズしました。

ステータス:接続は正常な状態です。

結論ConnectionUp

(11) 直接接続しているノードが停止している

[図データ]

シナリオ:アクセススイッチASW11,ASW12,ASW21,およびASW22は,上で示すように分散ルーターに重複して接続されていると想定します。分散ルーターDR1とDR2は相互に直接接続しています。分散ルーターDR1が停止します。

根本原因:ノードDR1が隣接解析に従って停止しています。

インシデントNodeDownインシデントが発生しました。1ホップネイバーからのInterfaceDownインシデントがNodeDownインシデントの下に相関付けされます。

ステータス:ノードは危険な状態です。

結論NodeDown

(12) 直接接続されたノードは稼働している

[図データ]

シナリオ:このシナリオは,「(11) 直接接続しているノードが停止している」のシナリオに続いています。分散ルーターDR1が復帰していると想定します。

根本原因:ノードDR1は稼働しています。

インシデント:発生なし。NodeDownインシデントがクローズしています。

ステータス:ノードは正常な状態です。

結論NodeUp

(13) 間接接続されたノードは停止している

[図データ]

メモ

上記図は概念図です。実際のNNMiトポロジマップまたはワークスペースビューを示していません。

シナリオ:このシナリオは,間接接続でNNMiが媒介デバイスを検出できない場合に発生します。この例では,ルーターR1とルーターR2はNNMiトポロジマップで直接接続しているように見えますが,実際は,これらの2つのルーターは光中継器経由で間接的に接続しています(光中継器はSNMPまたはICMPのクエリーに応答しないため,NNMiによって検出されません)。

ルーターR2は到達できません。原因は,接続されたインタフェースが停止しているか,または光中継器との接続が切断されているかのどちらかです。間接的にルーターR2に接続しているルーターR1のインタフェースは,光中継器がまだ稼働中であるため,稼働中です。

根本原因:ルーターR2が隣接解析に従って停止しています。

インシデントNodeDownインシデントが発生しました。

ステータス:ノードR2は危険な状態です。

結論NodeDown

(14) 間接接続されたノードは稼働している

[図データ]

メモ

上記図は概念図です。実際のNNMiトポロジマップまたはワークスペースビューを示していません。

シナリオ:このシナリオは,「(13) 間接接続されたノードは停止している」のシナリオに続いています。失敗した接続がバックアップされて,ルーターR2が到達可能になったと想定します。

根本原因:R1とR2の間の接続が稼働しています。

インシデント:発生なし。NodeDownインシデントがクローズしました。

ステータス:ルーターR2のステータスは正常域です。接続ステータスは正常域です。

結論NodeUp

(15) 直接接続されたノードが停止しており,シャドウを作成する

[図データ]

シナリオ:ルーター2(R2)が上で示すように停止します。

根本原因:ノードR2がNNMiの隣接解析に従って停止しています。

インシデントNodeDownインシデントが発生しました。1ホップネイバーからのInterfaceDownインシデントがNodeDownインシデントの下に相関付けされます。

ステータス:ノードは危険な状態です。

結論NodeDown

結果:すべてのアクセススイッチが到達できません。シャドウ内のすべてのノードのステータスが不明であり,各ノードについての結論がNodeUnmanageableです。

(16) 直接接続されたノードが稼働しており,シャドウを除去している

[図データ]

シナリオ:このシナリオは,「(15) 直接接続されたノードが停止しており,シャドウを作成する」のシナリオに続いています。図で示すようにR2が復帰していると想定します。

根本原因:ノードR2は稼働しています。

インシデント:発生なし。NodeDownインシデントがNodeUpインシデントによってクローズしています。

ステータス:ノードは正常な状態です。

結論NodeUp

結果:すべてのアクセススイッチが到達できるようになっています。シャドウ内のすべてのノードのステータスは正常です。

(17) 重要ノードが到達できない

シナリオ:あるノードは重要ノードグループの一部ですが,このノードが到達できなくなっています。

メモ

NmsApaサービスがノードを解析する前にノードを重要ノードグループに,追加する必要があります。ノードを重要ノードグループに追加する前に到達できなくなると,NmsApaサービスはNodeDownインシデントを発生しません。

根本原因:ノードは停止しています。NmsApaサービスは隣接解析を行いませんが,ノードが停止している理由は重要とマークされているためだけだと結論づけます。

インシデントNodeDownインシデントが発生しました。相関インシデントは発生しません。

ステータス:ノードは危険な状態です。

結論NodeDown

(18) 重要ノードが到達可能である

シナリオ:このシナリオは,「(17) 重要ノードが到達できない」のシナリオに続いています。重要ノードが復帰しており,到達できるようになったと想定します。

根本原因:ノードは稼働しています。

インシデント:発生なし。NodeDownインシデントがNodeUpインシデントによってクローズしています。

ステータス:ノードは正常な状態です。

結論NodeUp

(19) ノードまたは接続が停止している

[図データ]

シナリオ:ルーター2(R2)に対して冗長性がありません。R2が停止しているか,ルーター1(R1)とR2の間の接続が停止しています。

根本原因:ノードまたは接続は停止しています。

インシデントNodeOrConnectionDownインシデントが発生しました。このシナリオのソースノードはR2です。

ステータス:ノードは危険な状態です。接続は警戒域の状態です。

結論NodeOrConnectionDown

(20) ノードまたは接続が稼働している

[図データ]

シナリオ:このシナリオは,「(19) ノードまたは接続が停止している」のシナリオに続いています。R2が稼働状態になったと想定します。

根本原因:NodeUp

インシデント:発生なし。NodeOrConnectionDownインシデントがクローズしました。

ステータス:ノードは正常な状態です。接続は正常な状態です。

結論NodeUp

(21) アイランドグループが停止している

[図データ]

メモ

上記図は概念図です。実際のNNMiトポロジマップまたはワークスペースビューを示していません。

シナリオ:NNMiはネットワークを2つのアイランドグループに分割しました。NNMi管理サーバーは,アイランドグループ1のノードに接続されます。アイランドグループ2は,サービスプロバイダのWANに問題が発生したため,到達できなくなっています。

メモ

アイランドグループには,そのほかのネットワークに接続されていないか,または最低限接続しているノードの高度に接続されたセットが含まれています。例えば,NNMiは,WANによって接続された地理的に分散されたサイトでエンタープライズネットワークの複数のアイランドグループを識別できます。アイランドグループはNNMiによって作成され,ユーザーは変更できません。アイランドグループに関する詳細については,NNMiヘルプのNNMiコンソールを参照してください。

根本原因:アイランドグループ2が隣接解析に従って停止しています。

インシデントIslandGroupDownインシデントが発生しました。NNMiはインシデントのソースノードとしてアイランドグループ2から代表ノードを使用します。

ステータス:アイランドグループ2のステータスは[不明]に設定されています。アイランドグループ2のオブジェクトは不明ステータスを持っています。アイランドグループ1の接続インタフェースは,稼働WANへの接続がまだ稼働しているため,稼働しています。

結論:アイランドグループへの適用不可

(22) アイランドグループが稼働している

[図データ]

メモ

上記図は概念図です。実際のNNMiトポロジマップまたはワークスペースビューを示していません。

シナリオ:このシナリオは,「(21) アイランドグループが停止している」のシナリオに続いています。サービスプロバイダのWAN問題が修正され,アイランドグループ2が到達可能になったと想定します。

根本原因:アイランドグループ2へのWAN接続はバックアップです。

インシデント:発生なし。IslandGroupDownインシデントがクローズしました。

ステータス:アイランドグループ2のステータスは[正常域]に設定されています。アイランドグループ2のオブジェクトは正常域ステータスに戻ります。

結論:アイランドグループへの適用不可

(23) リンク集約ポート(NNMi Advanced)

アグリゲーターが動作中

[図データ]

シナリオ:ポートアグリゲーター内のすべてのポートが運用上および管理上,動作中です。

根本原因:すべての操作および管理の状態が動作中です。

インシデント:インシデントは生成されません。

ステータス:アグリゲーターのステータスは[正常域]に設定されています。

結論AggregatorUp

アグリゲーターの性能が低下している

[図データ]

シナリオ:ポートアグリゲーター内の一部(すべてではない)のポートが運用上停止しています。

根本原因:一部のポートの運用状態が停止中です。

インシデントAggregatorDegradedインシデントが生成されます。

ステータス:アグリゲーターのステータスは[警戒域]に設定されています。

結論AggregatorDegraded

アグリゲーターが機能を停止している

[図データ]

シナリオ:ポートアグリゲーター内のすべてのポートが運用上停止しています。

根本原因:すべてのポートの運用状態が停止中です。

インシデントAggregatorDownインシデントが生成されます。

ステータス:アグリゲーターのステータスは[危険域]に設定されています。

結論AggregatorDown

(24) リンク集約接続(NNMi Advanced)

リンク集約接続は動作中

[図データ]

シナリオ:接続のすべてのポートアグリゲーターメンバーが動作中です。

根本原因:接続のすべてのメンバーでアグリゲーターが動作中です。

インシデント:インシデントは生成されません。

ステータス:集約接続のステータスは[正常域]に設定されています。

結論AggregatorLinkUp

リンク集約接続の性能が低下している

[図データ]

シナリオ:接続の一部(すべてではない)のポートアグリゲーターメンバーが停止中です。

根本原因:接続の一部のメンバーでアグリゲーターが停止中です。

インシデントAggregatorLinkDegradedインシデントが生成されます。

ステータス:集約接続のステータスは[警戒域]に設定されています。

結論AggregatorLinkDegraded

リンク集約接続が機能を停止している

[図データ]

シナリオ:接続のすべてのポートアグリゲーターメンバーが停止中です。

根本原因:接続のすべてのメンバーでアグリゲーターが停止中です。

インシデントAggregatorLinkDownインシデントが生成されます。

ステータス:集約接続のステータスは[危険域]に設定されています。

結論AggregatorLinkDown

(25) ルーター冗長グループ:HSRPおよびVRRP(NNMi Advanced)

ルーター冗長グループにプライマリがない

[図データ]

シナリオ:ルーター冗長グループにプライマリメンバーが存在しません。正常に機能しているHSRPまたはVRRPルーターグループには,動作しているプライマリルーターとセカンダリルーターが1台ずつなければなりません。

根本原因:このシナリオは,セカンダリルーターがアクティブでない場合にプライマリルーターのインタフェースに障害が発生していたか,ルーター冗長グループの設定に誤りがあったことが原因である可能性があります。

インシデントRrgNoPrimaryインシデントが生成されます。RrgNoPrimaryがインパクトを受けます。InterfaceDownのような判明している根本原因がある場合は,RrgNoPrimaryInterfaceDownの間にインパクトの相関関係が生成されます。

ステータス:ルーター冗長グループのステータスは[危険域]に設定されています。

結論RrgNoPrimary

ルーター冗長グループに複数のプライマリがある

[図データ]

シナリオ:ルーター冗長グループに自身をプライマリルーターとして報告している複数のルーターが存在します。正常に機能しているHSRPまたはVRRPルーターグループは,動作中のプライマリルーターを1台だけ持っている必要があります。

根本原因:このシナリオは,ルーター冗長グループの設定の誤りが原因である可能性があります。

インシデントRrgMultiplePrimaryインシデントが生成されます。RrgMultiplePrimaryがインパクトを受けます。

ステータス:ルーター冗長グループのステータスは[重要警戒域]に設定されています。

結論RrgMultiplePrimary

ルーター冗長グループでフェイルオーバーが起こった

[図データ]

シナリオ:ルーター冗長グループのプライマリルーターに障害が発生し,セカンダリルーターがプライマリルーターの役割を引き継ぎました。通常,スタンバイがセカンダリになり,それ自体は問題ではありません(グループは正しく機能しています)。このシナリオに対して生成されるインシデントは,グループでフェイルオーバーが発生したことを報告するためのものです。

根本原因:このシナリオはプライマリルーターの障害が原因である可能性が最も高いです。

インシデントRrgFailoverインシデントが生成されます。RrgFailoverの相関処理特性がインパクトを受け,InterfaceDownのような判明している根本原因がある場合は,RrgFailoverインシデントとInterfaceDownインシデントとの間の相関関係がインパクトを受けます。

ステータス:この場合,ステータスは生成されません。

結論RrgFailover

ルーター冗長グループにセカンダリがない

[図データ]

シナリオ:ルーター冗長グループのセカンダリルーターに障害が発生しました。スタンバイが存在しないか,スタンバイがセカンダリの役割を引き継ぎませんでした。

根本原因:このシナリオは,ルーターのインタフェースの障害か,ルーターグループの何らかの設定ミスが原因である可能性があります。

インシデントRrgNoSecondaryインシデントが生成されます。RrgNoSecondaryの性質がインパクトを受け,InterfaceDownのような判明している根本原因がある場合は,RrgNoSecondaryインタフェースとInterfaceDownインタフェースとの間の相関関係がインパクトを受けます。

ステータス:ルーター冗長グループのステータスは[警戒域]に設定されています。

結論RrgNoSecondary

ルーター冗長グループに複数のセカンダリがある

[図データ]

シナリオ:ルーター冗長グループに自身をセカンダリルーターとして報告している複数のルーターが存在します。正常に機能しているHSRPまたはVRRPルーターグループは,動作しているセカンダリルーターを1台だけ持っていなければいけません。

根本原因:このシナリオは,ルーター冗長グループの設定ミスが原因である可能性があります。

インシデントRrgMultipleSecondaryインシデントが生成されます。RrgMultipleSecondaryの性質がインパクトを受けます。

ステータス:ルーター冗長グループのステータスは[警戒域]に設定されています。

結論RrgMultipleSecondary

ルーター冗長グループの性能が低下した

[図データ]

シナリオ:ルーター冗長グループに何らかの変更がありました。グループは機能しており,1台のプライマリルーターと1台のセカンダリルーターがありますが,問題となりかねない何らかの異常な状態が存在します。例えば,幾つかのルーターが動作可能状態になっていない可能性があります。

根本原因:このシナリオは,ルーターグループの何らかの設定ミスが原因である可能性があります。

インシデントRrgDegradedインシデントが生成されます。RrgDegradedの性質がインパクトを受けます。

ステータス:ルーター冗長グループのステータスは[注意域]に設定されています。

結論RrgDegraded

(26) コンポーネントヘルスに関するシナリオ

ファンの故障または誤動作

シナリオ:ファンセンサーがシャーシ内のファンの故障を検出しました。

インシデントFanOutOfRangeOrMalfunctioningインシデントが生成されます。

ステータス:ファンセンサーノードコンポーネントのステータスは[危険域]です。[重要警戒域]というステータスがノードに伝えられます。

結論FanOutOfRangeOrMalfunctioning

電源の故障または誤動作

シナリオ:電源センサーがシャーシ内の電源の故障を検出しました。

インシデントPowerSupplyOutOfRangeOrMalfunctioningインシデントが生成されます。

ステータス:電源ノードコンポーネントのステータスは[危険域]です。[重要警戒域]というステータスがノードに伝えられます。

結論PowerSupplyOutOfRangeOrMalfunctioning

温度の超過または誤動作

シナリオ:温度センサーがシャーシ内の高温を検出しました。

インシデントTemperatureOutOfRangeOrMalfunctioningインシデントが生成されます。

ステータス:温度センサーノードコンポーネントのステータスは[危険域]です。ノードのステータスは変化しません。

結論TemperatureOutOfRangeOrMalfunctioning

電圧の逸脱または誤動作

シナリオ:電圧センサーがシャーシ内の電圧の問題を検出しました。

インシデントVoltageOutOfRangeOrMalfunctioningインシデントが生成されます。

ステータス:電圧センサーノードコンポーネントのステータスは[危険域]です。ノードのステータスは変化しません。

結論VoltageOutOfRangeOrMalfunctioning