Hitachi

JP1 Version 13 JP1/Integrated Management 3 - Manager 導入・設計ガイド


1.4.3 問題の調査

JP1/IM - Managerでは,システムで発生した問題の調査を,セントラルコンソールまたはセントラルスコープを基点とした一連の操作の流れに統合することで,運用作業を簡略化します。

〈この項の構成〉

(1) インテリジェント統合管理基盤を基点とした問題の調査

インテリジェント統合管理基盤を基点とした場合,問題調査から対策までの一連の流れは次のようになります。

(a) サービスや業務への影響の確認

システムで障害が発生すると,[ダッシュボード]画面では,ノード状態のステータスが変化します。該当するシステムを確認し,関連するサービスや業務のステータスも合わせて確認することで,影響が出ているのかを瞬時に判断できます。

図1‒23 [ダッシュボード]画面でのサービスや業務への影響確認

[図データ]

業務にも影響が及んで異常が発生していた場合,さらに関連する業務へ影響があるかを確認します。

図1‒24 統合オペレーション・ビューアーでの業務影響確認

[図データ]

(b) 問題個所の状況確認

障害が発生したシステムについて,現在の状況がどうなっているのか,統合オペレーション・ビューアーのイベント一覧や[ダッシュボード]タブで確認していきます。イベント一覧では,イベントの詳細として,あらかじめ登録しておいた対処方法や対応手順などのイベントガイド情報によって,問題の初動対応がより円滑,迅速に行えるようになります。

図1‒25 統合オペレーション・ビューアーでの状況確認

[図データ]

(c) 原因の調査と対処

イベントの詳細や,システムのパフォーマンス状況を確認したあと,それぞれについて原因調査を進めます。障害が発生したシステムと関連するシステムのパフォーマンス状況を調査して,原因の推測に活用します。

図1‒26 関連するシステム状況から原因を推測

[図データ]

原因の調査や対処が確立している場合は,システム状況に応じた運用ルールをあらかじめ登録しておくことで,状況に応じた対処方法が提案され,選択するだけで提案された内容を実行できます。運用者に依存せずに確実な対処アクションをとることが可能となります。

また,表示されているJP1イベントから,関連する管理アプリケーションを直接起動でき,より直感的な操作で,監視画面から調査画面へ移って調査を始めることができます。さらに,統合オペレーション・ビューアーから直接,エージェント(JP1/IM - Agent)上でWindowsやLinuxのコマンドを実行できます。エージェントにtelnetなどで接続する必要がなくコマンドを実行でき,簡単な確認などを容易にできます。

図1‒27 統合オペレーション・ビューアーからの各種操作

[図データ]

(2) セントラルコンソールを基点とした問題の調査

セントラルコンソールを基点とした場合,問題調査から対策までの一連の流れは次のようになります。

(a) イベント詳細

まず,問題発生を検知したイベントの詳細を確認します。対処方法や対応手順を登録しておくことで,問題の初動対応がより円滑,迅速に行えるようになります。

図1‒28 ガイドによる対処方法のアドバイス(イベントガイド情報)

[図データ]

(b) イベント検索

問題発生イベント(問題発生を通知するイベント)だけでなく,その関連イベント(その問題が発生するまでに発生した事象)を問題発生時の状況として総合的に確認し調査を進める場合,イベント検索を使用します。

(c) イベント調査

イベント詳細やイベント検索によって問題の状況を確認したあと,個々のイベントについて調査を進めます。

表示されているJP1イベントから,関連する管理アプリケーションを直接起動でき,より直感的な操作で,監視画面から調査画面へ移って調査を始めることができます。また,セントラルコンソールから直接,エージェント上でWindowsやUNIXのコマンドを実行できます。エージェントにtelnetなどで接続する必要がなくコマンドが実行でき,簡単な確認などを容易にできます。

図1‒29 JP1/IM - Managerからの各種操作

[図データ]

(3) セントラルスコープを基点とした問題の調査

セントラルスコープを基点とした問題調査では,まずセントラルスコープによって問題個所を絞り込み,その後,セントラルコンソールと連携して問題個所を調査します。

セントラルスコープを基点とした場合,問題調査から対策までの一連の流れは次のようになります。

(a) 問題個所および影響範囲の確認

システムで障害が発生すると,[監視ツリー]画面および[ビジュアル監視]画面のアイコンである監視ノードが障害発生状態に変化します。障害表示となっている監視ノードをツリーの上位から確認し,問題が発生しているリソースの影響個所を特定します。

図1‒30 影響個所の確認

[図データ]

問題発生個所の確認方法はガイド情報を使用すると便利です。ガイド機能には,障害時の運用手順や各種エラー事例など,運用ノウハウを登録できます。多種多様なリソースに合わせて問題を適切に対処するのは容易ではありませんが,ガイド機能を活用して問題発生の運用方法をガイドすることで,システム管理者の負担を軽減できます。

重要

ガイド機能を表示するには,あらかじめガイド情報を登録しておく必要があります。ガイド機能の詳細については,「5.8 ガイド機能」およびマニュアル「JP1/Integrated Management 3 - Manager 構築ガイド」の「6.6 ガイド情報の編集」を参照してください。

図1‒31 ガイド機能による対応手順のアドバイス

[図データ]

(b) 問題個所の確認

障害状態になっている監視ノードが特定できたら,障害の原因になったイベントを確認します。

障害状態の監視ノードを選択して[状態変更イベント検索]を実行します。[イベントコンソール]画面の[イベント検索]ページが開き,監視ノードが障害状態になる原因となったJP1イベントの検索結果が表示されます。

図1‒32 問題個所の確認

[図データ]

(c) 問題の調査

問題が発生した監視ノードを特定できたら,障害状態になる要因となったイベントを確認します。イベントの確認にはセントラルコンソールを使用します。問題発生要因のJP1イベントは,連携によって呼び出したセントラルコンソールによって,問題内容を調査します。