JP1/Integrated Management - Rule Operation システム構築・運用ガイド
JP1/IM - RLは,「計画」「構築・運用」「評価・見直し」「再構築・運用」のフェーズに沿って運用することで,システム運用を継続的に改善し,最適化できます。JP1/IM - RLの運用サイクルを次の図に示します。
図1-3 JP1/IM - RLの運用サイクル
JP1/IM - RLの運用サイクルについて次に説明します。
- <この項の構成>
- (1) 設計フェーズで行う作業
- (2) 構築,運用フェーズで行う作業
- (3) 評価,見直しフェーズで行う作業
- (4) 再構築,運用フェーズで行う作業
(1) 設計フェーズで行う作業
設計フェーズでは,障害事象に対する障害対処手順までを明確化します。障害対処手順は,通常は障害対処手順書として文書化されています。その文書には一般的に,障害発生時の対処手順,次処理を判断できない場合に判断する権限のある管理者はだれか,別の観点での調査が必要となった場合の連絡先,連絡手段などが定義されています。
この工程では,それらの障害対処手順を自動化することを検討します。検討する手順を次に示します。
- システムで発生する障害事象を洗い出す。
障害事象が検知される際に,障害事象を特定できるようなJP1イベントが発行されているかを調査します。
まず,明らかに障害を示す場合のJP1イベントを対象に含めます。それ以外のJP1イベントについては,過去の障害発生事例からJP1イベントの発行状況を整理します。障害発生の前に発行されたJP1イベントから,障害の発生条件を特定します。
- 発生する事象の対処方法を検討する。
- JP1/IM - RLで対処を定義する。
手順2で検討した対処方法を自動化できるか検討してください。
次に,ルールを起動する条件として,次の事項を検討してください。
- 状態確認や回復処理の自動化が難しい場合は,障害対処を実施する人へ通報するなどのアクションをルールに定義することを検討します。
- 確認や回復処理を自動化できる場合は,ルールに基づくアクションを定義します。
- どのようなJP1イベント通知を受けたときにルールを起動するか。
- どのような重要度のJP1イベントを監視するか。
- 考えられる事象に対して,同じように対処の方針を決定する。
(2) 構築,運用フェーズで行う作業
設計フェーズでの決定に基づいてJP1/IM - RLの環境を構築し,JP1/IM - RLで定義したルールをシステムに適用してルールの運用を開始します。次に示す流れに沿って,システムで発生する障害事象に対処します。
- システムの監視
- 障害事象の検知
- 障害事象の調査
- 障害事象の対策
(3) 評価,見直しフェーズで行う作業
しばらく運用を続けたあとは,ルールの実行結果や事例を基に運用環境を見直します。ルールを運用する際,次のような問題が発生することが考えられます。これまでのルールの実行結果から,ルール運用の内容を分析し,ルールの定義を見直してください。
- ルールの起動対象となるJP1イベントが発生しているのにルールが実行されない。
- 対処不要のJP1イベントや,ルールと関係のないJP1イベントに対してルールが実行される。
- 障害が発生しているのに,JP1/IM - ManagerでJP1イベントを取得できていないため,ルールが実行されない。
それぞれの事例で考えられる要因と対処を次に示します。
(a) ルールの起動対象となるJP1イベントが発生しているのにルールが実行されない
- 要因
- ルールの起動条件に対して適切なルールを定義できていないおそれがあります。
- 対処
- 起動したいルールに対して,障害事象を通知するJP1イベントが正しく特定されていないおそれがあります。ルールの起動条件に定義したJP1イベントの条件を見直してください。
(b) 対処不要のJP1イベントや,ルールと関係のないJP1イベントに対してルールが実行される
- 要因
- ルール起動条件の対象範囲が広過ぎるために,想定外の条件に対してもルールが実行されているおそれがあります。
- 対処
- ルールの起動条件にあいまいな条件を定義すると,障害事象に合わないルールが実行されてしまうことがあります。ルールの起動条件を見直してください。
(c) 障害が発生しているのに,JP1/IM - ManagerでJP1イベントを取得できていないため,ルールが実行されない
- 要因
- ルール起動の契機となるJP1イベントが,JP1/IM - Managerのイベント取得フィルターによって,監視対象から外されているおそれがあります。または,監視対象ホストで発生したJP1イベントが,JP1/IM - Managerのホストに転送されていないおそれがあります。
- 対処
- JP1/IM - RLは,JP1/IM - Managerが監視しているJP1イベントを契機にルールを実行します。ルール起動の契機となるJP1イベントの取得が,JP1/IM - Managerのイベント取得フィルターによって制限されている場合は,ルール起動の契機となるJP1イベントをJP1/IM - RLが受け取れません。ルールの起動対象のJP1イベントをイベント取得フィルターで取得するよう設定を見直してください。監視対象ホストで発生したJP1イベントがJP1/IM - Managerに転送されていない場合は,監視したいJP1イベントを上位ホストに転送するようJP1/Baseの転送設定を見直してください。
(4) 再構築,運用フェーズで行う作業
評価,見直しフェーズでの対処内容に基づき,ルールの定義内容を見直しシステムを再構築します。設定内容を変えたシステムで,さらに運用を続け,新しい運用実績を積み重ね,運用事例を蓄積します。その上で,次のような観点で,次の段階の運用方式を検討してください。
- 改善の必要なルールとその修正方法の検討
- 対策に漏れのある事象に対するアクションの検討
- ルールの数や実行数が妥当かどうかの検討
これまでに示した工程を繰り返し実施していくことで,より効果的なシステム運用環境を実現できます。
All Rights Reserved. Copyright (C) 2006, 2008, Hitachi, Ltd.