JP1/Integrated Management - Rule Operation 構築・運用ガイド

[目次][用語][索引][前へ][次へ]


1.1.1 システム統合管理での自律運用支援

複雑化するITシステムでは,障害が発生したときに,それを検知して速やかにシステムを復旧させる手段が求められています。

障害発生の検知については,ネットワークを利用したリモートによる監視や,障害発生時の自動通知などの手段が充実しつつあり,システム管理者がシステムに障害が発生していることを知る手段は多く用意されています。

一方,システムに障害が発生している状態から,速やかにシステムを復旧させる手段については,手順書の整備など対処手順を定型化することなどで対策が講じられています。

障害の発生から復旧するまでの手順には,多くの操作や手順があり,対処に多くの時間を要するものです。しかし,その一方で多くの障害事象の対処は,障害の発生理由さえ特定できれば,パターン化された一連の対処手順を実施することで復旧できます。

JP1/IM - RLは,このような一連の復旧手順を自動化するための製品です。定型的な手順をルールとして定義し,自動処理をできるようにします。ルールとは,障害回復手順の一つ一つを構成要素とした個々の処理や,分岐条件および対処までを一つの組み合わせとする一連の手順です。

JP1/IM - RLは,このルールを定義し,監視対象システムに適用することで,障害発生のタイミングに合わせて,決められた対処手順を自動的に実行する手段を提供します。

<この項の構成>
(1) 従来の障害対処とJP1/IM - RL導入後の障害対処
(2) JP1/IM - Managerの自動アクション機能による障害対処との違い

(1) 従来の障害対処とJP1/IM - RL導入後の障害対処

従来の障害対処とJP1/IM - RL導入後の障害対処の違いについて説明します。

JP1/IM - Managerで監視しているシステムで障害が発生した場合の,従来の対応イメージを次の図に示します。

図1-1 JP1/IM - RLを導入する前の障害検知から対策までの流れ

[図データ]

  1. 事象の検知
    オペレーターは,JP1/IM - Managerが受信したJP1イベントによって,アプリケーションの異常を検知します。
  2. 状態の確認
    オペレーターは,状態を確認するためのコマンドを実行します。
  3. 対処の判断
    オペレーターは,状態確認コマンドの実行結果からシステムの実行状態を確認し,対象のアプリケーションが正常か異常かを判断します。アプリケーションが異常を示している場合は,このような事象が発生した際の対応手順に従って,システム管理者へ問い合わせ,次の指示を仰ぎます。
    問い合わせを受けたシステム管理者は,アプリケーションを再起動するか,または別の管理者へ連絡するかを判断します。
  4. 対処
    オペレーターは,システム管理者の判断に従って,アプリケーションを再起動し障害を回復します。

このような運用事例に対して,JP1/IM - RLは有効な製品です。システムが次のような条件を満たす場合は,JP1/IM - RLを導入することで障害対処に費やす運用管理の負荷を軽減できます。

JP1/IM - RLの導入効果が得られるシステム条件
  • 障害発生の兆候を示すログやJP1イベントから障害事象を特定できる。
  • 障害対処の手順がこれまでの実績から定型化され,文書化されている。
  • 状態確認コマンドなど,システムの状態を把握できるコマンドがある。また,コマンドを実行した結果の戻り値などから次に行う処理を判断できる。

JP1/IM - RLを導入した際の障害発生時の対応イメージを次の図に示します。

図1-2 JP1/IM - RLを導入したあとの障害検知から対策までの流れ

[図データ]

  1. 事象の検知
    障害事象がJP1/IM - Managerに通知され,JP1/IM - ManagerからJP1/IM - RLへルールの起動要求を出します。JP1/IM - RLは,ルールの起動要求を受けてルールを起動します。
  2. 状態の確認
    JP1/IM - RLは,JP1イベントを契機に自動的に状態確認コマンドを実行します。状態確認コマンドの戻り値からアプリケーションが正常か異常かを判定し,次に行う処理を振り分けます。
  3. 対処の判断
    コマンドの戻り値が異常を示しているため,JP1/IM - RLは,あらかじめ定義された分岐処理に従って,システム管理者へ対処の判断を要求するJP1イベントを発行し,通知します。
    システム管理者は,このケースでの対処である「アプリケーションの再起動」か「別の管理者への連絡」のどちらかの判断をします。
  4. 対処
    図1-2は,システム管理者が対処として「アプリケーションの再起動」を選択し,アプリケーションを再起動するコマンドを自動実行した例です。

JP1/IM - RLでは,対処のためのコマンドなどを自動実行するだけではなく,戻り値によって幾つかの異なる処理を行う分岐処理を実行できます。また,システムが自動判別できない場合や,復旧操作に関して上位の管理者の判断が必要な場合に備え,システム管理者への確認手段を提供するなど,複雑な条件での障害対処を自動化できます。

(2) JP1/IM - Managerの自動アクション機能による障害対処との違い

JP1/IM - Managerには,特定のJP1イベントの受信を契機として自動的にコマンドを実行する自動アクション機能と呼ばれる機能があります。JP1/IM - Managerの自動アクション機能による障害対処と,JP1/IM - RLによる障害対処の違いについて説明します。

自動アクション機能では,一つのJP1イベントに対する処理は,一つのコマンド実行(またはバッチファイル,シェルスクリプト)でできる範囲に限られます。そのため,自動アクション機能でできる対処は,障害の通知や簡単な対処に限られます。通知を受けたシステム管理者は,手動で調査・分析を行い,システムを回復する必要があります。

一方,JP1/IM - RLでは,ルールの定義で,コマンド実行後の戻り値によって分岐処理を設定したり,人の判断を介入させたりできます。これによって,手順の途中にシステム管理者の判断を受けたり,処理を分岐させたりする複雑な対処手順を定型化できます。

[目次][前へ][次へ]


[他社商品名称に関する表示]

All Rights Reserved. Copyright (C) 2009, 2011, Hitachi, Ltd.