3.14.4 システムの状況に応じた対処アクションの提案
システムに障害が発生した場合,従来の運用では運用ルールを確認し影響範囲を特定,システムの稼働状況の確認と状況の判断,障害に適した対処の決定,そして対処の実行,という一連の流れによる対処が必要でした。このため,対処を実行するまでに時間が掛かり,システムの運用者に掛かる負担も大きくなっていました。
システムの状況に応じた対処アクションの提案は,確立された運用ルールや運用実績に基づき,システムの状況に適した対応方法を提案し,簡単な操作で対処アクションを実行できる機能です。管理対象の異常を検知した際,運用者がJP1/IMに提案を要求すると,状況に合わせた対処アクションがインテリジェント統合管理基盤から提案されます。提案を選択して対処アクションを実行するだけで,異常に対する対処は終了します。
これらによって,運用ルールや影響範囲などの確認作業が極小化され,対処に掛かる時間が削減されます。また,判断ミス,操作ミスを減らし,人に依存するシステム運用から個人のスキルに左右されない運用へ,システムの運用管理をスムーズに移行できます。
システムの状況に応じた対処アクションの提案機能の概要を,次の図に示します。
システムの状況に応じた対処アクションの提案機能で使用する運用ルール(提案活性条件・対処アクション)は,提案定義ファイルで設定します。さらに,連携製品の活用やプラグインを実装することによって,高度な運用にも対応できます。
運用ルールと提案定義ファイルの関係について,次の図に示します。
提案活性条件に使用できる情報を次の表に示します。なお,各情報はOR条件,AND条件による組み合わせが可能です。
JP1イベント |
性能情報(トレンド情報) |
関係性 |
プラグイン |
---|---|---|---|
各属性値の判定 複数イベントの相関性 |
時系列データの値が上昇した個数 |
業務とインフラや業務同士の関係性 |
プラグイン,REST API,コマンドの実行結果 |
実行できる対処アクションを次の表に示します。なお,提案活性条件で参照した情報を変数として利用することができます。
対処状況の変更 |
画面表示 |
プラグインなど |
---|---|---|
JP1イベントの対処状況を変更できる |
業務インパクトや,連携製品のWeb画面を表示できる |
プラグイン,REST API,コマンドを実行できる |
対処アクションの提案は,提案定義ファイルで定義し,jddupdatesuggestionコマンドを実行して反映します。[提案]タブが表示可能なIM管理ノードには,[統合オペレーション・ビューアー]画面のツリーにアイコンが表示されます。また,緊急/警戒/致命的,エラー,警告の障害が発生している個所には,それぞれ次の提案アイコンが表示されます。
-
:緊急/警戒/致命的
-
:エラー
-
:警告
これらのアイコンが表示されているIM管理ノードをユーザーがクリックすると,IM管理ノードにマッピングされている提案定義が取得され,ログインユーザーのJP1権限が提案定義の提案表示条件を満たしているかが判定されます。条件を満たしていれば[提案]タブに対処の一覧が表示されます。
[提案]ボタンをクリックすると,システムの状況をインテリジェント統合管理基盤が自動で判断し,提案活性条件が成立する提案定義を実行するべき対処として,活性化して表示します。
ユーザーは,定義された条件の詳細やその提案が実行する対処アクションの内容などを確認し,活性化した提案のうち,どの提案を実行するかを判断します。[実行]ボタンをクリックすると,対処アクションが実行され,障害への対処が完了します。
- 〈この項の構成〉
(1) 条件情報キャッシュ
条件情報取得による取得元への負担軽減のため,提案活性条件の判定時に取得した条件情報をキャッシュできます。キャッシュを作成,参照するかどうかは,提案活性条件ごとに提案定義ファイルで指定します。指定を省略した場合は,キャッシュを作成,参照しません。
条件情報キャッシュは,提案活性条件に指定したkeyの単位でキャッシュされます。keyが同じ提案活性条件の場合,キャッシュの有効期限内で判定したときは,条件情報を取得しないでキャッシュを使用します。キャッシュの単位はシステム単位です。同じシステムにログインするすべてのユーザーが同じキャッシュを参照,更新します。
対処アクションを前回実行した際の履歴は[提案]タブの[提案詳細]領域で確認できます。また,前回実行履歴取得APIで取得することもできます。
なお,前回実行履歴も含んだ履歴は,対処アクション実行履歴ファイル(jddSuggestionHistory.log)に出力されます。対処アクションの開始,終了,失敗は,JP1イベントとして出力されます。
コマンドおよびREST APIの実行先ホストに負荷をかける提案活性条件は,条件情報キャッシュを使用することにより,コマンドおよびREST APIの実行回数を減らせる場合があります。このような提案活性条件については,条件情報キャッシュの使用を検討してください。
(2) 提案テンプレート
JP1/IMは,過去の問い合わせや顧客要望をもとに,想定される運用シーンに応じた提案テンプレートを用意しています。提案テンプレートは,次の手順でシステム反映できます。
なお,各提案テンプレートの詳細については,各製品のマニュアルを参照してください。
-
反映する提案テンプレートの製品のドキュメントを参照し,提案テンプレートを適用するための前提条件,手順を確認する。
-
すべての提案テンプレートを反映する場合は,運用する言語に合わせた提案テンプレートファイル格納フォルダのenまたはjaを指定し,jddupdatesuggestionコマンドを実行する。
-
一部の提案テンプレートだけを反映する場合,または提案テンプレートをカスタマイズする場合は,次のどちらかの手順を実行する。
-
提案テンプレートファイル格納フォルダのenまたはjaのconfファイルを削除・編集してからenまたはjaのフォルダを指定し,jddupdatesuggestionコマンドを実行する。
-
反映したい提案テンプレートのconfファイルを任意のディレクトリにコピーしたあと,confファイルをコピーしたディレクトリを指定し,jddupdatesuggestionコマンドを実行する。
-
提案テンプレートファイルの格納先については,「付録A ファイルおよびディレクトリ一覧」を参照してください。
jddupdatesuggestionコマンドについては,マニュアル「JP1/Integrated Management 3 - Manager コマンド・定義ファイル・APIリファレンス」の「jddupdatesuggestion」(1. コマンド)を参照してください。
提案テンプレートを使用した運用例について,以降で説明します。
(a) 業務影響の調査と対処のための提案(JP1/AJS3,JP1/PFMとの連携)
ホストが停止したJP1イベントがあり,現在もホストが停止していることがJP1/PFMによって検知されたことを契機に,業務の影響範囲を確認する方法を提案します。ホストが停止した際に,業務への影響範囲を素早く把握することでジョブの異常終了を回避し,影響の拡大を抑止できます。
影響のあるルートジョブネットを検索して確認する場合は,ルートジョブネットを選択してJP1/AJS3 - Web Consoleを開くことができます。ユーザーは,実行状況の詳細を確認して,保留や一時変更などの運用による対処ができます。
影響のある実行エージェントを検索して確認する場合は,停止を検知した実行先ホスト名でフィルタリングされた状態でJP1/AJS3 - Web Consoleを開くことができます。ユーザーは,運用に応じた実行エージェントを操作することができます。
(b) 対応が必要かどうかを切り分けるための提案(JP1/PFMとの連携)
CPU使用率の値によって状況を自動で判断し,CPU使用率が高騰し続けていれば原因の調査方法を提案,正常値であればイベントを「対処済」とすることを提案など,現在のリソース状況を自動で判断して状況に適した対処アクションを提案します。
また,現在は回復し対処不要となっているJP1イベントを,一括で「対処済」に変更できます。異常なメトリックだけをエスカレーションしたいときでも,面倒な切り分けは必要ありません。
(c) メンテナンス対応の提案(JP1/PFMとの連携)
ヘルスチェックとアラームの頻度によるJP1イベントの発行パターンから,メンテナンス中の可能性を判断し,監視の一時停止を提案します。また,監視を一時停止している場合は,一時停止した時と同じ画面から,監視の再開ができます。