Cosminexus 簡易構築・運用ガイド

[目次][用語][索引][前へ][次へ]

9.2.3 障害設計

障害設計では,障害発生時の対応に関して,障害部分の切り離し,障害からの復旧,障害時の取得資料,障害原因の切り分け,障害調査などについて設計します。

Smart Composer機能では,障害発生時の資料取得に加えて,問題発生時にサービスユニットを自動部分閉塞したり,自動部分再起動したりするような高度な運用ができます。これには,Cosminexusの障害検知時コマンドを利用したり,リソース枯渇監視機能を利用したりします。

Smart Composer機能で実施できる障害発生時の運用を次に示します。

この運用をする場合は,システム構築時に設定をしておく必要があります。設定手順については,「6.19.2 サービスユニットを自動再起動するための設定」を参照してください。

なお,そのほかの障害時の対応については,マニュアル「Cosminexus システム運用ガイド」のトラブルシューティングに関する説明を参照してください。

障害発生時の運用について次に説明します。

<この項の構成>
(1) 障害発生時の資料取得
(2) 障害発生時のサービスユニットの自動再起動

(1) 障害発生時の資料取得

システムで障害が発生した場合,トラブルシューティングに必要な資料が収集できます。トラブルシューティングに必要な資料は,個別に取得したり,snapshotログとして一括して取得したりできます。snapshotログは,システムの構成ソフトウェアが障害発生時にそのときの状態を出力したログで,各種構成ソフトウェアのログのほかに,スレッドダンプ(ハングアップの場合だけ),性能解析トレースなどが含まれます。

障害発生時のタイムリーな情報をsnapshotログとして収集するためには,障害検知時コマンドを利用します。障害検知時コマンドは,Management Serverが論理サーバの障害を検知したときに,システムによって実行されるコマンドです。障害検知時コマンドを利用して,トラブル発生時のスレッドダンプやユーザダンプの取得などの処理を実行することで,障害発生時のタイムリーな資料を取得できるようになります。障害検知時コマンドには,システム提供の障害検知時コマンドとユーザ作成の障害検知時コマンドの2種類があります。

障害検知時コマンドの実行とsnapshotログの収集によって,トラブルシューティングに必要な情報を取得できます。障害検知時コマンドの概要については,マニュアル「Cosminexus 機能解説」の障害検知時コマンドによる資料取得に関する説明を参照してください。

また,資料によっては,事前に取得のための設定をしておく必要があります。例えば,OSの統計情報,ユーザダンプなどは,システム構築時に取得のための設定をしておかないと取得できません。これらの資料はトラブルシューティングで必要となるため,取得することをお勧めします。デフォルトの設定ではsnapshotログとして収集できない資料でも,その資料の取得先をsnapshotログの収集対象として定義することで,snapshotログとして一括収集できるようになります。

デフォルトの設定でsnapshotログとして収集できる資料とsnapshotログ収集の設定については,マニュアル「Cosminexus システム構築ガイド」のsnapshotログ収集の設定に関する説明を参照してください。取得できる資料の詳細については,マニュアル「Cosminexus システム運用ガイド」の取得が必要な資料の種類に関する説明を参照してください。

参考
ユーザ作成の障害検知時コマンドには,Smart Composer機能のコマンドを定義しておくこともできます。例えば,致命的な障害が発生したサービスユニットを自動閉塞するコマンドを,障害検知時コマンドとして設定しておくことができます。

(2) 障害発生時のサービスユニットの自動再起動

JavaVMのフルガーベージコレクションやスレッド数などのリソース枯渇を事前に検知すると,問題が発生したサービスユニットを自動再起動します。サービスユニットの自動再起動には,Cosminexusのリソース枯渇監視機能を利用します。

障害発生時のサービスユニットを自動再起動する図を次に示します。

図9-6 障害発生時のサービスユニットの自動再起動

[図データ]

障害発生時のサービスユニット自動再起動の仕組みについて説明します。

サービスユニットの自動再起動では,Cosminexusのリソース枯渇監視機能を利用します。リソース枯渇監視機能でリソース枯渇を事前に検知すると,これらの情報がManagementイベントとして,Management Serverに通知されます。Managementイベントが通知されると,Management ServerではManagementアクションが実行されます。Managementアクションでは,ユーザがあらかじめ定義しておいた処理を実施します。

Managementアクションとして,サービスユニットを再起動するSmart Composer機能のコマンドを定義することで,障害の発生したサービスユニットを自動再起動できます。

なお,Managementイベント,Managementアクション,およびリソース枯渇機能については,マニュアル「Cosminexus 機能解説」のシステムの運用支援に関する説明を参照してください。