Cosminexus 機能解説
18.2.1 障害発生時の資料取得の流れ
Cosminexusシステムでは,自動でトラブルシューティングの資料を取得できます。論理サーバを起動すると,運用管理エージェントは論理サーバの監視を開始します。論理サーバに異常が発生すると,運用管理エージェントは異常を検知し,Management Serverに通知します。Management Serverは資料を取得および収集し,論理サーバを停止して再起動します。
自動で資料を取得する場合の流れを次の図に示します。
図18-1 自動で資料を取得する場合の流れ
- 参考
- 2.の障害検知時コマンドで必要な資料を取得し,3.のsnapshotログで資料を収集します。なお,障害検知時コマンドを使用しないで,4.の論理サーバの停止後にsnapshotログを取得することもできますが,このとき取得できる情報はJ2EEサーバだけとなります。このため,障害検知時コマンドを使用して,3.でsnapshotログを収集することをお勧めします。
なお,Management Serverの運用管理コマンド(mngsvrutil)を使用して,snapshotログを任意のタイミングで収集することもできます。snapshotログについては,「18.2.4 snapshotログの収集」を参照してください。Management Serverの運用管理コマンドでの資料の取得については,マニュアル「Cosminexus システム運用ガイド」のトラブルシューティングに関する説明を参照してください。
論理サーバのプロセスがダウンしたとき,および論理サーバのプロセスがハングアップしたときの処理の流れについて説明します。
- <この項の構成>
- (1) 論理サーバのプロセスがダウンしたときの処理の流れ
- (2) 論理サーバのプロセスがハングアップしたときの処理の流れ
(1) 論理サーバのプロセスがダウンしたときの処理の流れ
論理サーバの起動後,運用管理エージェントのプロセス監視では,論理サーバプロセスのプロセスIDを使用して定期的にプロセスを監視します。論理サーバプロセスがダウンしたときの処理の流れを次の図に示します。
図18-2 論理サーバのプロセスダウン時の処理の流れ
- 論理サーバプロセスのプロセスIDで,定期的にプロセスを監視します。
- 論理サーバプロセスが異常終了すると,運用管理エージェントはプロセスダウンを検知して,Management Serverに通知します。
プロセス監視では,プロセスIDの存在確認をします。確認内容は,論理サーバの種類によって異なります。詳細については,「17.3.2 論理サーバの起動・停止と稼働確認」を参照してください。
- Management Serverではプロセスダウンを検知すると,障害検知時コマンドを実行し,snapshotログを収集します。
- 障害検知時コマンドとsnapshotログ収集後,論理サーバを自動再起動します。
(2) 論理サーバのプロセスがハングアップしたときの処理の流れ
論理サーバの起動後,運用管理エージェントのプロセス監視では,論理サーバプロセスに対して定期的に,論理サーバが動作しているかを確認します。動作確認中に論理サーバプロセスがハングアップしたときの処理の流れを次の図に示します。
図18-3 論理サーバのプロセスハングアップ時の処理の流れ
- 定期的に論理サーバプロセスの動作確認をします。
動作確認は,プロセス監視でプロセスIDが存在することが確認されてから,実施されます。確認内容は,論理サーバの種類によって異なります。詳細については,「17.3.2 論理サーバの起動・停止と稼働確認」を参照してください。
- 連続して動作確認に2回失敗すると(デフォルト値),運用管理エージェントはハングアップと判断して,Management Serverに通知します。なお,ハングアップと判断する,動作確認の失敗回数は変更できます。
- Management Serverではハングアップを検知すると,障害検知時コマンドを実行し,snapshotログを収集します。
- ハングアップの場合,プロセスは稼働中であるため,自動停止処理を実行します。
- 運用管理エージェントでは論理サーバの停止コマンドを実行します。
なお,一定時間経っても停止しない場合は,強制停止コマンドが実行されます。
- 障害検知時コマンドとsnapshotログ収集後,論理サーバを自動再起動します。
All Rights Reserved. Copyright (C) 2006, 2007, Hitachi, Ltd.