Hitachi

Cosminexus V11 アプリケーションサーバ 機能解説 保守/移行編


2.2.2 トラブル発生時の資料取得の流れ

アプリケーションサーバで構築したシステムでは,自動でトラブルシューティングの資料を取得できます。論理サーバを起動すると,運用管理エージェントは論理サーバの監視を開始します。論理サーバに異常が発生すると,運用管理エージェントは異常を検知し,Management Serverに通知します。Management Serverは資料を取得および収集し,論理サーバを停止して再起動します。

自動で資料を取得する場合の流れを次の図に示します。

図2‒2 自動で資料を取得する場合の流れ

[図データ]

2.の障害検知時コマンドによって,トラブルシューティングに必要な情報が出力されます。このコマンドで出力した情報,およびそれ以外のトラブルシューティングに必要な情報を,3.でsnapshotログとしてまとめて収集します。なお,障害検知時コマンドを使用しないで,4.の論理サーバの停止後にsnapshotログを取得することもできますが,このとき取得できる情報はJ2EEサーバだけとなります。このため,障害検知時コマンドを使用して,3.でsnapshotログを収集することをお勧めします。障害検知時コマンドを使用した資料の取得については,「2.3.2 障害検知時コマンドによる資料取得」を,snapshotログについては,「2.3.3 snapshotログの収集」を参照してください。

また,Management Serverの運用管理コマンド(mngsvrutil)を使用して,snapshotログを任意のタイミングで収集することもできます。運用管理コマンドを使用したsnapshotログの収集については,「2.3.3(4) 運用管理コマンドを使用したsnapshotログの収集」を参照してください。

論理サーバのプロセスがダウンしたとき,および論理サーバのプロセスがハングアップしたときの処理の流れについて説明します。

〈この項の構成〉

(1) 論理サーバのプロセスがダウンしたときの処理の流れ

論理サーバの起動後,運用管理エージェントのプロセス監視では,論理サーバプロセスのプロセスIDを使用して定期的にプロセスを監視します。論理サーバプロセスがダウンしたときの処理の流れを次の図に示します。

図2‒3 論理サーバのプロセスがダウンしたときの処理の流れ

[図データ]

  1. 論理サーバプロセスのプロセスIDで,定期的にプロセスを監視します。

  2. 論理サーバプロセスが異常終了すると,運用管理エージェントはプロセスダウンを検知して,Management Serverに通知します。

    プロセス監視では,プロセスIDの存在確認をします。確認内容は,論理サーバの種類によって異なります。詳細については,マニュアル「アプリケーションサーバ 機能解説 運用/監視/連携編」の「2.3.1 論理サーバの起動と稼働確認」,およびマニュアル「アプリケーションサーバ 機能解説 運用/監視/連携編」の「2.3.2 論理サーバの停止」を参照してください。

  3. Management Serverではプロセスダウンを検知すると,障害検知時コマンドを実行し,snapshotログを収集します。

  4. 障害検知時コマンドとsnapshotログ収集後,論理サーバを自動再起動します。

(2) 論理サーバのプロセスがハングアップしたときの処理の流れ

論理サーバの起動後,運用管理エージェントのプロセス監視では,論理サーバプロセスに対して定期的に,論理サーバが動作しているかを確認します。動作確認中に論理サーバプロセスがハングアップしたときの処理の流れを次の図に示します。

図2‒4 論理サーバのプロセスがハングアップしたときの処理の流れ

[図データ]

  1. 定期的に論理サーバプロセスの動作確認をします。

    動作確認は,プロセス監視でプロセスIDが存在することが確認されてから,実施されます。確認内容は,論理サーバの種類によって異なります。詳細については,マニュアル「アプリケーションサーバ 機能解説 運用/監視/連携編」の「2.3.1 論理サーバの起動と稼働確認」,およびマニュアル「アプリケーションサーバ 機能解説 運用/監視/連携編」の「2.3.2 論理サーバの停止」を参照してください。

  2. 連続して動作確認に2回失敗すると(デフォルト値),運用管理エージェントはハングアップと判断して,Management Serverに通知します。なお,ハングアップと判断する,動作確認の失敗回数は変更できます。

  3. Management Serverではハングアップを検知すると,障害検知時コマンドを実行し,snapshotログを収集します。

  4. ハングアップの場合,プロセスは稼働中であるため,自動停止処理を実行します。

  5. 運用管理エージェントでは論理サーバの停止コマンドを実行します。

    なお,一定時間経っても停止しない場合は,強制停止コマンドが実行されます。

  6. 障害検知時コマンドとsnapshotログ収集後,論理サーバを自動再起動します。