Cosminexus 機能解説

[目次][用語][索引][前へ][次へ]

17.3.3 障害発生時の自動再起動

Management Serverを使用して,障害が発生して停止した論理サーバを自動再起動できます。

自動再起動は,Management Serverによって正しく起動された論理サーバから,起動後の状態として「障害」が検出された場合に実行されます。「障害」とは,停止要求を受け付けていないのに論理サーバが停止したことが検出された状態です。

運用管理エージェントでは,論理サーバに対してプロセス監視および動作確認をしています。プロセスのダウン,およびハングアップといった論理サーバの障害を検出すると,運用管理エージェントは異常を検知し,Management Serverに通知します。Management Serverは,障害検知時コマンドおよびsnapshotログ収集を実行してトラブルシューティング用の資料を収集したあとで,論理サーバを自動再起動します。

ユーザからの起動要求に対する起動処理の途中で障害が発生した場合は,自動再起動をしないでユーザに起動の失敗が通知されます。

自動再起動は,システムの構築時に設定した,自動再起動回数および自動再起動リトライ間隔に従って実行されます。

なお,自動再起動回数として「0回」を設定している場合,自動再起動は実行されません。

障害発生時の自動再起動の流れと論理サーバのステータスについて次の図に示します。

図17-3 障害発生時の自動再起動

[図データ]

なお,前提となる論理サーバで自動再起動をした場合には,前提となる論理サーバの自動再起動の完了後に,該当する論理サーバを前提として設定している論理サーバも再起動されます。

ポイント
障害検出について
論理サーバの稼働状態の確認は,運用管理エージェントでの論理サーバのプロセス監視および動作確認で実施しています。例えば,プロセス監視では,論理サーバプロセスのプロセスIDが存在するかどうかを確認します。プロセスIDが存在しない場合は,運用管理エージェントはプロセスダウンを検知し,Management Serverに異常を通知します。
なお,プロセス監視および動作確認の内容は,論理サーバの種類によって異なります。詳細については,「17.3.2 論理サーバの起動・停止と稼働確認」を参照してください。