15.7 クラスタシステムでの障害回復
実行系ノードで障害が発生すると,クラスタソフトによってフェールオーバーが実行され,処理が待機系ノードに移ります。フェールオーバーすると,それまで実行されていた実行系ノードでの処理は停止されます。
システム管理者は,実行系ノードで発生した障害の要因を特定します。また,障害の要因を取り除いたあと,実行系ノードに系切り替えして,障害を回復する必要があります。
障害の要因を特定するには,次のログ情報を採取して分析します。
- Performance Managementのログ情報
非クラスタシステムで採取する情報と同じです。次の情報を採取します。
- システムログ
- 共通メッセージログ
- 稼働状況ログ
- トレースログ
- クラスタソフトやOSのログ情報
クラスタソフトのログ情報や,OS自身が出力するログもあわせて採取することをお勧めします。
Performance Managementのログ情報の詳細については,「20.3 ログ情報」を参照してください。
- <この節の構成>
- (1) クラスタシステムでのログ情報の採取
(1) クラスタシステムでのログ情報の採取
クラスタシステムでPerformance Managementのログ情報を採取する場合は,次の点に留意してください。
- 論理ホスト運用しているPerformance Managementの場合,共通メッセージログおよびトレースログは,共有ディスクに出力されます。
共有ディスク上にあるログファイルは,フェールオーバーするときにシステムとともに引き継がれるため,フェールオーバー前後のログ情報は,同じログファイルに記録されます。
- 論理ホスト運用している場合は,障害が発生した前後の情報を参照する必要があるため,フェールオーバーによって処理を停止した実行系ノードとフェールオーバー先の待機系ノードの両方で,ログ情報を採取する必要があります。
Performance Managementのログ情報を採取する方法については,「20.5 資料の採取方法」を参照してください。