7.4.2 障害情報を収集する
障害が発生した場合に,収集する障害情報と収集方法について説明します。
-
HAモニタの障害情報
トラブルシュート情報収集コマンド(montsコマンド)で,収集します。
-
OSの障害情報,および統計情報
OSのコマンドで収集します。
ここでは,HAモニタの障害情報,およびトラブルシュート情報収集コマンド(montsコマンド)について説明します。OSの障害情報,および統計情報については,OSのマニュアルを参照してください。
(1) HAモニタの障害情報
HAモニタには,次の障害情報があります。これらの情報はすべて,トラブルシュート情報収集コマンド(montsコマンド)で収集できます。収集したデータは圧縮していません。
-
定義情報
定義ファイル(/opt/hitachi/HAmon/etc下のすべてのファイル)
-
モジュールトレース情報
コアファイル(/opt/hitachi/HAmon/coreで始まるすべてのファイル)
-
メッセージログ情報
システムログファイル(/var/log/messagesで始まるすべてのファイル)
-
メモリ情報
HAモニタが稼働している場合,そのメモリ情報を取得します。
-
トレース情報
トレースファイル(/opt/hitachi/HAmon/spool下のすべてのファイル)
HAモニタの動作履歴や発行したコマンドの実行結果を保存したファイルです。
障害調査には,次のトレースファイルを使用できます。なお,/opt/hitachi/HAmon/spool下には,HAモニタの稼働に必要なファイルが格納されているため,ファイルの変更・削除,およびディレクトリへの操作は行わないでください。
表7‒4 HAモニタの障害調査に使用するファイル ファイル名
説明
調査目的
-
sms
-
oldsms
系およびサーバの障害情報やスローダウン情報を収集するファイルです。
ファイル内のトレース情報が100KBに達すると,「oldsms」という名称のバックアップファイルにラップアラウンドされます。このとき,smsファイルの内容はクリアされ,oldsmsファイルに書き換えられます。
系障害,サーバ障害の調査
-
サーバ識別名.fslog
-
サーバ識別名.fslog_old
HAモニタがファイルシステムの切り替え時に実行するOSのコマンド(fsckまたはxfs_repair,mount,fuser,umountコマンド)の実行結果を収集するファイルです。
トレース取得時にファイルがHAモニタの環境設定のfs_log_sizeオペランドに指定したサイズを超えた場合,「サーバ識別名.fslog_old」という名称のバックアップファイルが作成されます。
ファイルシステムの切り替えエラー要因調査
-
ボリュームグループ名.vglog
-
ボリュームグループ名.vglog_old
HAモニタがボリュームグループの接続時または切り離し時に実行するOSのコマンド(vgchangeコマンド)の実行結果を収集するファイルです。
トレース取得時にファイルが65,535バイトを超えた場合,「ボリュームグループ名.vglog_old」という名称のバックアップファイルが作成されます。
共有ディスクの接続エラー要因調査
-
-
監視履歴
監視履歴ファイル(/opt/hitachi/HAmon/history/patrol_history)
系およびサーバのスローダウン情報を収集するファイルです。トレース情報のsmsファイルよりも詳細に,スローダウンしていた期間を取得できます。
監視履歴は,高負荷による障害発生を防止するために定義ファイルやシステム構成を見直す場合に有効な情報です。監視履歴を使用して障害発生を軽減する運用方法については,「7.6 高負荷による障害発生を防止するための運用」を参照してください。
(2) HAモニタのmontsコマンドを使用した障害情報の収集
障害発生時にトラブルシュート情報収集コマンド(montsコマンド)を実行することで,取得した障害情報を,アーカイブファイルとして保存したり,可搬媒体に移送したりできます。
トラブルシュート情報収集コマンド(montsコマンド)は,スーパユーザの権限で実行してください。トラブルシュート情報収集コマンド(montsコマンド)を使用した障害情報の収集を次の図に示します。
アーカイブファイルを保存するか,可搬媒体に移送するかは,トラブルシュート情報収集コマンド(montsコマンド)実行時に指定します。