Hitachi

高信頼化システム監視機能 HAモニタ AIX(R)編


7.3.1 監視コマンドを使用する場合の実行ログの確認(モニタモードのサーバでptrlcmd_exオペランド,またはsby_ptrlcmd_exオペランドを指定する場合)

サーバの監視コマンドの開始,終了の実行結果,および実行状況(前回の監視コマンドがリターンしていない場合は実行をスキップ)を,監視コマンドの実行ログに出力します。

該当するサーバのログを確認すれば,サーバの監視コマンドの実行結果や実行状況を調査できます。システムの運用中は,監視コマンドの実行ログの内容は常に更新されます。

HAモニタは,サーバの監視コマンドによってサーバ障害を検知した場合,ログを.bakで退避します。すでに.bakファイルが存在する場合は,.bakを.bak2に退避したあとに.bakに退避します。ログは3世代管理です。

重要

サーバの稼働中にサーバログを確認する場合は参照だけとし,保存しないでください。参照中に出力されたログ情報が,失われるおそれがあります。

ここでは,実行ログについて説明します。

〈この項の構成〉

(1) ファイルの種類

実行ログの一覧を,次の表に示します。ファイル名の「サーバ識別名」の部分には,サーバ対応の環境設定(servers)のaliasオペランドの値が適用されます。

表7‒2 実行ログの一覧

ファイル名

説明

/opt/hitachi/HAmon/spool/ptrlcmd_ex/サーバ識別名_ptrlcmdlog

最新の監視コマンドの実行ログのファイルです。

/opt/hitachi/HAmon/spool/ptrlcmd_ex/サーバ識別名_ptrlcmdlog.bak

直近のサーバ障害時にバックアップされた実行ログのファイルです。

/opt/hitachi/HAmon/spool/ptrlcmd_ex/サーバ識別名_ptrlcmdlog.bak2

直近の1回前のサーバ障害時にバックアップされた実行ログのファイルです。

(2) ファイルの内容

実行ログのファイルの内容を次に示します。

ファイルのヘッダ部は,ファイルのコメントおよびラップアラウンド用のオフセット管理情報(offset)とで構成されます。

ファイルのヘッダ部
#    HA monitor ptrlcmd_ex Logging File
#
#      offset:131       
# DATE     TIME            [PID] [PPID] [PGID] [UID] DATA
ファイルのデータ部

●入口情報

年月日 時刻 [プロセスID] [親プロセスID] [プロセスグループID] [UID] [サーバの識別名] オペランド名称 コマンドライン情報+入口識別子

年月日:コマンド情報出力時刻の年月日を,YYYY/MM/DD形式で出力します。

時刻:コマンド情報出力時刻を,HH:MM:SS.mmmmmm形式で出力します。mmmmmmは,マイクロ秒です。

プロセスID:監視コマンドのプロセスIDを出力します。

親プロセスID:監視コマンドの親プロセスIDを出力します。

プロセスグループID:監視コマンドのプロセスグループIDを出力します。

UID:監視コマンド実行者の実uidを出力します。実uidを取得できない場合は0を出力します。

サーバの識別名:監視コマンドを実行するサーバの識別名を出力します。

オペランド名称:実行対象の監視コマンドが指定されているオペランド名を出力します。

コマンドライン+入口識別子:監視コマンドのコマンドライン情報と入口を示す"start"を出力します。コマンドライン部分はダブルクォーテーションで囲まれています。

●実行スキップ情報

年月日 時刻 [プロセスID] [親プロセスID] [プロセスグループID] [UID] [サーバの識別名] オペランド名称 コマンドライン情報+入口識別子

年月日:入口情報と同じです。

時刻:入口情報と同じです。

プロセスID:出力要求元プロセスのプロセスIDを出力します。

親プロセスID:出力要求元プロセスの親プロセスIDを出力します。

プロセスグループID:出力要求元プロセスのプロセスグループIDを出力します。

UID:0を出力します。

サーバの識別名:入口情報と同じです。

オペランド名称:入口情報と同じです。

コマンドライン+入口識別子:前回実行した監視コマンドがリターンしていないことを示す“skip”と,前回実行した監視コマンドのプロセスIDとして“pid:プロセスID”を出力します。

●出口情報

年月日 時刻 [プロセスID] [親プロセスID] [プロセスグループID] [UID] [サーバの識別名] オペランド名称 コマンドライン情報+入口識別子 終了情報

年月日:入口情報と同じです。

時刻:入口情報と同じです。

プロセスID:入口情報と同じです。

親プロセスID:入口情報と同じです。

プロセスグループID:0を出力します。

UID:0を出力します。

サーバの識別名:入口情報と同じです。

オペランド名称:入口情報と同じです。

コマンドライン+入口識別子:ユーザコマンドのコマンドライン情報と出口を示す”end”を出力します。コマンドライン部分はダブルクォーテーションで囲まれています。

終了情報:監視コマンドの終了ステータスを出力します。ただし,異常終了した場合は終了ステータスの後ろに”(no exit)”を出力します。

(3) ファイルの出力例

実行ログのファイルの出力例を次に示します。

●サーバが正常に稼働しているときの出力例

#    HA monitor ptrlcmd_ex Logging File
#
#      offset:53614     
# DATE     TIME            [PID] [PPID] [PGID] [UID] DATA
:
:
2017/04/01 19:46:15.794243 [9725] [8461] [9725] [0] sv1 ptrlcmd_ex "/bin/sh -c /opt/hitachi/HAmon/etc/patrol_ex.sh 1>./spool/ptrlcmd_ex/sv1.log 2>&1" : start
2017/04/01 19:46:18.324938 [9725] [8461] [0] [0] sv1 ptrlcmd_ex "/opt/hitachi/HAmon/etc/patrol_ex.sh" : end 0
2017/04/01 19:46:23.752926 [9871] [9866] [9871] [0] sv1 ptrlcmd_ex "/bin/sh -c /opt/hitachi/HAmon/etc/patrol_ex.sh 1>./spool/ptrlcmd_ex/sv1.log 2>&1" : start
2017/03/14 19:46:28.253276 [9871] [9866] [0] [0] sv1 ptrlcmd_ex "/opt/hitachi/HAmon/etc/patrol_ex.sh" : end 0
:
:
#####

監視コマンドの実行開始を示す“start”と,監視コマンドの正常終了を示す“end 0”の出力を繰り返します。

●監視コマンドの処理やサーバのスローダウンなどによって,監視コマンドがタイムアウトした場合の出力例

#    HA monitor ptrlcmd_ex Logging File
#
#      offset:53614     
# DATE     TIME            [PID] [PPID] [PGID] [UID] DATA
:
:
2017/04/01 19:46:15.794243 [9725] [8461] [9725] [0] sv1 ptrlcmd_ex "/bin/sh -c /opt/hitachi/HAmon/etc/patrol_ex.sh 1>./spool/ptrlcmd_ex/sv1.log 2>&1" : start
2017/04/01 19:46:25.811760 [8461] [8385] [8384] [0] sv1 ptrlcmd_ex : skip, pid:9725
2017/04/01 19:46:35.811760 [8461] [8385] [8384] [0] sv1 ptrlcmd_ex : skip, pid:9725
2017/04/01 19:46:45.811760 [8461] [8385] [8384] [0] sv1 ptrlcmd_ex : skip, pid:9725
2017/04/01 19:46:55.811760 [8461] [8385] [8384] [0] sv1 ptrlcmd_ex : skip, pid:9725
:
:
#####

監視コマンドの実行開始を示す“start”が出力されたあと,監視コマンドが終了しないため“end”が出力されません。また,タイムアウトになるまでの間,監視コマンドの実行タイミングで“skip”が出力されます。詳細ログも参照し,監視コマンドが終了しない原因を調査してください。

●サーバの障害などによって,監視コマンドがエラー(終了ステータス:10)となった場合の出力例

#    HA monitor ptrlcmd_ex Logging File
#
#      offset:53614     
# DATE     TIME            [PID] [PPID] [PGID] [UID] DATA
:
:
2017/04/01 19:46:15.794243 [9725] [8461] [9725] [0] sv1 ptrlcmd_ex "/bin/sh -c /opt/hitachi/HAmon/etc/patrol_ex.sh 1>./spool/ptrlcmd_ex/sv1.log 2>&1" : start
2017/04/01 19:46:18.324938 [9725] [8461] [0] [0] sv1 ptrlcmd_ex "/opt/hitachi/HAmon/etc/patrol_ex.sh" : end 10
:
:
#####

監視コマンドの実行開始を示す“start”と,監視コマンドのエラーを示す“end 10”など終了ステータスを出力します。詳細ログも参照し,監視コマンドがエラーとなった原因を調査してください。