5.8.2 各種資料を用いたトラブル対処の方法
プログラムが異常終了した場合などに,各種資料からその原因を解明するための手段には,次の2つがあります。
-
メッセージログ情報,トレース情報,通信ログ情報,およびコマンドログ情報の取得
障害発生時や制御の流れを確認するための情報として,次の表に示すメッセージログ情報,トレース情報,通信ログ情報,およびコマンドログ情報を利用できます。
表5‒14 バッチジョブ分散実行システムで利用できるメッセージログ情報,トレース情報,通信ログ情報,およびコマンドログ情報 出力元
情報の種類
-
ユーザサーバ
-
グリッドクライアント
-
ジョブマネージャデーモン
-
ノードマネージャデーモン
-
Multiple jobクライアント※
-
メッセージログ
-
トレースログ
-
通信ログ
<Windowsの場合>
-
OpenTP1の保守資料
-
コマンド
-
コマンドログ
-
-
障害情報収集コマンド(gprasget)による情報の取得
バッチジョブ分散実行システムが異常終了したり,無応答になったりした場合に,障害調査のための資料を一括して収集できます。
- 〈この項の構成〉
(1) メッセージログ情報およびトレース情報
メッセージログ情報およびトレース情報の格納先とファイル名を次の表に示します。Multiple jobクライアントについては,「2.7.8 メッセージログの出力」を参照してください。
種類 |
出力元のプロセス |
使用する部品 |
格納先 |
ファイル名 |
---|---|---|---|---|
メッセージログ |
|
HULALib |
|
|
トレースログ |
HNTRLib2 |
|
ugpsmtrc_N.log |
|
コマンドログ |
|
HNTRLib2 |
|
ugpsmtrc_cmd_N.log |
通信ログ |
|
HNTRLib2 |
uGPS - Managerの設定ファイルのTRACE_DIRパラメータでの指定ディレクトリ |
ugpsmtrc_dm_N.log |
<Windowsの場合> OpenTP1の保守資料 |
|
− |
%DCDIR%ディレクトリの情報など(gprasgetコマンドで採取) |
prclog1など |
(a) メッセージログ
メッセージログは,グリッドジョブの実行履歴の監視や,問題が発生したときの最初の切り分けのために参照するシステム管理者向けのログ情報です。このログ情報は,各ホストに定義する設定ファイルのLOG_DIRパラメータで指定したディレクトリ下およびuGPS - Managerのインストールディレクトリのメッセージログ出力用ディレクトリ下のugpsmlog.logファイルに出力されます。
メッセージログには,次の図に示すように,ホストごとに情報が出力されます。
- メッセージログの出力
-
メッセージログは,uGPS - Managerの設定ファイル(Multiple jobクライアントの場合はmj.conf設定ファイル)のLOG_DIRパラメータで指定したディレクトリにCSV形式で出力されます。
- メッセージログのバックアップ
-
シフト方式でローテーションが行われて,バックアップファイルが作成されます。
-
uGPS - Managerの設定ファイル(Multiple jobクライアントの場合はmj.conf設定ファイル)のLOG_FILE_SIZEパラメータに指定したファイルサイズを超える直前に,メッセージログのファイル名を変更してバックアップファイルを作成し,新たにメッセージログを作成して出力を継続します。
-
バックアップのファイル名は,「ugpsmlog_N.log(Nは整数の通し番号)(Multiple jobクライアントの場合はmjlog_N.log(Nは整数))」です。バックアップファイルの作成時,すでにバックアップファイルが存在する場合は,すべてのバックアップファイル名を変更します。Nには,新しいバックアップファイルから昇順に,1からの番号が割り当てられます。
-
最大でuGPS - Managerの設定ファイル(Multiple jobクライアントの場合はmj.conf設定ファイル)のLOG_FILE_CNTパラメータに指定された面数のバックアップファイルが作成されます。バックアップファイルの最大面数を超えた場合は,いちばん古いバックアップファイルを削除します。
-
- uGPS - Managerのメッセージログの形式
seqnum=aa...aa, date=bb...bb, pgmid=cc...cc, JP1JobID=dd...dd, gridjobid=ee...ee, subjobid=ff...ff, pid=gg...gg, msgid=hh...hh, msg=”ii...ii”
- Multiple jobクライアントのメッセージログの形式
seqnum=aa...aa, date=bb...bb, pgmid=cc...cc, JP1JobID=dd...dd, hadoopjobid=ee...ee, pid=ff...ff, msgid gg...gg, msg=hh...hh
行の終端は「LF(0x0A)」です。
出力される項目の意味と出力形式を示します。
項目
意味
形式
seqnum
プロセスごとの通し番号が出力されます。
1〜10byteの整数
date
メッセージログを出力した日時です。
UTCからのオフセット値を「+hh:mm」で出力します。UTCと同じ場合は「Z」を出力します。
24byteまたは29byte
YYYY-MM-DDThh:mm:ss.sssTZD
TZD:タイムゾーン識別子
pgmid
メッセージ出力元の種別が次の値で出力されます。
-
CMD_CM:コマンド
-
CMD_GC:グリッドクライアント
-
SRV_JM:ジョブマネージャ
-
SRV_NM:ノードマネージャ
-
SRV_DM:データマネージャ
-
SRV_GW:データマネージャ(サブジョブ実行結果受付用SPP)
-
DMN_JM:ジョブマネージャデーモン
-
DMN_NM:ノードマネージャデーモン
-
CMD_MJ:Multiple jobクライアント
6byteの文字列
JP1JobID
JP1/AJS3が管理するジョブ番号です。
情報を出力できない場合は「-」が出力されます。
1〜6byteの文字列
gridjobid
グリッドジョブ識別子です。
情報を出力できない場合は「-」が出力されます。
7byteの文字列
subjobid
サブジョブ識別子です。
情報を出力できない場合は「-」が出力されます。
6byteの文字列
hadoopjobid
Hadoopが管理するジョブ番号です。
情報を出力できない場合は「-」が出力されます。
21byte以上の文字列
pid
プロセスIDです。
1〜10byteの整数
msgid
メッセージ番号です。
10byteの文字列
msg
メッセージテキストです。
最大211byteの文字列
-
(b) トレースログ
トレースログは,トラブルが発生したときにトラブル発生の経緯を調査するために取得するログ情報です。このログ情報は,各ホストに定義する設定ファイルのTRACE_DIRパラメータで指定したディレクトリ下およびuGPS - Managerのインストールディレクトリのトレース出力用ディレクトリ下のugpsmtrc_N.log(Nは整数の通し番号)ファイルに出力されます。なお,ファイルの面数はTRACE_FILE_CNTパラメータで,ファイルサイズはTRACE_FILE_SIZEパラメータで,トレースログの出力レベルはTRACE_LEVELパラメータで指定します。
トレースログには,ユーザサーバ,デーモンおよびコマンドによって,ホストごとに情報が出力されます。
-
トレースログの出力
ラップアラウンド方式でファイルが作成されます。
-
uGPS - Managerの設定ファイルのTRACE_FILE_SIZEパラメータに指定したファイルサイズを超えると,いちばん古いファイルにあるトレース情報が上書きされます。
-
トレースログファイル名は,「ugpsmtrc_N.log(Nは整数の通し番号)」です。Nには,1から昇順に番号が割り当てられます。
-
uGPS - Managerの設定ファイルのTRACE_FILE_CNTパラメータに指定した数のトレースログファイルが作成されます。
-
-
トレースの出力レベル
レベル
基準
出力内容
種別
内容
0
-
システム稼働時に必ず出力される情報
-
性能への影響が無視できる程度の情報
共通
-
内部エラー発生
-
続行できないエラー発生
ユーザサーバ
-
SPP起動/停止
-
RPC送信/受信(データマネージャSPPおよびデータマネージャGWでの非応答RPCは除く)
デーモン
-
Daemon起動/停止
-
UAP開始/終了
コマンド
-
CUP起動/停止
-
RPC送信/受信
-
グリッドジョブの開始/終了
10
-
システム稼働中の再現待ちのときに出力される情報
-
性能への影響が無視できる,または特定業務以外に影響を及ぼさない範囲の情報
共通
−
ユーザサーバ
-
RPC送信/受信(データマネージャSPPおよびデータマネージャGWでの非応答RPC)
-
プロセス間通信の送信/受信
デーモン
-
プロセス間通信の送信/受信
コマンド
−
20
-
ユーザ側での再現テストのときに出力する情報
-
性能への影響はあっても,処理の流れの概略がわかる程度の情報
共通
主要関数の開始/終了
ユーザサーバ
−
デーモン
プロセスの生成/消滅
コマンド
−
30
-
障害調査用
-
すべての情報を出力
共通
-
全関数の開始/終了
-
その他,関数内のロジックの流れが把握できるポイントの情報
ユーザサーバ
−
デーモン
−
コマンド
−
-
(c) 通信ログ
通信ログは,トラブルが発生したときにトラブル発生の経緯を調査するためにuGPS - Viewとの通信情報を取得するログ情報です。このログ情報は,各ホストに定義する設定ファイルのTRACE_DIRパラメータで指定したディレクトリ下のugpsmtrc_dm_N.log(Nは整数の通し番号)ファイルに出力されます。
通信ログは,各サーバで1つのログファイルにデータマネージャSPPから出力されます。
-
通信ログの出力
ラップアラウンド方式でファイルが作成されます。
-
通信ログファイル名は,「ugpsmtrc_dm_N.log(Nは整数の通し番号)」です。Nには,1から昇順に番号が割り当てられます。
-
-
トレースの出力レベル
すべて0として出力されます。
-
通信ログに出力される情報
通信ログには,uGPS - Viewからの要求受信または応答時にメッセージが出力されます。通信ログに出力される情報を次の表に示します。
表5‒16 通信ログに出力される情報 要求の種類
種別
項目名
最大文字数
ジョブ情報取得要求[サブジョブ一覧]
要求
要求ヘッダ情報("GPVSJ-T/1.0")
11(固定)
ジョブ番号
10
ジョブの実行ID
10
スケジューラサービス名
30
実行ホスト名
255
マネージャホスト名
255
ジョブ名(ユニット名)
930
応答
要求ヘッダ情報("GPVSJ-T/1.0")
11(固定)
ジョブ番号
10
ジョブの実行ID
10
スケジューラサービス名
30
取得したグリッドプロパティ識別子
7(固定)
取得したグリッドジョブ識別子
7(固定)
サブジョブ実行結果取得要求
要求
要求ヘッダ情報("GPVER-B/1.0")
11(固定)
グリッドジョブ識別子
7(固定)
サブジョブ識別子
6(固定)
応答
要求ヘッダ情報("GPVER-B/1.0")
11(固定)
グリッドジョブ識別子
7(固定)
サブジョブ識別子
6(固定)
フラグ設定要求
要求
要求ヘッダ情報("GPVFL-T/1.0")
11(固定)
グリッドジョブ識別子
7(固定)
設定するフラグ("ON"/"OFF")
3
フラグを設定するサブジョブ数(16進数で出力)
8
要求
フラグを設定するサブジョブ数分を出力
要求ヘッダ情報("GPVFL-T/1.0")
11(固定)
グリッドジョブ識別子
7(固定)
サブジョブ識別子
6(固定)
応答
要求ヘッダ情報("GPVFL-T/1.0")
11(固定)
設定したフラグ("ON"/"OFF")
3
フラグを設定したサブジョブ数(16進数で出力)
3
グリッドジョブ識別子
7(固定)
単体グリッドジョブ情報取得要求[サブジョブ一覧]
要求
要求ヘッダ情報("GPVUJ-T/1.0")
11(固定)
ジョブ番号
10
ジョブの実行ID
10
スケジューラサービス名
30
実行ホスト名
255
マネージャホスト名
255
ジョブ名(ユニット名)
930
応答
要求ヘッダ情報("GPVUJ-T/1.0")
11(固定)
ジョブ番号
10
ジョブの実行ID
10
スケジューラサービス名
30
採取したグリッドプロパティ識別子
7(固定)
採取したグリッドジョブ識別子
7(固定)
グリッドプロパティ消去要求
要求
要求ヘッダ情報("GPVPR-T /1.0")
11(固定)
グリッドプロパティ識別子
7(固定)
オプション
-
STP:プロパティが停止中の場合だけ消去
-
ALL:プロパティが実行中でも消去
3(固定)
応答
要求ヘッダ情報("GPVPR-T /1.0")
11(固定)
グリッドプロパティ識別子
7(固定)
オプション
-
STP:プロパティが停止中の場合だけ消去
-
ALL:プロパティが実行中でも消去
3(固定)
実行結果
-
ERR:データマネージャでエラー発生。消去に失敗
-
NON:消去対象のプロパティが存在しない
-
RUN:実行中のため消去しなかった
-
DRN:実行中のプロパティを消去
-
DST:停止中のプロパティを消去
-
DIN:INACTのプロパティを消去
-
DER:異常な状態のプロパティを消去
3(固定)
消去対象のジョブ数(16進数で出力)
8
消去成功したジョブ数(16進数で出力)
8
保留設定要求
要求
要求ヘッダ情報("GPVHS-T/1.0")
11(固定)
グリッドジョブ識別子
7
設定する内容("HO"/"MH"/"IN")
2(固定)
要求内容を設定するサブジョブ数(16進数で出力)
8
ジョブ番号
10
ジョブの実行ID
10
スケジューラサービス名
30
実行ホスト名
255
マネージャホスト名
255
ジョブ名(ユニット名)
930
要求
設定するサブジョブ数分を出力
要求ヘッダ情報("GPVHS-T/1.0")
11(固定)
グリッドジョブ識別子
7(固定)
サブジョブ識別子
6(固定)
応答
要求ヘッダ情報("GPVHS -T/1.0")
11(固定)
グリッドジョブ識別子
7(固定)
設定する内容("HO"/"MH"/"IN")
3
要求内容を設定したサブジョブ数(16進数で出力)
8
ジョブ番号
10
ジョブの実行ID
10
スケジューラサービス名
30
-
(d) コマンドログ
コマンドログは,トラブルが発生したときにトラブル発生の経緯を調査するために実行したコマンドの情報を取得するログ情報です。このログ情報は,各ホストに定義する設定ファイルのTRACE_DIRパラメータで指定したディレクトリ下のugpsmtrc_cmd_N.log(Nは整数の通し番号)ファイルに出力されます。uGPSが提供するコマンド(gpdefgenコマンド,gpmgrsetupコマンド,gpdefcloneコマンド,gpdefrmコマンド),[セットアップ]ダイアログボックス,およびgprasgetコマンド(障害情報収集コマンド)の場合は,uGPS - Managerインストールディレクトリのトレース出力用ディレクトリ下のファイルに出力されます。
コマンドログは,各サーバで1つのログファイルに出力されます。
-
コマンドログの出力
ラップアラウンド方式でファイルが作成されます。
-
コマンドログファイル名は,「ugpsmtrc_cmd_N.log(Nは整数の通し番号)」です。Nには,1から昇順に番号が割り当てられます。
-
-
トレースの出力レベル
すべて0として出力されます。
(2) 障害情報収集コマンド
障害情報収集コマンド(gprasget)で取得できる情報を次の表に示します。
採取する情報 |
備考 |
---|---|
メッセージログ |
uGPS - Managerの設定ファイルのLOG_DIRパラメータで指定したディレクトリ配下およびuGPS - Managerのインストールディレクトリのメッセージログ出力用ディレクトリのメッセージログ出力用ディレクトリ配下のファイルを取得します。 |
トレースログ |
uGPS - Managerの設定ファイルのTRACE_DIRパラメータで指定したディレクトリ配下およびuGPS - Managerのインストールディレクトリのトレース出力用ディレクトリのトレース出力用ディレクトリ配下のファイルを取得します。 |
グリッドプロパティ情報ファイル格納ディレクトリ |
グリッドプロパティ情報ファイル格納ディレクトリ配下のファイルを取得します。 |
ジョブマネージャのグリッドジョブステータスファイル格納ディレクトリ |
ジョブマネージャのグリッドジョブステータスファイル格納ディレクトリ/JMSTATUS配下のファイルを取得します。 |
ノードマネージャのグリッドジョブステータスファイル格納ディレクトリ |
ノードマネージャのグリッドジョブステータスファイル格納ディレクトリ/NMSTATUS配下のファイルを取得します。 |
スプールディレクトリ |
uGPS - Managerの設定ファイルのSPOOL_DIRパラメータで指定したディレクトリ配下のファイルを取得します。 |
グリッドクライアントまたはコマンドのRPCのエラーログ |
uGPS - Managerの設定ファイルのCLT_TRC_PATHパラメータで指定したディレクトリ配下のファイルを取得します。 |
通信ログ |
uGPS - Managerの設定ファイルのTRACE_DIRパラメータで指定したディレクトリ配下のファイルを取得します。 |
コマンドログ |
uGPS - Managerの設定ファイルのTRACE_DIRパラメータで指定したディレクトリ配下およびuGPS - Managerのインストールディレクトリのトレース出力用ディレクトリ配下のファイルを取得します。 |
<Windowsの場合> OpenTP1の保守資料 |
gprasgetコマンドの内部でOpenTP1のdcrasgetコマンドを発行し,保守資料を取得します。 |
コマンドの詳細については,「8. コマンド」の「gprasget(障害情報収集コマンド)」を参照してください。
- 注意事項
-
障害情報収集コマンド(gprasget)は,コマンドを実行したホストの情報を収集します。
障害が発生した場合は,グリッドジョブ管理ホストとグリッドプロパティ管理ホストの情報は必ず取得してください。また,実行ノードで障害が発生したときは,該当する実行ノードの情報もあわせて取得してください。