Hitachi

uCosminexus Grid Processing Server 使用の手引


5.8.2 各種資料を用いたトラブル対処の方法

プログラムが異常終了した場合などに,各種資料からその原因を解明するための手段には,次の2つがあります。

〈この項の構成〉

(1) メッセージログ情報およびトレース情報

メッセージログ情報およびトレース情報の格納先とファイル名を次の表に示します。Multiple jobクライアントについては,「2.7.8 メッセージログの出力」を参照してください。

表5‒15 メッセージログ情報およびトレース情報の格納先とファイル名

種類

出力元のプロセス

使用する部品

格納先

ファイル名

メッセージログ

  • ジョブマネージャ

  • ノードマネージャ

  • データマネージャ

  • グリッドクライアント

  • ジョブマネージャデーモン

  • ノードマネージャデーモン

HULALib

  • uGPS - Managerの設定ファイルのLOG_DIRパラメータでの指定ディレクトリ

  • uGPS - Managerのインストールディレクトリのメッセージログ出力用ディレクトリ

    LinuxまたはAIXの場合:/opt/hitachi/ugpsm/log

    Windowsの場合:<uGPS - Managerのインストール先ディレクトリ>\log

  • ugpsmlog.log

  • ugpsmlog_N.log

トレースログ

HNTRLib2

  • uGPS - Managerの設定ファイルのTRACE_DIRパラメータでの指定ディレクトリ

  • uGPS - Managerのインストールディレクトリのトレース出力用ディレクトリ

    LinuxまたはAIXの場合:/opt/hitachi/ugpsm/trace

    Windowsの場合:<uGPS - Managerのインストール先ディレクトリ>\trace

ugpsmtrc_N.log

コマンドログ

  • コマンド

HNTRLib2

  • uGPS - Managerの設定ファイルのTRACE_DIRパラメータでの指定ディレクトリ

  • uGPS - Managerのインストールディレクトリのトレース出力用ディレクトリ

    LinuxまたはAIXの場合:/opt/hitachi/ugpsm/trace

    Windowsの場合:<uGPS - Managerのインストール先ディレクトリ>\trace

ugpsmtrc_cmd_N.log

通信ログ

  • データマネージャ

HNTRLib2

uGPS - Managerの設定ファイルのTRACE_DIRパラメータでの指定ディレクトリ

ugpsmtrc_dm_N.log

<Windowsの場合>

OpenTP1の保守資料

  • システムサーバ

  • ユーザサーバ

%DCDIR%ディレクトリの情報など(gprasgetコマンドで採取)

prclog1など

(a) メッセージログ

メッセージログは,グリッドジョブの実行履歴の監視や,問題が発生したときの最初の切り分けのために参照するシステム管理者向けのログ情報です。このログ情報は,各ホストに定義する設定ファイルのLOG_DIRパラメータで指定したディレクトリ下およびuGPS - Managerのインストールディレクトリのメッセージログ出力用ディレクトリ下のugpsmlog.logファイルに出力されます。

メッセージログには,次の図に示すように,ホストごとに情報が出力されます。

図5‒14 メッセージログに出力される情報

[図データ]

メッセージログの出力

メッセージログは,uGPS - Managerの設定ファイル(Multiple jobクライアントの場合はmj.conf設定ファイル)のLOG_DIRパラメータで指定したディレクトリにCSV形式で出力されます。

メッセージログのバックアップ

シフト方式でローテーションが行われて,バックアップファイルが作成されます。

  • uGPS - Managerの設定ファイル(Multiple jobクライアントの場合はmj.conf設定ファイル)のLOG_FILE_SIZEパラメータに指定したファイルサイズを超える直前に,メッセージログのファイル名を変更してバックアップファイルを作成し,新たにメッセージログを作成して出力を継続します。

  • バックアップのファイル名は,「ugpsmlog_N.log(Nは整数の通し番号)(Multiple jobクライアントの場合はmjlog_N.log(Nは整数))」です。バックアップファイルの作成時,すでにバックアップファイルが存在する場合は,すべてのバックアップファイル名を変更します。Nには,新しいバックアップファイルから昇順に,1からの番号が割り当てられます。

  • 最大でuGPS - Managerの設定ファイル(Multiple jobクライアントの場合はmj.conf設定ファイル)のLOG_FILE_CNTパラメータに指定された面数のバックアップファイルが作成されます。バックアップファイルの最大面数を超えた場合は,いちばん古いバックアップファイルを削除します。

uGPS - Managerのメッセージログの形式
seqnum=aa...aa, date=bb...bb, pgmid=cc...cc, JP1JobID=dd...dd, gridjobid=ee...ee, subjobid=ff...ff, pid=gg...gg, msgid=hh...hh, msg=”ii...ii”
Multiple jobクライアントのメッセージログの形式
seqnum=aa...aa, date=bb...bb, pgmid=cc...cc, JP1JobID=dd...dd, hadoopjobid=ee...ee, pid=ff...ff, msgid gg...gg, msg=hh...hh

行の終端は「LF(0x0A)」です。

出力される項目の意味と出力形式を示します。

項目

意味

形式

seqnum

プロセスごとの通し番号が出力されます。

1〜10byteの整数

date

メッセージログを出力した日時です。

UTCからのオフセット値を「+hh:mm」で出力します。UTCと同じ場合は「Z」を出力します。

24byteまたは29byte

YYYY-MM-DDThh:mm:ss.sssTZD

TZD:タイムゾーン識別子

pgmid

メッセージ出力元の種別が次の値で出力されます。

  • CMD_CM:コマンド

  • CMD_GC:グリッドクライアント

  • SRV_JM:ジョブマネージャ

  • SRV_NM:ノードマネージャ

  • SRV_DM:データマネージャ

  • SRV_GW:データマネージャ(サブジョブ実行結果受付用SPP)

  • DMN_JM:ジョブマネージャデーモン

  • DMN_NM:ノードマネージャデーモン

  • CMD_MJ:Multiple jobクライアント

6byteの文字列

JP1JobID

JP1/AJS3が管理するジョブ番号です。

情報を出力できない場合は「-」が出力されます。

1〜6byteの文字列

gridjobid

グリッドジョブ識別子です。

情報を出力できない場合は「-」が出力されます。

7byteの文字列

subjobid

サブジョブ識別子です。

情報を出力できない場合は「-」が出力されます。

6byteの文字列

hadoopjobid

Hadoopが管理するジョブ番号です。

情報を出力できない場合は「-」が出力されます。

21byte以上の文字列

pid

プロセスIDです。

1〜10byteの整数

msgid

メッセージ番号です。

10byteの文字列

msg

メッセージテキストです。

最大211byteの文字列

(b) トレースログ

トレースログは,トラブルが発生したときにトラブル発生の経緯を調査するために取得するログ情報です。このログ情報は,各ホストに定義する設定ファイルのTRACE_DIRパラメータで指定したディレクトリ下およびuGPS - Managerのインストールディレクトリのトレース出力用ディレクトリ下のugpsmtrc_N.log(Nは整数の通し番号)ファイルに出力されます。なお,ファイルの面数はTRACE_FILE_CNTパラメータで,ファイルサイズはTRACE_FILE_SIZEパラメータで,トレースログの出力レベルはTRACE_LEVELパラメータで指定します。

トレースログには,ユーザサーバ,デーモンおよびコマンドによって,ホストごとに情報が出力されます。

  • トレースログの出力

    ラップアラウンド方式でファイルが作成されます。

    • uGPS - Managerの設定ファイルのTRACE_FILE_SIZEパラメータに指定したファイルサイズを超えると,いちばん古いファイルにあるトレース情報が上書きされます。

    • トレースログファイル名は,「ugpsmtrc_N.log(Nは整数の通し番号)」です。Nには,1から昇順に番号が割り当てられます。

    • uGPS - Managerの設定ファイルのTRACE_FILE_CNTパラメータに指定した数のトレースログファイルが作成されます。

  • トレースの出力レベル

    レベル

    基準

    出力内容

    種別

    内容

    0

    • システム稼働時に必ず出力される情報

    • 性能への影響が無視できる程度の情報

    共通

    • 内部エラー発生

    • 続行できないエラー発生

    ユーザサーバ

    • SPP起動/停止

    • RPC送信/受信(データマネージャSPPおよびデータマネージャGWでの非応答RPCは除く)

    デーモン

    • Daemon起動/停止

    • UAP開始/終了

    コマンド

    • CUP起動/停止

    • RPC送信/受信

    • グリッドジョブの開始/終了

    10

    • システム稼働中の再現待ちのときに出力される情報

    • 性能への影響が無視できる,または特定業務以外に影響を及ぼさない範囲の情報

    共通

    ユーザサーバ

    • RPC送信/受信(データマネージャSPPおよびデータマネージャGWでの非応答RPC)

    • プロセス間通信の送信/受信

    デーモン

    • プロセス間通信の送信/受信

    コマンド

    20

    • ユーザ側での再現テストのときに出力する情報

    • 性能への影響はあっても,処理の流れの概略がわかる程度の情報

    共通

    主要関数の開始/終了

    ユーザサーバ

    デーモン

    プロセスの生成/消滅

    コマンド

    30

    • 障害調査用

    • すべての情報を出力

    共通

    • 全関数の開始/終了

    • その他,関数内のロジックの流れが把握できるポイントの情報

    ユーザサーバ

    デーモン

    コマンド

    (凡例)−:該当しません。

(c) 通信ログ

通信ログは,トラブルが発生したときにトラブル発生の経緯を調査するためにuGPS - Viewとの通信情報を取得するログ情報です。このログ情報は,各ホストに定義する設定ファイルのTRACE_DIRパラメータで指定したディレクトリ下のugpsmtrc_dm_N.log(Nは整数の通し番号)ファイルに出力されます。

通信ログは,各サーバで1つのログファイルにデータマネージャSPPから出力されます。

  • 通信ログの出力

    ラップアラウンド方式でファイルが作成されます。

    • 通信ログファイル名は,「ugpsmtrc_dm_N.log(Nは整数の通し番号)」です。Nには,1から昇順に番号が割り当てられます。

  • トレースの出力レベル

    すべて0として出力されます。

  • 通信ログに出力される情報

    通信ログには,uGPS - Viewからの要求受信または応答時にメッセージが出力されます。通信ログに出力される情報を次の表に示します。

    表5‒16 通信ログに出力される情報

    要求の種類

    種別

    項目名

    最大文字数

    ジョブ情報取得要求[サブジョブ一覧]

    要求

    要求ヘッダ情報("GPVSJ-T/1.0")

    11(固定)

    ジョブ番号

    10

    ジョブの実行ID

    10

    スケジューラサービス名

    30

    実行ホスト名

    255

    マネージャホスト名

    255

    ジョブ名(ユニット名)

    930

    応答

    要求ヘッダ情報("GPVSJ-T/1.0")

    11(固定)

    ジョブ番号

    10

    ジョブの実行ID

    10

    スケジューラサービス名

    30

    取得したグリッドプロパティ識別子

    7(固定)

    取得したグリッドジョブ識別子

    7(固定)

    サブジョブ実行結果取得要求

    要求

    要求ヘッダ情報("GPVER-B/1.0")

    11(固定)

    グリッドジョブ識別子

    7(固定)

    サブジョブ識別子

    6(固定)

    応答

    要求ヘッダ情報("GPVER-B/1.0")

    11(固定)

    グリッドジョブ識別子

    7(固定)

    サブジョブ識別子

    6(固定)

    フラグ設定要求

    要求

    要求ヘッダ情報("GPVFL-T/1.0")

    11(固定)

    グリッドジョブ識別子

    7(固定)

    設定するフラグ("ON"/"OFF")

    3

    フラグを設定するサブジョブ数(16進数で出力)

    8

    要求

    フラグを設定するサブジョブ数分を出力

    要求ヘッダ情報("GPVFL-T/1.0")

    11(固定)

    グリッドジョブ識別子

    7(固定)

    サブジョブ識別子

    6(固定)

    応答

    要求ヘッダ情報("GPVFL-T/1.0")

    11(固定)

    設定したフラグ("ON"/"OFF")

    3

    フラグを設定したサブジョブ数(16進数で出力)

    3

    グリッドジョブ識別子

    7(固定)

    単体グリッドジョブ情報取得要求[サブジョブ一覧]

    要求

    要求ヘッダ情報("GPVUJ-T/1.0")

    11(固定)

    ジョブ番号

    10

    ジョブの実行ID

    10

    スケジューラサービス名

    30

    実行ホスト名

    255

    マネージャホスト名

    255

    ジョブ名(ユニット名)

    930

    応答

    要求ヘッダ情報("GPVUJ-T/1.0")

    11(固定)

    ジョブ番号

    10

    ジョブの実行ID

    10

    スケジューラサービス名

    30

    採取したグリッドプロパティ識別子

    7(固定)

    採取したグリッドジョブ識別子

    7(固定)

    グリッドプロパティ消去要求

    要求

    要求ヘッダ情報("GPVPR-T /1.0")

    11(固定)

    グリッドプロパティ識別子

    7(固定)

    オプション

    • STP:プロパティが停止中の場合だけ消去

    • ALL:プロパティが実行中でも消去

    3(固定)

    応答

    要求ヘッダ情報("GPVPR-T /1.0")

    11(固定)

    グリッドプロパティ識別子

    7(固定)

    オプション

    • STP:プロパティが停止中の場合だけ消去

    • ALL:プロパティが実行中でも消去

    3(固定)

    実行結果

    • ERR:データマネージャでエラー発生。消去に失敗

    • NON:消去対象のプロパティが存在しない

    • RUN:実行中のため消去しなかった

    • DRN:実行中のプロパティを消去

    • DST:停止中のプロパティを消去

    • DIN:INACTのプロパティを消去

    • DER:異常な状態のプロパティを消去

    3(固定)

    消去対象のジョブ数(16進数で出力)

    8

    消去成功したジョブ数(16進数で出力)

    8

    保留設定要求

    要求

    要求ヘッダ情報("GPVHS-T/1.0")

    11(固定)

    グリッドジョブ識別子

    7

    設定する内容("HO"/"MH"/"IN")

    2(固定)

    要求内容を設定するサブジョブ数(16進数で出力)

    8

    ジョブ番号

    10

    ジョブの実行ID

    10

    スケジューラサービス名

    30

    実行ホスト名

    255

    マネージャホスト名

    255

    ジョブ名(ユニット名)

    930

    要求

    設定するサブジョブ数分を出力

    要求ヘッダ情報("GPVHS-T/1.0")

    11(固定)

    グリッドジョブ識別子

    7(固定)

    サブジョブ識別子

    6(固定)

    応答

    要求ヘッダ情報("GPVHS -T/1.0")

    11(固定)

    グリッドジョブ識別子

    7(固定)

    設定する内容("HO"/"MH"/"IN")

    3

    要求内容を設定したサブジョブ数(16進数で出力)

    8

    ジョブ番号

    10

    ジョブの実行ID

    10

    スケジューラサービス名

    30

(d) コマンドログ

コマンドログは,トラブルが発生したときにトラブル発生の経緯を調査するために実行したコマンドの情報を取得するログ情報です。このログ情報は,各ホストに定義する設定ファイルのTRACE_DIRパラメータで指定したディレクトリ下のugpsmtrc_cmd_N.log(Nは整数の通し番号)ファイルに出力されます。uGPSが提供するコマンド(gpdefgenコマンド,gpmgrsetupコマンド,gpdefcloneコマンド,gpdefrmコマンド),[セットアップ]ダイアログボックス,およびgprasgetコマンド(障害情報収集コマンド)の場合は,uGPS - Managerインストールディレクトリのトレース出力用ディレクトリ下のファイルに出力されます。

コマンドログは,各サーバで1つのログファイルに出力されます。

  • コマンドログの出力

    ラップアラウンド方式でファイルが作成されます。

    • コマンドログファイル名は,「ugpsmtrc_cmd_N.log(Nは整数の通し番号)」です。Nには,1から昇順に番号が割り当てられます。

  • トレースの出力レベル

    すべて0として出力されます。

(2) 障害情報収集コマンド

障害情報収集コマンド(gprasget)で取得できる情報を次の表に示します。

表5‒17 障害情報収集コマンドで取得できる情報

採取する情報

備考

メッセージログ

uGPS - Managerの設定ファイルのLOG_DIRパラメータで指定したディレクトリ配下およびuGPS - Managerのインストールディレクトリのメッセージログ出力用ディレクトリのメッセージログ出力用ディレクトリ配下のファイルを取得します。

トレースログ

uGPS - Managerの設定ファイルのTRACE_DIRパラメータで指定したディレクトリ配下およびuGPS - Managerのインストールディレクトリのトレース出力用ディレクトリのトレース出力用ディレクトリ配下のファイルを取得します。

グリッドプロパティ情報ファイル格納ディレクトリ

グリッドプロパティ情報ファイル格納ディレクトリ配下のファイルを取得します。

ジョブマネージャのグリッドジョブステータスファイル格納ディレクトリ

ジョブマネージャのグリッドジョブステータスファイル格納ディレクトリ/JMSTATUS配下のファイルを取得します。

ノードマネージャのグリッドジョブステータスファイル格納ディレクトリ

ノードマネージャのグリッドジョブステータスファイル格納ディレクトリ/NMSTATUS配下のファイルを取得します。

スプールディレクトリ

uGPS - Managerの設定ファイルのSPOOL_DIRパラメータで指定したディレクトリ配下のファイルを取得します。

グリッドクライアントまたはコマンドのRPCのエラーログ

uGPS - Managerの設定ファイルのCLT_TRC_PATHパラメータで指定したディレクトリ配下のファイルを取得します。

通信ログ

uGPS - Managerの設定ファイルのTRACE_DIRパラメータで指定したディレクトリ配下のファイルを取得します。

コマンドログ

uGPS - Managerの設定ファイルのTRACE_DIRパラメータで指定したディレクトリ配下およびuGPS - Managerのインストールディレクトリのトレース出力用ディレクトリ配下のファイルを取得します。

<Windowsの場合>

OpenTP1の保守資料

gprasgetコマンドの内部でOpenTP1のdcrasgetコマンドを発行し,保守資料を取得します。

コマンドの詳細については,「8. コマンド」の「gprasget(障害情報収集コマンド)」を参照してください。

注意事項

障害情報収集コマンド(gprasget)は,コマンドを実行したホストの情報を収集します。

障害が発生した場合は,グリッドジョブ管理ホストとグリッドプロパティ管理ホストの情報は必ず取得してください。また,実行ノードで障害が発生したときは,該当する実行ノードの情報もあわせて取得してください。