Hitachi

uCosminexus Batch Job Execution Server 使用の手引


6.2.3 トラブル発生時に採取が必要な資料

トラブルが発生したときに採取が必要な資料を次に示す。

なお,バッチジョブ実行システムでは,採取が必要な資料をバッチジョブ実行システムごとに一括採取するための「資料採取ツール」がある。資料採取ツールは,シェルスクリプト(bjexcollect)で提供している。資料採取ツールの詳細については,「付録C bjexcollectコマンド(障害調査のための資料の一括収集)」を参照のこと。

〈この項の構成〉

(1) OSのログ情報

採取が必要なOSのログ情報を次の表に示す。これらの情報は資料採取ツールで採取できる。

表6‒2 採取が必要なOSのログ情報【AIXの場合】

情報の種類

採取資料

種類

内容

基礎情報

日付

「date」の実行結果

システム名称

「uname -x」の実行結果

機種名

「uname -M」の実行結果

CPU数

「bindprocessor -q」の実行結果

物理メモリ量

「bootinfo -r」の実行結果

ランレベル

「who -r」の実行結果

OSレベル

「oslevel」の実行結果

保守レベル

「oslevel -rq」の実行結果

システム定義

「genkex」の実行結果

パッケージの一覧

「lslpp -al」の実行結果

インストール済みの日立製品

「/etc/.hitachi/pplistd/pplistd」ファイル

システムパラメータ

「pstat -T」の実行結果

カーネルのモード

「bootinfo -K」の実行結果

環境変数

「/etc/environment」ファイル

共有メモリ情報

「/usr/bin/ipcs -a」の実行結果

ホスト名

「/usr/bin/hostname」の実行結果

プロセス情報

プロセス一覧

「ps -efl」の実行結果

制限値

「ulimit -a」の実行結果

マシンの環境変数

「set」の実行結果

メモリ使用情報

システム・ページング・スペース情報

「lsps -a」の実行結果

ネットワーク使用状況

ネットワークステータスの表示

  • 「netstat -an」の実行結果

  • 「netstat -in」の実行結果

ネットワークインタフェースのパラメータの表示

「ifconfig -a」の実行結果

エラーログ

エラーログ情報

「errpt -a」の実行結果

syslog

syslogファイル(/var/adm/messagesなど)

ツールのデフォルトの定義ファイルでは採取しない。ツールのFILESに対象となるsyslogファイルを指定することで採取できる。

表6‒3 採取が必要なOSのログ情報【Linuxの場合】

情報の種類

採取資料

種類

内容

基礎情報

日付

「date」の実行結果

システム名称

「uname -a」の実行結果

機種名

CPU数

「/proc/cpuinfo」ファイル

物理メモリ量

「/proc/meminfo」ファイル

ランレベル

「who -r」の実行結果

OSレベル

「/etc/redhat-release」ファイル

保守レベル

「/etc/redhat-release」ファイル

システム定義

「/sbin/lsmod」の実行結果

パッケージの一覧

「rpm -qa」の実行結果

インストール済みの日立製品

「/etc/.hitachi/pplistd/pplistd」ファイル

システムパラメータ

「/sbin/sysctl -a」の実行結果

カーネルのモード

環境変数

「/etc/environment」ファイル

共有メモリ情報

「/usr/bin/ipcs -a」の実行結果

ホスト名

「/bin/hostname」の実行結果

プロセス情報

プロセス一覧

「ps -efl」の実行結果

制限値

「ulimit -a」の実行結果

マシンの環境変数

「set」の実行結果

メモリ使用情報

システム・ページング・スペース情報

「/proc/swaps」ファイル

ネットワーク使用状況

ネットワークステータスの表示

  • 「netstat -an」の実行結果

  • 「netstat -in」の実行結果

ネットワークインタフェースのパラメータの表示

  • 「/sbin/ifconfig -a」の実行結果

  • 「/sbin/ip addr show」の実行結果

エラーログ

エラーログ情報

syslog

syslogファイル

(Linuxの場合は/var/log/message*など)

ツールのデフォルトの定義ファイルでは採取しない。ツールのFILESに対象となるsyslogファイルを指定することで採取できる。

(凡例)

−:Linuxでは採取されない。

(2) バッチジョブ実行システムの情報

採取が必要なバッチジョブ実行システムの情報を次の表に示す。これらの情報は資料採取ツールで採取できる。また,ネットワーク接続でのトラブルの場合,接続先マシン上のファイルの採取も必要である。

表6‒4 採取が必要なバッチジョブ実行システムの情報

情報の種類

採取資料

バッチジョブ実行システムのファイル情報

「/opt/hitachi/bjex」下のディレクトリとファイル一覧

バッチジョブ実行システムの稼働に関する情報(ログ以外)

  • 「/opt/hitachi/bjex/system」下のファイルすべて

    PIDファイルなど

  • 「/opt/hitachi/bjex/conf」下のファイルすべて

    設定ファイルなど

実行ログ

ツールの定義ファイルのLOG_DIRパラメータで指定されたディレクトリ下のファイルすべて

トレースログ

ツールの定義ファイルのTRACE_DIRパラメータで指定されたディレクトリ下のファイルすべて

起動ログ

「/opt/hitachi/bjex/system/bjexpd.log」ファイル

スプールを管理する情報

  • ツールの定義ファイルのSPOOL_DIRパラメータで指定されたディレクトリ下のスプール管理ファイル

  • ツールの定義ファイルのSPOOL_DIRパラメータで指定されたディレクトリ下のディレクトリとファイル一覧

  • POSIXメッセージキューの状態

JP1/Baseに関する情報

次のコマンドの実行結果

/opt/jp1base/bin/jbshostsexport

JP1/FTPに関する情報※1

次のコマンドの実行結果

/opt/jp1_fts/bin/ftshistory

/opt/jp1_fts/bin/ftsutil -L

/opt/jp1_fts/bin/ftsregcv -v

coreファイル※2

各プロセスの異常終了時にシステムによって次に出力されるファイル

  • bjexpd

    「/opt/hitachi/bjex/system」下,またはスプールディレクトリ下(転送ディレクトリ下を含む)。ファイル格納先は処理状態によって異なる。

  • bjexec

    bjexec起動時のカレントディレクトリ※3

注※1 SYSOUTデータのプリントサーバへの転送時の障害には,ツールで採取する情報のほかに,JP1/FTPのトラブルシューティング情報も必要である。JP1/FTPのトラブルシューティング情報については,JP1のマニュアルを参照のこと。

注※2 Linuxの標準の設定ではcoreファイルは出力されない。トラブル要因の初期調査が迅速に行えるように適切なCORE出力設定をすること。

注※3 bjexec起動時のカレントディレクトリは,デフォルトではジョブ実行ユーザがOSにログインしたときのホームディレクトリとなる。ただし,coreファイルの出力先は,OSの設定によって異なるディレクトリに出力するように設定されている場合があるため,ジョブを実行する前にcoreファイルの出力先の設定を確認しておくこと。

また,bjexecのcoreファイルは,ツールのデフォルトの定義ファイル指定では採取しないため,ツールの定義ファイルでCOREキーワードに対象ファイルを指定して採取すること。

(3) バッチジョブ実行システムのプロセス一覧

psコマンドでプロセスの動作状態を確認する。バッチジョブ実行システムのプロセス名は,ジョブコントローラプロセスはbjexec,スプールジョブ転送デーモンプロセスはbjexpdである。

(4) オペレーション内容

トラブル発生時のオペレーションとジョブ定義XMLファイルが必要である。