6.2.3 トラブル発生時に採取が必要な資料
トラブルが発生したときに採取が必要な資料を次に示す。
なお,バッチジョブ実行システムでは,採取が必要な資料をバッチジョブ実行システムごとに一括採取するための「資料採取ツール」がある。資料採取ツールは,シェルスクリプト(bjexcollect)で提供している。資料採取ツールの詳細については,「付録C bjexcollectコマンド(障害調査のための資料の一括収集)」を参照のこと。
(1) OSのログ情報
採取が必要なOSのログ情報を次の表に示す。これらの情報は資料採取ツールで採取できる。
情報の種類 |
採取資料 |
|
---|---|---|
種類 |
内容 |
|
基礎情報 |
日付 |
「date」の実行結果 |
システム名称 |
「uname -x」の実行結果 |
|
機種名 |
「uname -M」の実行結果 |
|
CPU数 |
「bindprocessor -q」の実行結果 |
|
物理メモリ量 |
「bootinfo -r」の実行結果 |
|
ランレベル |
「who -r」の実行結果 |
|
OSレベル |
「oslevel」の実行結果 |
|
保守レベル |
「oslevel -rq」の実行結果 |
|
システム定義 |
「genkex」の実行結果 |
|
パッケージの一覧 |
「lslpp -al」の実行結果 |
|
インストール済みの日立製品 |
「/etc/.hitachi/pplistd/pplistd」ファイル |
|
システムパラメータ |
「pstat -T」の実行結果 |
|
カーネルのモード |
「bootinfo -K」の実行結果 |
|
環境変数 |
「/etc/environment」ファイル |
|
共有メモリ情報 |
「/usr/bin/ipcs -a」の実行結果 |
|
ホスト名 |
「/usr/bin/hostname」の実行結果 |
|
プロセス情報 |
プロセス一覧 |
「ps -efl」の実行結果 |
制限値 |
「ulimit -a」の実行結果 |
|
マシンの環境変数 |
「set」の実行結果 |
|
メモリ使用情報 |
システム・ページング・スペース情報 |
「lsps -a」の実行結果 |
ネットワーク使用状況 |
ネットワークステータスの表示 |
|
ネットワークインタフェースのパラメータの表示 |
「ifconfig -a」の実行結果 |
|
エラーログ |
エラーログ情報 |
「errpt -a」の実行結果 |
syslog |
syslogファイル(/var/adm/messagesなど) |
ツールのデフォルトの定義ファイルでは採取しない。ツールのFILESに対象となるsyslogファイルを指定することで採取できる。 |
情報の種類 |
採取資料 |
|
---|---|---|
種類 |
内容 |
|
基礎情報 |
日付 |
「date」の実行結果 |
システム名称 |
「uname -a」の実行結果 |
|
機種名 |
− |
|
CPU数 |
「/proc/cpuinfo」ファイル |
|
物理メモリ量 |
「/proc/meminfo」ファイル |
|
ランレベル |
「who -r」の実行結果 |
|
OSレベル |
「/etc/redhat-release」ファイル |
|
保守レベル |
「/etc/redhat-release」ファイル |
|
システム定義 |
「/sbin/lsmod」の実行結果 |
|
パッケージの一覧 |
「rpm -qa」の実行結果 |
|
インストール済みの日立製品 |
「/etc/.hitachi/pplistd/pplistd」ファイル |
|
システムパラメータ |
「/sbin/sysctl -a」の実行結果 |
|
カーネルのモード |
− |
|
環境変数 |
「/etc/environment」ファイル |
|
共有メモリ情報 |
「/usr/bin/ipcs -a」の実行結果 |
|
ホスト名 |
「/bin/hostname」の実行結果 |
|
プロセス情報 |
プロセス一覧 |
「ps -efl」の実行結果 |
制限値 |
「ulimit -a」の実行結果 |
|
マシンの環境変数 |
「set」の実行結果 |
|
メモリ使用情報 |
システム・ページング・スペース情報 |
「/proc/swaps」ファイル |
ネットワーク使用状況 |
ネットワークステータスの表示 |
|
ネットワークインタフェースのパラメータの表示 |
|
|
エラーログ |
エラーログ情報 |
− |
syslog |
syslogファイル (Linuxの場合は/var/log/message*など) |
ツールのデフォルトの定義ファイルでは採取しない。ツールのFILESに対象となるsyslogファイルを指定することで採取できる。 |
(2) バッチジョブ実行システムの情報
採取が必要なバッチジョブ実行システムの情報を次の表に示す。これらの情報は資料採取ツールで採取できる。また,ネットワーク接続でのトラブルの場合,接続先マシン上のファイルの採取も必要である。
情報の種類 |
採取資料 |
---|---|
バッチジョブ実行システムのファイル情報 |
「/opt/hitachi/bjex」下のディレクトリとファイル一覧 |
バッチジョブ実行システムの稼働に関する情報(ログ以外) |
|
実行ログ |
ツールの定義ファイルのLOG_DIRパラメータで指定されたディレクトリ下のファイルすべて |
トレースログ |
ツールの定義ファイルのTRACE_DIRパラメータで指定されたディレクトリ下のファイルすべて |
起動ログ |
「/opt/hitachi/bjex/system/bjexpd.log」ファイル |
スプールを管理する情報 |
|
JP1/Baseに関する情報 |
次のコマンドの実行結果 /opt/jp1base/bin/jbshostsexport |
JP1/FTPに関する情報※1 |
次のコマンドの実行結果 /opt/jp1_fts/bin/ftshistory /opt/jp1_fts/bin/ftsutil -L /opt/jp1_fts/bin/ftsregcv -v |
coreファイル※2 |
各プロセスの異常終了時にシステムによって次に出力されるファイル
|
注※1 SYSOUTデータのプリントサーバへの転送時の障害には,ツールで採取する情報のほかに,JP1/FTPのトラブルシューティング情報も必要である。JP1/FTPのトラブルシューティング情報については,JP1のマニュアルを参照のこと。
注※2 Linuxの標準の設定ではcoreファイルは出力されない。トラブル要因の初期調査が迅速に行えるように適切なCORE出力設定をすること。
注※3 bjexec起動時のカレントディレクトリは,デフォルトではジョブ実行ユーザがOSにログインしたときのホームディレクトリとなる。ただし,coreファイルの出力先は,OSの設定によって異なるディレクトリに出力するように設定されている場合があるため,ジョブを実行する前にcoreファイルの出力先の設定を確認しておくこと。
また,bjexecのcoreファイルは,ツールのデフォルトの定義ファイル指定では採取しないため,ツールの定義ファイルでCOREキーワードに対象ファイルを指定して採取すること。
(3) バッチジョブ実行システムのプロセス一覧
psコマンドでプロセスの動作状態を確認する。バッチジョブ実行システムのプロセス名は,ジョブコントローラプロセスはbjexec,スプールジョブ転送デーモンプロセスはbjexpdである。
(4) オペレーション内容
トラブル発生時のオペレーションとジョブ定義XMLファイルが必要である。
-
バッチ定義XMLファイル
-
オペレーション内容の詳細
-
トラブル発生時刻
-
マシン構成
各OSのバージョン,ホスト名,JP1/AJS - Manager,JP1/AJS - Agent,PDE,およびJP1/FTPの構成など。
-
再現性の有無
-
その他の情報
コマンド実行時にトラブルが発生した場合は,コマンドに指定した引数。