9.2.3 運用時の障害の対処方法
運用時に想定される障害と対処方法について説明します。
- <この項の構成>
- (1) リソースブラウザウィンドウで定期照会結果またはサマリデータが参照できない
- (2) リソース収集条件設定ウィンドウまたはリソース収集データ参照ウィンドウが突然終了した
- (3) 収集データが保存されない
- (4) プロセス監視条件設定ウィンドウまたはプロセスモニタウィンドウが突然終了した
- (5) プロセス・サービス監視で監視アプリケーションの状態が認識不能となる
- (6) ユーザリソースの収集を開始すると,収集状態が「延期中」になって収集されない
- (7) サービス監視でアプリケーションの状態が認識不能となる
- (8) リソースの収集を開始すると,収集状態が延期中になり収集されない
- (9) SSOのGUIが起動しない,またはフリーズする
- (10) レポート設定ウィンドウが起動しない
- (11) レポート設定ウィンドウがssorptdデーモンプロセスに接続できない
- (12) レポートが作成されない
- (13) リソース収集機能に関連するGUIまたはコマンドがssocolmngデーモンプロセスに接続できない
- (14) NNMiと連携できない
- (15) プロセス・サービス監視ができない
- (16) カテゴリ名「SSO-Ex」の収集を開始すると,収集状態が延期中になり収集されない
- (17) 上記以外のエラー
(1) リソースブラウザウィンドウで定期照会結果またはサマリデータが参照できない
表示されたメッセージの内容を確認してください。
- エラーがタイムアウトの場合
- SNMPエージェントが正しく動作しているか確認してください。また,SNMP定義ファイル(ssosnmp.conf)のGetコミュニティ名と,SNMPエージェントのGetコミュニティ名が合っているか確認してください。
- エラーがタイムアウト以外の場合
- SNMPエージェントが起動しているか確認してください。
(2) リソース収集条件設定ウィンドウまたはリソース収集データ参照ウィンドウが突然終了した
- ssocolmngデーモンプロセスのログファイル(ssocolmng.log)の内容を確認してください。
- ssocolmngデーモンプロセスが起動しているかをssostatusコマンドで確認し,デーモンプロセスが起動していない場合は起動してから,ウィンドウを再起動してください。
(3) 収集データが保存されない
リソース収集データ参照ウィンドウで収集状態を確認してください。
- 待機中の場合
- 収集開始時刻,または収集時間帯の収集開始時刻に達しているか確認してください。
- 延期中の場合
- SNMPエージェントから「noSuchName」,「genErr」,「timeOut」のSNMPエラーが応答されています。
- ssocolmngデーモンプロセスとssocollectdデーモンプロセスのログファイル(デーモンプロセス名.log)の内容を確認してください。
- SNMPエージェントとのネットワークの接続性を確認してください。
- SNMPエージェントが起動しているか確認してください。
- SNMP定義ファイル(ssosnmp.conf)に,SNMPエージェントのコミュニティ名が正しく設定されているか確認してください。
- 収集完了の場合
- 収集が完了しています。収集を開始してください。
- 収集不可の場合
- SNMPエージェントから「noSuchName」,「genErr」,「timeOut」以外のSNMPエラーが応答されました。または,SNMPエージェントが収集対象のリソースをサポートしていません。
- ssocolmngデーモンプロセスとssocollectdデーモンプロセスのログファイル(デーモンプロセス名.log)の内容を確認してください。
- 監視サーバのSNMPエージェントが収集対象のリソースをサポートしているか確認してください。
(4) プロセス監視条件設定ウィンドウまたはプロセスモニタウィンドウが突然終了した
- ssoapmonデーモンプロセスのログファイル(ssoapmon.log)の内容を確認してください。
- ssoapmonデーモンプロセスが起動しているかを,ssostatusコマンドで確認し,プロセスが起動していない場合は起動してから,ウィンドウを再起動してください。
(5) プロセス・サービス監視で監視アプリケーションの状態が認識不能となる
- 監視サーバでAPMが起動しているかを,apmcheckコマンドで確認し,起動していない場合は,APMを起動してください。
- SNMP定義ファイル(ssosnmp.conf)に,SNMPエージェントのコミュニティ名が正しく設定されているか確認してください。
- SSOとAPM間にファイアウォールがある環境では,SNMPまたはTCPイベントを通過させるように設定してください。各ポート番号の詳細については,「7.3.12 ポート番号定義ファイル(ssoport.conf)」を参照してください。
- 監視サーバのCPU負荷やネットワーク負荷によってSNMP応答が遅延してタイムアウトしている場合は,SNMPの応答監視時間やリトライ回数の設定を見直してください。設定値の変更方法は,「7.3.6 SNMP定義ファイル(ssosnmp.conf)」を参照してください。
- APMでイベント通知発行元アドレス定義ファイル(apmaddr.conf)を使用している場合は,このファイルに記載しているIPアドレスがSSOで監視対象と設定しているエージェント側IPアドレスと一致しているか確認してください。
- インシデントビューに「XXXの監視状態が監視不可になりました。:理由 event lost」と表示され,認識不能となる場合は,次に示すどれかの対処を実施してください(XXXの部分は監視しているアプリケーション名になります)。
- コマンドライン長が長いプロセスを監視したり,1台の監視対象サーバで多数のプロセスを監視したりしている場合は,APMが発行するイベントをTCP通信で通知するようにしてください。設定方法は「7.4.7 イベントTCP通知定義ファイル(apmtcpsend.conf)」を参照してください。
- Windows版の場合,「SNMP Trap サービス(Windows標準のSNMPトラップ受け付けサービス)」を使用しないで,NNMiがSNMPトラップを受け付けるように設定してください。設定方法はNNMiのマニュアルを参照してください。
- SSOとAPMの構成が下記のような場合,APM側からまったくイベントが到達しないで,「XXXの監視状態が監視不可になりました。:理由 event lost」と表示され,監視状態が認識不能になるときは,SSOのssoapmon動作定義ファイル(ssoapmon.def),およびAPMのJP1/Cm2/IGSあて先定義ファイル(apmproxy.conf)を設定してください。
![[図データ]](figure/ss090010.gif)
上記構成の場合,ssoapmon動作定義ファイル(ssoapmon.def)のchange-my-addressに172.16.46.15を設定し,JP1/Cm2/IGSあて先定義ファイル(apmproxy.conf)に{10.1.1.5;172.16.46.15;}と設定してください。詳細については「7.3.7 ssoapmon動作定義ファイル(ssoapmon.def)」および「7.4.3 JP1/Cm2/IGSあて先定義ファイル(apmproxy.conf)」を参照してください。
- イベント遅延定義ファイルを設定してください。設定方法は「7.4.5 イベント遅延定義ファイル(apmdelay.conf)」を参照してください。
(6) ユーザリソースの収集を開始すると,収集状態が「延期中」になって収集されない
- SNMPエージェントとのネットワークの接続性を確認してください。
- SNMPエージェントが起動しているか確認してください。
- SNMP定義ファイル(ssosnmp.conf)に,SNMPエージェントのコミュニティ名が正しく設定されているか確認してください。
- ユーザリソース定義ファイルに定義したMIBオブジェクトをSNMPエージェントがサポートしているか確認してください。
(7) サービス監視でアプリケーションの状態が認識不能となる
プロセスモニタのサービス監視項目が認識不能となっている場合は,監視しているサービス名が正しいかどうか確認してください。サービス名はAPMのapmservlistコマンドで確認できます。
(8) リソースの収集を開始すると,収集状態が延期中になり収集されない
- SSOとESA間にファイアウォールがある環境では,SNMPポート番号が通過するように設定してください。各ポートの詳細については「7.3.12 ポート番号定義ファイル(ssoport.conf)」を参照してください。なお,OracleやWebLogicなどと連携している場合は,その設定に従ったポートに対してファイアウォールに追加設定してください。例えば,OracleやWebLogicのリソース収集でESAとは別のポート番号を使用している場合は,それぞれのポート番号が通過するように設定してください。
- 監視対象エージェントのサーバ負荷やネットワーク負荷によってSNMP応答が遅延しタイムアウトしている場合は,SNMPの応答監視時間,およびリトライ回数を見直してください。設定値の変更方法は,「7.3.6 SNMP定義ファイル(ssosnmp.conf)」を参照してください。
(9) SSOのGUIが起動しない,またはフリーズする
UNIX系OSの場合,日本語入力システムに対応するプロセスが正常に起動しているか確認してください。日本語入力システムに必要なプロセスが起動していないとGUIが正常に起動しなくなる場合があります。
(10) レポート設定ウィンドウが起動しない
- 使用しているのWebブラウザのバージョンを確認してください。
- Webブラウザのテンポラリーファイルを削除後,再起動してください。
(11) レポート設定ウィンドウがssorptdデーモンプロセスに接続できない
- ssorptdデーモンプロセスが起動しているかどうか,ssostatusコマンドで確認してください。起動していない場合は,ssostartコマンドで起動してください。
- ほかのWebブラウザでレポート設定ウィンドウを起動していないか確認してください。
- WebブラウザのホストとSSOが動作しているホスト間で,ssorptポート番号定義ファイル(ssorptport.conf)に定義したポート番号を使用して通信可能かどうかを確認してください。
(12) レポートが作成されない
- 指定したレポート定義ファイルの内容が正しいか確認してください。
- ssorptdデーモンプロセスが起動しているかどうか,ssostatusコマンドで確認してください。起動していない場合は,ssostartコマンドで起動してください。
- レポート出力先のファイル容量に空きがあるかどうかを確認してください。
- レポート定義ファイルで指定した収集サーバで,ssocolmngデーモンプロセスが起動しているかどうかを確認してください。起動していない場合は,ssostartコマンドで起動してください。
(13) リソース収集機能に関連するGUIまたはコマンドがssocolmngデーモンプロセスに接続できない
ssostatusコマンドで表示されるssocolmngデーモンプロセスの状態が「RUNNING」または「DEGENERATING」になっていることを確認してください。
収集対象サーバのホスト名称解決ができない,または遅延する環境で,ssocolmngデーモンプロセスの起動時にssostatusコマンドで表示される状態が「RUNNING*」または「DEGENERATING*」となっている間は,リソース収集機能に関連するGUIおよびコマンドによる操作を受け付けません。そのため,ssostatusコマンドの表示結果が「RUNNING」または「DEGENERATING」と表示されるまで,次に示す操作はしないでください。
- ssostop,ssobackup,ssocolmng,ssocolset,ssocolshow,ssocolstart,ssocolstop,ssodbcheck,ssodbdel,ssodemandrpt,ssoextractlogコマンドの実行
- リソースブラウザウィンドウ,リソース収集条件設定ウィンドウ,リソース収集条件参照ウィンドウ,リソース収集データ参照ウィンドウからの接続
- レポート設定ウィンドウからのレポート作成
(14) NNMiと連携できない
- ssonnmsetupコマンドに指定したNNMiのユーザ名,パスワード,ポート番号が正しいかどうかを確認してください。また,該当するユーザのロールが正しいかどうかを確認してください。
- NNMiが正常に起動していることを確認してください。NNMiの状態は,NNMiのovstatus -vコマンドで確認できます。
- SSOのインシデントがNNMiに登録されているかどうかを確認してください。SSOのインシデントは,NNMiコンソールのインシデントフォームで確認できます。
- SSOが監視しているサーバが,NNMiに検知されている状態であるかどうかを確認してください。NNMiに検知されている状態とは,NNMi上で対象サーバが管理対象または非管理対象であるかに関係なく,ノードとして認識されている状態のことを意味します。
- SSOが監視しているサーバのIPアドレスが,ホスト名に変換できるかどうかを確認してください。
(15) プロセス・サービス監視ができない
- NNMiと連携できることを確認してください(上記(14)を参照してください)。
- 監視サーバがNNMi上で管理対象となっていることを確認してください。
(16) カテゴリ名「SSO-Ex」の収集を開始すると,収集状態が延期中になり収集されない
- SNMPエージェントとのネットワークの接続性を確認してください。
- SNMPエージェントが起動しているか確認してください。
- SNMP定義ファイル(ssosnmp.conf)に,SNMPエージェントのコミュニティ名が正しく設定されているか確認してください。
- カテゴリ名「SSO-Ex」が取得するMIBオブジェクトをSNMPエージェントがサポートしているか確認してください。カテゴリ名「SSO-Ex」が取得するMIBオブジェクトについては,「付録G.3 リソースと収集するMIBオブジェクト」を参照してください。
(17) 上記以外のエラー
障害が発生した場合は,次に示す資料を可能な限り障害発生直後に採取してください。
- 障害発生経緯
- 障害発生経緯に関する下記の情報を問い合わせ先にご提供ください。
- 発生日時(可能な限り,時:分:秒までの詳細日時)
- 実施した操作
- 発生した現象の内容
- 再現性(例:上記操作で毎回発生)
- 環境構成
- 問題に関連する監視マネージャおよび監視サーバ双方に関する下記情報を採取してください。
- OSおよびそのバージョン,適用パッチ,Service Packなど
- インタフェース数と各IPアドレス
- クラスタソフトウェアがある場合,そのネットワーク構成情報
- SSOと関連JP1製品の構成,およびそれぞれのバージョン(例:09-00-01)
- 監視マネージャ-監視サーバ間のNATおよびフィルタリング設定の有無
- UNIXの場合の情報採取
- 表9-1に示す情報を,jp1ssolog.shコマンドおよび手動で採取してください。
- jp1ssolog.shコマンドの文法の詳細については,「6. コマンド」を参照してください。なお,下記のどれかの現象が発生した場合は,-colオプションを指定してコマンドを実行してください。
- リソース収集データ参照ウィンドウ操作時に次の現象が発生した場合
- 収集データ一覧の表示内容が不正である。
- 収集データ詳細ウィンドウからの[収集期間一覧],または[インスタンス一覧]の表示内容が不正である。
- リスト表示ウィンドウに表示されるデータ値が不正である。
- ssoextractlogコマンド実行時に次の現象が発生した場合
- -listオプションを指定して実行したとき,収集データベースの一覧の表示内容が不正である。
- -textオプションを指定して実行したとき,収集データのテキスト出力結果の収集データ値が不正である。
- 該当するデータベースがあるのに,標準エラー出力に「該当するデータベースがありません」と出力されて失敗する。
- レポート設定ウィンドウ操作時に次の現象が発生した場合
- インスタンス一覧の表示内容が不正である。
- レポート作成結果の表,またはグラフ内のデータ値が不正である。
- インスタンス一覧表示,またはレポート作成時に,レポート対象となる収集データがあるのに,「対象となる収集データが存在しません」のメッセージがポップアップ表示されて失敗する。
- ssodemandrptコマンド実行時に次の現象が発生した場合
- レポート作成結果の表,またはグラフ内のデータ値が不正である。
- レポート対象となる収集データがあるのに,標準エラー出力に「対象となる収集データが存在しません」が出力されて失敗する。
表9-1 障害時に採取する情報の一覧(UNIX)
分類 | 採取方法 | 取得資料 |
---|
基本情報 | 手動 | 環境構成図(OS,IPアドレス,インタフェース数,各端末の製品構成とバージョン) |
障害発生経緯のメモ(詳細な発生日時,OS,ホスト名,IPアドレス,実施した操作,どのような現象になったのか) |
OSの情報 | jp1ssolog.sh | 採取ファイル | /etc/hosts |
/etc/nsswitch.conf(存在すれば) |
/etc/services |
/etc/rc.log(存在すれば) |
syslogファイル※1(存在すれば) | HP-UX:/var/adm/syslog/syslog.log* |
Solaris:/var/adm/messages* |
Linux:/var/log/messages* |
/core(存在すれば) |
/etc/.hitachi/pplistd/pplistd |
/etc/.hitachi/.hitachi.log* |
コマンド実行結果 | date |
OSのバージョン情報 | HP-UX:uname -a |
Solaris:showrev |
Linux:uname -a |
ps -elf(時間差で2回採取) |
hostname |
netstat -a |
netstat -an |
netstat -rn |
netstat -i |
set |
env |
空きディスク情報 | HP-UX:bdf |
Solaris:df -k |
Linux:df -k |
適用パッチリスト | HP-UX:swlist -l patch |
Solaris:patchadd -p |
Linux:rpm -qa -last |
SSOの情報 | jp1ssolog.sh | 採取ファイル | /var/opt/CM2/SSO/log配下 |
/etc/opt/CM2/SSO/conf配下 |
/etc/opt/CM2/SSO/report配下 |
/etc/opt/CM2/SSO/uCPSB/CC/web/containers/SSOConsole/logs配下 |
/etc/opt/CM2/SSO/uCPSB/CC/web/containers/SSOConsole/usrconf配下 |
/etc/opt/CM2/SSO/uCPSB/CC/web/containers/SSOConsole/work配下 |
/etc/opt/CM2/SSO/uCPSB/httpsd/conf配下 |
/etc/opt/CM2/SSO/uCPSB/httpsd/logs配下 |
/var/opt/CM2/SSO/auditlog配下 |
/var/opt/CM2/SSO/tmp/ssoclustersetup.log(存在すれば) |
コマンド実行結果 | ssostatus |
ssoapcom -X 4095※2 |
ssocollectd -X 4095※2 |
ssocolmng -X 4095※2 |
ssorprtd -X 4095※2 |
ssotrapd -X 4095※2 |
ssomapstatus -show -all |
インストール ディレクトリ 配下リスト | ls -lRaL /opt/CM2/SSO |
ls -lRaL /etc/opt/CM2/SSO |
ls -lRaL /var/opt/CM2/SSO |
jp1ssolog.sh -colオプション指定時 | /var/opt/CM2/SSO/databases/Coll配下 |
jp1ssolog.sh エージェントのIPアドレスまたはホスト名指定時 | 指定エージェントごとの ping -n 5 の結果 |
NNMiの情報 | 手動 | コマンド実行結果 | ovstatus |
- 注※1
- syslogファイルの出力先がデフォルトではない場合,手動でsyslogファイルを採取してください。
- 注※2
- 対応する各デーモンプロセスが未起動のときは採取できません。
- Windowsの場合の情報採取
- 表9-2に示す情報を,jp1ssolog.batコマンドおよび手動で採取してください。
- jp1ssolog.batコマンドの文法の詳細については,「6. コマンド」を参照してください。なお,下記のどれかの現象が発生した場合は,-colオプションを指定してコマンドを実行してください。
- リソース収集データ参照ウィンドウ操作時に次の現象が発生した場合
- 収集データ一覧の表示内容が不正である。
- 収集データ詳細ウィンドウからの[収集期間一覧],または[インスタンス一覧]の表示内容が不正である。
- リスト表示ウィンドウに表示されるデータ値が不正である。
- ssoextractlogコマンド実行時に次の現象が発生した場合
- -listオプションを指定して実行したとき,収集データベースの一覧の表示内容が不正である。
- -textオプションを指定して実行したとき,収集データのテキスト出力結果の収集データ値が不正である。
- 該当するデータベースがあるのに,標準エラー出力に「該当するデータベースがありません」と出力されて失敗する。
- レポート設定ウィンドウ操作時に次の現象が発生した場合
- インスタンス一覧の表示内容が不正である。
- レポート作成結果の表,またはグラフ内のデータ値が不正である。
- インスタンス一覧表示,またはレポート作成時に,レポート対象となる収集データがあるのに,「対象となる収集データが存在しません」のメッセージがポップアップ表示されて失敗する。
- ssodemandrptコマンド実行時に次の現象が発生した場合
- レポート作成結果の表,またはグラフ内のデータ値が不正である。
- レポート対象となる収集データがあるのに,標準エラー出力に「対象となる収集データが存在しません」が出力されて失敗する。
表9-2 障害時に採取する情報の一覧(Windows)
分類 | 採取方法 | 取得資料 |
---|
基本情報 | 手動 | 環境構成図(OS,IPアドレス,インタフェース数,各端末の製品構成とバージョン) |
障害発生経緯のメモ(詳細な発生日時,OS,ホスト名,IPアドレス,実施した操作,どのような現象になったのか) |
イベントログファイル※1 |
問題レポートとユーザーダンプ※2 |
OSの情報 | jp1ssolog.bat | 採取ファイル | %SystemRoot%¥system32¥drivers¥etc配下 |
drwtsn32.log(存在すれば)※3 |
user.dmp(存在すれば)※3 |
コマンド実行結果 | hostname |
set |
netstat -a |
netstat -aon |
netstat -r |
net start |
ipconfig /all |
レジストリ情報 | HKEY_LOCAL_MACHINE¥SYSTEM¥CurrentControlSet¥Services¥配下 |
HKEY_LOCAL_MACHINE¥SOFTWARE¥Wow6432Node¥HITACHI¥配下 |
tasklist |
msinfo32 |
SSOの情報 | jp1ssolog.bat | 採取ファイル | SSOのインストールフォルダ¥confフォルダ配下 |
SSOのインストールフォルダ¥logフォルダ配下 |
SSOのインストールフォルダ¥reportフォルダ配下 |
SSOのインストールフォルダ¥uCPSB¥CC¥web¥containers¥SSOConsole¥logs配下 |
SSOのインストールフォルダ¥uCPSB¥CC¥web¥containers¥SSOConsole¥usrconf配下 |
SSOのインストールフォルダ¥uCPSB¥CC¥web¥containers¥SSOConsole¥work配下 |
SSOのインストールフォルダ¥uCPSB¥httpsd¥conf配下 |
SSOのインストールフォルダ¥uCPSB¥httpsd¥logs配下 |
SSOのインストールフォルダ¥auditlog配下 |
SSOのインストールフォルダ¥tmp¥ssoclustersetup.log(存在すれば) |
%windir%¥Temp¥HCDINST¥形名.LOG(存在すれば) |
%windir%¥Temp¥jp1cm2sso_installer.log(存在すれば) |
SSOのインストールフォルダ¥uCPSB¥install.log(存在すれば) |
SSOのインストールフォルダ¥uCPSB¥insresult.dat(存在すれば) |
コマンド実行結果 | ssostatus |
ssoapcom -X 4095※4 |
ssocollectd -X 4095※4 |
ssocolmng -X 4095※4 |
ssorptd -X 4095※4 |
ssotrapd -X 4095※4 |
ssomapstatus -show -all |
インストールディレクトリ配下リスト | dir /s SSOのインストールフォルダ |
jp1ssolog.bat -colオプション指定 | SSOのインストールフォルダ¥databases¥Coll配下 |
jp1ssolog.bat エージェントのIPアドレスまたはホスト名指定 | 指定エージェントごとの ping -n 5 の結果 |
NNMiの情報 | 手動 | コマンド実行結果 | ovstatus |
- 注※1
- イベントログファイルの採取方法を次に示します。
- [スタート]メニュー-[設定]-[コントロールパネル]-[管理ツール]-[イベント ビューア]を選択する。
- アプリケーション,セキュリティ,およびシステムをそれぞれ選択し,[操作]メニュー-[イベントに名前を付けて保存]を選択し,[ファイルの種類]で[テキスト(タブ区切り)(*.txt)]にして任意のテキストファイル名で保存する。
- 注※2
- Windows Server 2008の場合は,ワトソンログが存在しないため,資料採取コマンドでdrwtsn32.logとuser.dmpを採取できません。したがって,デーモンプロセスがアプリケーションエラーで停止した場合は問題レポートを,コマンドプロセスがアプリケーションエラーで停止した場合はユーザーダンプを手動で採取します。
- 問題レポートおよびユーザーダンプの採取方法を次に示します。
- 問題レポートの採取方法
- Windowsの[ファイル名を指定して実行]でテキストボックスに「wercon」と入力し,[OK]ボタンをクリックする。
[問題のレポートと解決策]ウィンドウが表示されます。
- 左側の領域で[問題の履歴の表示]をクリックする。
問題の履歴一覧が表示されます。
- 該当する問題をダブルクリックする。
問題レポートの詳細が表示されます。
- [これらのファイルの一時的コピーを表示します]をクリックする。
新しいウィンドウが開くので,ウィンドウ内に表示されたファイルを採取します。
- ユーザーダンプの採取方法
- エラーダイアログボックスが表示されている状態で,次の操作を実施します。
- タスクマネージャを起動する。
- [タスクマネージャ]ダイアログボックスの[プロセス]タブをクリックする。
- アプリケーションエラーで停止したプロセス名を右クリックし,[ダンプファイルの作成]を選択する。
ユーザーダンプの出力先パスを示すダイアログボックスが表示されるので,ダイアログボックスに表示されたユーザーダンプの出力先パスからファイルを採取します。
- 注※3
- Windows Server 2008の場合は採取できません。
- 注※4
- 対応する各デーモンプロセスが未起動のときは採取できません。