19.8.3 一般的なHAのトラブルシューティング
- 〈この項の構成〉
(1) リソースをホストするサブシステムプロセスが予期せず停止する
Windows Server 2016オペレーティングシステムで,HAクラスタリソースを起動すると,リソースをホストするサブシステム(rhs.exe)プロセスが予期せずに停止します。
この問題の詳細については,次のWebサイトを参照してください。
http://support.microsoft.com/kb/978527
- 重要
NNMiリソースを実行するときは,必ず,リソースグループに固有の別個のリソースモニタ(rhs.exe)で実行してください。
(2) 製品の監視タイムアウト
システムログに,次の例のようなメッセージが含まれます。
VCS ERROR V-16-2-13027 Thread(...) Resource(<resource group>-app) - monitor procedure did not complete within the expected time.
このメッセージは,製品がVeritas Cluster ServerまたはSymantec Cluster Serverに設定されたタイムアウト値の範囲内でリソースを監視できなかったことを示しています。
Veritas Cluster ServerまたはSymantec Cluster Serverのデフォルトで,タイムアウトは60秒が適用されます。
Veritas Cluster ServerまたはSymantec Cluster Serverに設定されたタイムアウト値を変更するには,次のコマンドを,次の順番で,実行します。
/opt/VRTSvcs/bin/haconf -makerw /opt/VRTSvcs/bin/hares -override <resource_group>-app MonitorTimeout /opt/VRTSvcs/bin/hares -modify <resource_group>-app MonitorTimeout <value in seconds> /opt/VRTSvcs/bin/haconf -dump -makero
(3) アクティブなクラスタノードのログファイルが更新されない
これは正常です。ログファイルは,共有ディスクにリダイレクトされているため,このような状況になります。
NNMiの場合は,ov.confファイル内のHA_NNM_LOG_DIRで指定された場所にあるログファイルを調べてください。
(4) HAリソースグループが特定のクラスタノードでは起動できない
nnmhargconfigure.ovplコマンド,またはnnmhastartrg.ovplコマンドでNNMi HAリソースグループを正常に起動/停止/切り替えできない場合は,次の情報を調べてください。
WSFCの場合
−フェイルオーバークラスタ管理で,リソースグループおよびそれを構成するリソースの状態を調べてください。
−イベントビューアのログにエラーが記録されていないか調べてください。
VCSまたはSCSの場合
−/opt/VRTSvcs/bin/hares -stateを実行して,リソースの状態を調べます。
−障害が発生しているリソースでは,障害が発生しているリソース用の/var/VRTSvcs/log/<resource>.logファイルを調べます。リソースは,IP*.log,Mount*.log,Volume*.logなどのエージェントタイプで指定します。
原因となっているリソースを特定できない場合は,HA製品のコマンドを使って,HAリソースグループを手動で起動します。
共有ディスクをマウントする。
ネットワークインタフェースに仮想ホストを割り当てる。
WSFCの場合
−フェイルオーバークラスタ管理を起動します。
−リソースグループを展開します。
−[<resource_group>-ip]を右クリックして,[このリソースをオンラインにする]をクリックします。
VCSまたはSCSの場合
/opt/VRTSvcs/bin/hares -online <resource_group>-ip -sys <local_hostname>
HAリソースグループを起動する。
例:
Windows:%NnmInstallDir%misc\nnm\ha\nnmhastartrg.ovpl NNM -start <resource_group>
Linux:$NnmInstallDir/misc/nnm/ha/nnmhastartrg.ovpl NNM -start <resource_group>
リターンコード0は,NNMiを正常に起動できたことを意味します。
リターンコード1は,NNMiを正常に起動できなかったことを意味します。
(5) 「システム エラー XXXXが発生しました」が表示された(Windowsの場合)
システム(OSやクラスタソフト)のエラーが発生している場合があります。詳しくはOSやクラスタソフトのマニュアルなどを確認してください。
エラーの例:WSFCでのエラー発生例について説明します。
例「システム エラー 5054 が発生しました (0x000013be)。クラスタ ネットワークが無効です。」
NNMi用のIPアドレスに,ハートビート用の内部用ネットワークのIPアドレスを指定した場合,IPアドレスリソースの作成のため実行したcluster.exeコマンドで上記のエラーが発生します。
例「システム エラー 5057 が発生しました (0x000013c1)。そのクラスタ IP アドレスは既に使われています。」
NNMi用のIPアドレスに,既に使われているIPアドレスを指定した場合, IPアドレスリソースの作成のため実行したcluster.exeコマンドで上記のエラーが発生します。
対処:システムエラーの内容について確認し,問題を対策してください。上記の例のようにNNMi用のIPアドレスの指定が適切でない場合は,使用するIPアドレスの見直しを行ってください。