高信頼化システム監視機能 HAモニタ Linux(R)(x86)編
目次
用語
索引
前へ
2 / 406
次へ
表紙
前書き
変更内容
はじめに
第1編 概要
1. HAモニタの概要
1.1 HAモニタの目的
1.2 系切り替え
1.2.1 系
1.2.2 系切り替えの流れ
1.2.3 サーバ
1.2.4 HAモニタが検出する障害
1.3 系切り替えの種類
1.3.1 自動系切り替え
1.3.2 計画系切り替え
1.3.3 強制系切り替え
1.4 系切り替えの方式
1.5 HAモニタを適用したシステム形態
1.5.1 C/Sシステム形態
1.5.2 FEP形態
1.5.3 分散処理システム形態
1.6 HAモニタの動作環境
1.6.1 必要なハードウェア
1.6.2 必要なソフトウェア
2. HAモニタを使用した系切り替え
2.1 系切り替え構成
2.1.1 1:1系切り替え構成
2.1.2 相互系切り替え構成
2.1.3 2:1系切り替え構成
2.1.4 複数スタンバイ構成
2.1.5 クラスタ型系切り替え構成
2.2 障害検出から系切り替えまでの流れ
2.2.1 サーバ障害時の系切り替え
2.2.2 系障害時の系切り替え
2.3 HAモニタによる障害検出
2.3.1 HAモニタが系切り替えをする条件
2.3.2 サーバ障害の検出(サーバモードの場合)
2.3.3 サーバ障害の検出(モニタモードの場合)
2.3.4 系障害の検出
2.3.5 系のリセット
2.3.6 共有ディスクのSCSIリザーブ
2.3.7 LANの通信可否による系切り替え制御機能
2.3.8 ハイブリッドフェンシング
2.4 共有リソースの引き継ぎ
2.4.1 引き継げるリソースと単位
2.4.2 共有ディスクの引き継ぎ
2.4.3 ファイルシステムの引き継ぎ
2.4.4 LANの引き継ぎ
第2編 解説
3. HAモニタで使用できる機能
3.1 HAモニタで使用できる機能一覧
3.2 サーバの制御のための機能
3.2.1 モニタモードのサーバの監視(実行サーバの場合)
3.2.2 モニタモードのサーバの監視(待機サーバの場合)
3.2.3 サーバのグループ化による連動系切り替え
3.2.4 サーバの切り替え順序制御
3.2.5 複数の待機系を配置するマルチスタンバイ
3.2.6 系切り替え後の負荷集中を避けるサーバの排他制御
3.2.7 系切り替え時の起動リトライ
3.2.8 JP1と連携したシステム運用
3.2.9 実行サーバレスモードでの系切り替え
3.3 系の制御のための機能
3.3.1 系の同時リセットの防止
3.3.2 複数系間の同時リセットの防止
3.3.3 系の二重リセットの防止
3.3.4 系のリセットの抑止
3.3.5 系のペアダウンによる系切り替え
3.3.6 他系のOSパニック検知
3.3.7 仮想化環境での物理パーティションリセット機能
3.3.8 N+Mコールドスタンバイ構成での系切り替え
3.4 リソースの監視のための機能
3.4.1 LANの監視および障害時の自動系切り替え
3.4.2 ディスクの監視
3.5 共有リソースの制御のための機能
3.5.1 リソースサーバを使用した共有リソースの共用
3.5.2 サーバやHAモニタの状態変化時のコマンド発行
3.5.3 共有リソース接続失敗時のサーバの起動中止
3.5.4 共有リソース引き継ぎのタイムアウト
3.5.5 共有リソースの切り離し順序指定
3.5.6 共有リソースの動的変更
3.6 プログラムの制御のための機能(モニタモード)
3.6.1 UAPの監視
3.7 HAモニタ Extensionの機能
3.7.1 サーバの最大数の変更
3.7.2 系の最大数の変更
4. システムの管理
4.1 サーバの管理
4.1.1 HAモニタによるサーバの起動制御
4.1.2 HAモニタによるサーバの停止制御
4.1.3 サーバの状態遷移
4.1.4 サーバの監視コマンドの制御
4.1.5 サーバの切り替え順序制御をする場合の処理の流れ
4.2 系の管理
4.2.1 系のリセットをする系の決定方法
4.2.2 両系が障害を同時に検出した場合の系切り替え
4.2.3 複数の待機系がある場合の系のリセット
4.2.4 系のリセットに失敗した場合の動作
4.3 共有リソースの管理
4.3.1 共有ディスクの管理
4.3.2 共有ディスクの管理(HA Boosterを使用する場合)
4.3.3 ファイルシステムの管理
4.3.4 LANの管理
4.3.5 共有リソースの状態一覧
4.4 サーバをグループ化する場合のサーバの管理
4.4.1 連動系切り替え時のサーバの切り替え種別
4.4.2 グループ化したサーバの系切り替え制御
4.5 マルチスタンバイ機能を使用する場合のサーバと系の管理
4.5.1 系障害の検出(マルチスタンバイ)
4.5.2 系のリセットに失敗した場合の動作(マルチスタンバイ)
4.5.3 サーバの起動制御・停止制御(マルチスタンバイ)
4.6 リソースサーバの管理
4.6.1 リソースサーバを使用した系切り替え
4.6.2 リソースサーバを使用した共有リソースとの接続・切り離しの流れ
4.6.3 リソースサーバの状態の決定方法
4.7 プログラムの管理(モニタモード)
4.7.1 UAPの監視制御
4.7.2 プログラムの再起動制御
4.7.3 プログラムの状態遷移
4.7.4 UAP監視時の処理の流れ
4.8 処理の流れ
4.8.1 サーバの起動処理の流れ
4.8.2 サーバの停止処理の流れ
4.8.3 サーバ障害時の系切り替え処理の流れ
4.8.4 系障害時の系切り替え処理の流れ
4.8.5 サーバ障害時の系切り替え失敗処理の流れ
4.8.6 系障害時の系切り替え失敗処理の流れ
4.8.7 共有リソースの切り離しを接続時と逆順にする場合の処理の流れ
4.8.8 系切り替え時の障害での起動リトライ処理の流れ
4.8.9 ハイブリッドフェンシングを使用した場合の処理の流れ
第3編 導入・運用
5. HAモニタの導入とシステムの設計
5.1 導入と設計の流れ
5.2 系切り替え構成の検討
5.2.1 系切り替え構成の違い
5.2.2 構成設計時の考慮点
5.2.3 系の最大数を変更する場合の考慮点(HAモニタ Extension使用時)
5.2.4 仮想化環境を系切り替え構成にする場合の考慮点(日立サーバ論理分割機構(Virtage)使用時)
5.2.5 仮想化環境を系切り替え構成にする場合の考慮点(VMware ESXi使用時)
5.3 サーバ構成の検討
5.3.1 系切り替えをする単位(サーバ)の決定
5.3.2 複数のサーバを使用する場合の考慮点
5.4 リソース構成の検討
5.4.1 必要なリソースとリソース数
5.4.2 必要なIPアドレスとポート番号
5.4.3 リソースの共用方法の考え方
5.4.4 リソースサーバを使用する場合の構成
5.5 ハードウェア構成の検討
5.5.1 共有ディスクの構成
5.5.2 LANの構成
5.5.3 監視パスの構成
5.5.4 リセットパスの構成
5.5.5 ハードウェア構成例(BladeSymphony(Basicモード))
5.5.6 ハードウェア構成例(BladeSymphony(LPARモード))
5.5.7 ハードウェア構成例(HA8000xMモデル以前)
5.5.8 ハードウェア構成例(HA8000xNモデル以降)
5.5.9 ハードウェア構成例(RV3000)
5.5.10 ハードウェア構成例(共有ディスクのSCSIリザーブをする,または他社PC/AT互換機)
5.5.11 ハードウェア構成例(LANの通信可否による系切り替え制御機能)
6. システムの構築
6.1 構築の流れ
6.1.1 系のリセットをする場合(BladeSymphonyまたはHA8000)
6.1.2 共有ディスクのSCSIリザーブをする場合
6.1.3 ハイブリッドフェンシングを使用する場合
6.1.4 LANの通信可否による系切り替え制御機能を使用する場合
6.2 ディレクトリ構成
6.3 OSの設定
6.3.1 環境変数の設定
6.3.2 システムファイルの設定
6.3.3 システムクロックの設定
6.3.4 DNSの設定
6.3.5 システムログファイルの設定
6.3.6 カーネルのパラメタの設定
6.3.7 出力言語種別の設定
6.3.8 セキュリティレベルの設定
6.3.9 ファイルシステムの設定
6.4 共有ディスクのSCSIリザーブをするための設定
6.4.1 マルチパスソフトウェアの設定
6.4.2 共有ディスクのSCSIリザーブに必要なオペランドの指定値の求め方
6.4.3 udevルールの設定
6.4.4 共有ディスクのSCSIリザーブ設定時の注意事項
6.5 HAモニタで使用するためのVMware ESXiの設定
6.5.1 系のリセットをする場合,および共有ディスクのSCSIリザーブをする場合に必要な設定
6.5.2 系のリセットをする場合に必要な設定
6.5.3 共有ディスクのSCSIリザーブをする場合に必要な設定
6.6 リセットパスの設定(BladeSymphony)
6.6.1 設定に必要な情報(BladeSymphony)
6.6.2 設定値の例(BladeSymphony)
6.7 リセットパスの設定(HA8000xMモデル以前)
6.7.1 設定に必要な情報(HA8000xMモデル以前)
6.7.2 設定値の例(HA8000xMモデル以前)
6.8 リセットパスの設定(HA8000xNモデル以降)
6.8.1 設定に必要な情報(HA8000xNモデル以降)
6.8.2 設定値の例(HA8000xNモデル以降)
6.8.3 障害プロセサとして管理サーバを使用する場合の設定時の注意事項(HA8000xNモデル以降)
6.9 リセットパスの設定(RV3000)
6.9.1 設定に必要な情報(RV3000)
6.9.2 設定値の例(RV3000)
6.9.3 障害プロセサとして管理サーバを使用する場合の設定時の注意事項(RV3000)
6.10 監視パスの設定
6.10.1 ホスト名とサービス名の登録
6.10.2 HAモニタの接続構成設定ファイルの作成
6.11 定義ファイルの作成(HAモニタ)
6.12 サーバが使用する共有リソースの設定
6.12.1 共有ディスクの設定
6.12.2 LANの状態設定ファイルの設定
6.13 サーバの起動・停止・監視コマンドの作成(実行サーバの場合)
6.13.1 サーバの起動コマンドの作成
6.13.2 サーバの停止コマンドの作成
6.13.3 サーバの監視コマンドの作成
6.14 待機サーバの起動・停止・監視時に実行するコマンドの作成(待機系での監視をする場合)
6.14.1 待機サーバの起動時に実行するコマンドの作成
6.14.2 待機サーバの停止時に実行するコマンドの作成
6.14.3 待機サーバの監視時に実行するコマンドの作成
6.15 プログラムの再起動コマンドの作成(プログラム管理機能使用時)
6.15.1 プログラムの再起動コマンドが呼び出されるタイミング
6.15.2 プログラムの再起動コマンドの作成方法
6.16 UAPの作成と設定
6.16.1 UAPへのAPIの組み込み
6.16.2 UAPの環境変数の設定
6.17 定義ファイルの作成(サーバ)
6.18 定義ファイルの作成(モニタモードのプログラム)
6.19 ユーザコマンドの作成
6.19.1 ユーザコマンドが発行されるタイミング(サーバの状態変化時)
6.19.2 ユーザコマンドが発行されるタイミング(HAモニタの状態変化時)
6.19.3 ユーザコマンドの発行形式(サーバの状態変化時)
6.19.4 ユーザコマンドの発行形式(HAモニタの状態変化時)
6.19.5 ユーザコマンドの作成方法
6.19.6 ユーザコマンドのコーディング例
6.20 リソースの監視のための設定
6.20.1 LANの監視に必要なファイルの設定
6.20.2 ディスクの監視に必要なファイルの設定
6.21 HAモニタ Extensionの設定
6.22 構築したシステムの設定・定義のチェック
6.22.1 複数系切り替え構成間での設定・定義のチェック
6.22.2 定義チェック
6.23 障害情報を収集するための設定
6.24 構築したシステムの動作確認
6.24.1 事前確認
6.24.2 HAモニタの動作確認
6.24.3 サーバの動作確認
6.24.4 系切り替えのテスト
6.24.5 システムに掛かる負荷のテスト
6.25 系の最大数を変更する場合の動作確認(HAモニタ Extension使用時)
7. システムの運用
7.1 運用の流れ
7.1.1 運用前の準備
7.2 起動・停止
7.2.1 起動する
7.2.2 停止する
7.2.3 共有リソースをメンテナンスするときの注意事項
7.3 サーバログの確認
7.3.1 監視コマンドを使用する場合の実行ログの確認(モニタモードのサーバでptrlcmd_exオペランド,またはsby_ptrlcmd_exオペランドを指定する場合)
7.3.2 監視コマンドを使用する場合の詳細ログの確認(モニタモードのサーバでptrlcmd_exオペランド,またはsby_ptrlcmd_exオペランドを指定する場合)
7.4 障害発生による系切り替え時の運用
7.4.1 待ち状態のサーバを起動して業務を再開する
7.4.2 障害情報を収集する
7.4.3 障害が発生した系を待機系として再起動する
7.4.4 障害対処後にサーバや系の状態を確認する
7.5 障害への対処
7.5.1 系の起動失敗に対処する
7.5.2 サーバの再起動失敗に対処する
7.5.3 系のリセット失敗に対処する
7.5.4 共有リソースの接続失敗に対処する
7.5.5 共有リソースの切り離し失敗に対処する
7.5.6 共有ディスクのデバイス障害に対処する(実行サーバ起動時)(共有ディスクのSCSIリザーブをする場合)
7.5.7 共有ディスクのデバイス障害に対処する(実行サーバ稼働中)(共有ディスクのSCSIリザーブをする場合)
7.5.8 共有ディスクのデバイス障害に対処する(実行サーバ終了時)(共有ディスクのSCSIリザーブをする場合)
7.5.9 共有ディスクのデバイス障害に対処する(待機サーバ起動時,待機時,または終了時)(共有ディスクのSCSIリザーブをする場合)
7.5.10 共有ディスクのデバイス障害に対処する(系切り替え時)(共有ディスクのSCSIリザーブをする場合)
7.5.11 リザーブを解放しないサーバに対処する(共有ディスクのSCSIリザーブをする場合)
7.5.12 共有ディスクのSCSIリザーブの解除手順
7.5.13 UAP障害に対処する
7.5.14 addressオペランドの指定値の重複に対処する
7.5.15 再起動および系切り替えができない状況のサーバの障害に対処する(モニタモードのサーバ)
7.6 高負荷による障害発生を防止するための運用
7.6.1 サーバの監視履歴を取得する
7.6.2 系の監視履歴を取得する
7.6.3 取得した監視履歴を解析する
7.6.4 サーバのスローダウンの原因を調査する
7.7 運用の自動化
7.7.1 システムの起動からサーバの起動までを自動化する
7.7.2 サーバやHAモニタの状態変化時の運用を自動化する
7.7.3 系切り替え後の運用を自動化する
7.8 計画的な系切り替え
7.8.1 計画的に系切り替えをする
7.9 強制的な系切り替え
7.9.1 強制的に系切り替えをする
7.10 システムの変更
7.10.1 系を追加する
7.10.2 サーバを追加する
7.10.3 共有リソースを変更する
7.10.4 系やサーバを稼働させたまま共有リソースの構成を変更する
7.10.5 HAモニタやサーバの環境設定を変更する
7.10.6 稼働しているHAモニタやサーバの設定・動作を変更する
第4編 リファレンス
8. 環境設定で定義するファイル
8.1 定義ファイルの概要
8.2 定義の規則
8.2.1 定義の記述形式
8.2.2 定義で使用する記号
8.3 HAモニタの環境設定
8.3.1 HAモニタの環境設定(sysdef)
8.4 サーバの環境設定
8.4.1 サーバ対応の環境設定(servers)
8.4.2 排他サーバの環境設定(servers_opt)
8.5 モニタモードのプログラムの環境設定
8.5.1 モニタモードのプログラム対応の環境設定(programs)
8.6 環境設定例
8.6.1 1:1系切り替え構成時の環境設定例
8.6.2 複数系切り替え構成時の環境設定例
8.6.3 VMware ESXiでの仮想化環境時の環境設定例
8.6.4 排他サーバ指定時の環境設定例
9. コマンド
9.1 コマンド一覧
9.2 コマンドの説明で使用する見出し
9.3 文法記述記号
9.4 monact(待ち状態のサーバを実行サーバとして起動)
9.5 monbegin(モニタモードのサーバの起動)
9.6 monchange(HAモニタ・サーバ稼働中の設定・動作の変更)
9.7 moncheck(定義チェック)
9.8 mondeact(待ち状態のサーバの停止)
9.9 mondevice(実行サーバ稼働中の共有リソースの変更)
9.10 monend(モニタモードのサーバの停止)
9.11 moninfo(実行系でのサーバ引き継ぎ情報の設定/待機系でのサーバ引き継ぎ情報の参照・表示)
9.12 monlink(HAモニタ間の手動接続)
9.13 monlistip(IPアドレスの検出)
9.14 monodrshw(サーバ順序制御の状態表示)
9.15 monpath(監視パスの状態表示)
9.16 monresbgn(リソースサーバの起動)
9.17 monresend(実行中のリソースサーバの停止)
9.18 monressbystp(待機中のリソースサーバの停止)
9.19 monrp(リセットパスの状態表示)
9.20 monsbystp(待機サーバの停止)
9.21 monscsiclr(共有ディスクのリザーブ解除)
9.22 monsetup(HAモニタの環境設定)
9.23 monshow(サーバと系の状態表示)
9.24 monstart(HAモニタの起動)
9.25 monstop(HAモニタの停止)
9.26 monswap(サーバの系切り替え)
9.27 monts(HAモニタのトラブルシュート情報の収集)
10. API
10.1 APIの一覧
10.2 APIの説明で使用する見出し
10.3 hamon_patrolstart(UAPの監視開始)
10.4 hamon_patrolstop(UAPの監視終了)
10.5 詳細コードの一覧
10.6 コーディング例
付録
付録A HAモニタのイベントID
付録A.1 HAモニタ開始時のイベント発行タイミング
付録A.2 HAモニタ正常終了時のイベント発行タイミング
付録A.3 HAモニタ異常終了時のイベント発行タイミング
付録A.4 サーバ起動時のイベント発行タイミング
付録A.5 サーバ正常終了時のイベント発行タイミング
付録A.6 サーバ起動失敗時のイベント発行タイミング
付録A.7 サーバ障害時のイベント発行タイミング
付録A.8 他系の障害検出時のイベント発行タイミング
付録A.9 リセットパス障害時のイベント発行タイミング
付録A.10 系のリセット失敗時のイベント発行タイミング
付録A.11 監視パス障害時のイベント発行タイミング
付録A.12 オペレータ介入待ち時のイベント発行タイミング
付録B 監視履歴として出力されるメッセージ
付録B.1 サーバの監視履歴が出力されるタイミング
付録B.2 他系の監視履歴が出力されるタイミング
付録B.3 自系の監視履歴が出力されるタイミング
付録C HAモニタが出力するファイル一覧
付録D HAモニタのプロセス一覧
付録E 各バージョンの変更内容
付録E.1 HAモニタ 01-73の変更内容(3000-9-201-30)
付録E.2 HAモニタ 01-72の変更内容(3000-9-201-20)
付録E.3 HAモニタ 01-71の変更内容(3000-9-201-10)
付録E.4 HAモニタ 01-70の変更内容(3000-9-201)
付録E.5 HAモニタ 01-69の変更内容(3000-9-140-W0)
付録E.6 HAモニタ 01-68の変更内容(3000-9-140-V0)
付録E.7 HAモニタ 01-67の変更内容(3000-9-140-U0)
付録E.8 HAモニタ 01-66の変更内容(3000-9-140-T0)
付録E.9 HAモニタ 01-65,HAモニタ 01-64の変更内容(3000-9-140-S0)
付録E.10 HAモニタ 01-63,HAモニタ 01-62の変更内容(3000-9-140-R0)
付録E.11 HAモニタ 01-61,HAモニタ 01-60の変更内容(3000-9-140-P0)
付録E.12 HAモニタ 01-58の変更内容(3000-9-140-O0)
付録E.13 HAモニタ 01-57の変更内容(3000-9-140-N0)
付録E.14 HAモニタ 01-56の変更内容(3000-9-140-M0)
付録E.15 HAモニタ 01-55-01の変更内容(3000-9-140-L0)
付録E.16 HAモニタ 01-55の変更内容(3000-9-140-K0)
付録E.17 HAモニタ 01-54の変更内容(3000-9-140-J0)
付録E.18 HAモニタ 01-53の変更内容(3000-9-140-I0)
付録E.19 HAモニタ 01-52の変更内容(3000-9-140-H0)
付録E.20 HAモニタ 01-51の変更内容(3000-9-132-G0)
付録E.21 HAモニタ 01-50の変更内容(3000-9-132-F0)
付録E.22 HAモニタ 01-42の変更内容(3000-9-132-E0)
付録E.23 HAモニタ 01-42の変更内容(3000-9-132-C0)
付録E.24 HAモニタ 01-41の変更内容(3000-9-132-B0)
付録E.25 HAモニタ 01-40,HAモニタExtension 01-00,HAモニタ 01-33の変更内容(3000-9-132-A0)
付録E.26 HAモニタ 01-32の変更内容(3000-9-132-90)
付録E.27 HAモニタ 01-30の変更内容(3000-9-132-80)
付録E.28 HAモニタ 01-22の変更内容(3000-9-132-60)
付録E.29 HAモニタ 01-20の変更内容(3000-9-132-40)
付録E.30 HAモニタ 01-13の変更内容(3000-9-132-30)
付録E.31 HAモニタ 01-12の変更内容(3000-9-132-20)
付録E.32 HAモニタ 01-11の変更内容(3000-9-132-10)
付録E.33 HAモニタ 01-10の変更内容(3000-9-132)
付録F このマニュアルの参考情報
付録F.1 関連マニュアル
付録F.2 このマニュアルで使用する製品名・機能名
付録F.3 このマニュアルで使用する英略語
付録F.4 このマニュアルで使用するKB(キロバイト)などの単位表記
用語解説
ページの先頭へ