高信頼化システム監視機能 HAモニタ AIX(R)編
目次
用語
索引
前へ
2 / 325
次へ
表紙
前書き
変更内容
はじめに
第1編 概要
1. HAモニタの概要
1.1 HAモニタの目的
1.2 系切り替え
1.2.1 系
1.2.2 系切り替えの流れ
1.2.3 サーバ
1.2.4 HAモニタが検出する障害
1.3 系切り替えの種類
1.3.1 自動系切り替え
1.3.2 計画系切り替え
1.3.3 強制系切り替え
1.4 系切り替えの方式
1.5 HAモニタを適用したシステム形態
1.5.1 C/Sシステム形態
1.5.2 FEP形態
1.5.3 分散処理システム形態
1.6 HAモニタの動作環境
1.6.1 必要なハードウェア
1.6.2 必要なソフトウェア
2. HAモニタを使用した系切り替え
2.1 系切り替え構成
2.1.1 1:1系切り替え構成
2.1.2 相互系切り替え構成
2.1.3 2:1系切り替え構成
2.1.4 複数スタンバイ構成
2.1.5 クラスタ型系切り替え構成
2.2 障害検出から系切り替えまでの流れ
2.2.1 サーバ障害時の系切り替え
2.2.2 系障害時の系切り替え
2.3 HAモニタによる障害検出
2.3.1 HAモニタが系切り替えをする条件
2.3.2 サーバ障害の検出(サーバモードの場合)
2.3.3 サーバ障害の検出(モニタモードの場合)
2.3.4 系障害の検出
2.3.5 系のリセット
2.3.6 ハイブリッドフェンシング
2.4 共有リソースの引き継ぎ
2.4.1 引き継げるリソースと単位
2.4.2 共有ディスクの引き継ぎ
2.4.3 ファイルシステムの引き継ぎ
2.4.4 LANの引き継ぎ
2.4.5 通信回線の引き継ぎ
第2編 解説
3. HAモニタで使用できる機能
3.1 HAモニタで使用できる機能一覧
3.2 サーバの制御のための機能
3.2.1 モニタモードのサーバの監視(実行サーバの場合)
3.2.2 モニタモードのサーバの監視(待機サーバの場合)
3.2.3 サーバのグループ化による連動系切り替え
3.2.4 サーバの切り替え順序制御
3.2.5 複数の待機系を配置するマルチスタンバイ
3.2.6 系切り替え後の負荷集中を避けるサーバの排他制御
3.2.7 系切り替え時の起動リトライ
3.2.8 JP1と連携したシステム運用
3.3 系の制御のための機能
3.3.1 系の同時リセットの防止
3.3.2 複数系間の同時リセットの防止
3.3.3 系の二重リセットの防止
3.3.4 マルチスタンバイ機能使用時の系のリセットの抑止
3.3.5 サーバ障害時に系ごと切り替える系のペアダウン
3.3.6 他系のOSパニック検知
3.4 リソースの監視のための機能
3.4.1 ディスクの監視
3.5 共有リソースの制御のための機能
3.5.1 リソースサーバを使用した共有リソースの共用
3.5.2 サーバやHAモニタの状態変化時のコマンド発行
3.5.3 共有リソース接続失敗時のサーバの起動中止
3.5.4 共有リソース引き継ぎのタイムアウト
3.5.5 共有リソースの切り離し順序指定
3.5.6 共有リソースの動的変更
3.5.7 LVMミラーリングを使用した場合の共有ディスクの制御
4. システムの管理
4.1 サーバの管理
4.1.1 HAモニタによるサーバの起動制御
4.1.2 HAモニタによるサーバの停止制御
4.1.3 サーバの状態遷移
4.1.4 サーバの監視コマンドの制御
4.1.5 サーバの切り替え順序制御をする場合の処理の流れ
4.2 系の管理
4.2.1 系のリセットをする系の決定方法
4.2.2 両系が障害を同時に検出した場合の系切り替え
4.2.3 複数の待機系がある場合の系のリセット
4.2.4 系のリセットに失敗した場合の動作
4.3 共有リソースの管理
4.3.1 共有ディスクの管理
4.3.2 共有ディスクの管理(HA Boosterを使用する場合)
4.3.3 ファイルシステムの管理
4.3.4 LANの管理
4.3.5 通信回線の管理
4.3.6 共有リソースの状態一覧
4.4 サーバをグループ化する場合のサーバの管理
4.4.1 連動系切り替え時のサーバの切り替え種別
4.4.2 グループ化したサーバの系切り替え制御
4.5 マルチスタンバイ機能を使用する場合のサーバと系の管理
4.5.1 系障害の検出と系のリセット(マルチスタンバイ)
4.5.2 系のリセットに失敗した場合の動作(マルチスタンバイ)
4.5.3 サーバの起動制御・停止制御(マルチスタンバイ)
4.6 リソースサーバの管理
4.6.1 リソースサーバを使用した系切り替え
4.6.2 リソースサーバを使用した共有リソースとの接続・切り離しの流れ
4.6.3 リソースサーバの状態の決定方法
4.7 処理の流れ
4.7.1 サーバの起動処理の流れ
4.7.2 サーバの停止処理の流れ
4.7.3 サーバ障害時の系切り替え処理の流れ
4.7.4 系障害時の系切り替え処理の流れ
4.7.5 サーバ障害時の系切り替え失敗処理の流れ
4.7.6 系障害時の系切り替え失敗処理の流れ
4.7.7 共有リソースの切り離しを接続時と逆順にする場合の処理の流れ
4.7.8 系切り替え時の障害での起動リトライ処理の流れ
4.7.9 ハイブリッドフェンシングを使用した場合の処理の流れ
第3編 導入・運用
5. HAモニタの導入とシステムの設計
5.1 導入と設計の流れ
5.2 系切り替え構成の検討
5.2.1 系切り替え構成の違い
5.2.2 構成設計時の考慮点
5.2.3 LPAR単位で系切り替え構成にする場合の考慮点
5.3 サーバ構成の検討
5.3.1 系切り替えをする単位(サーバ)の決定
5.3.2 複数のサーバを使用する場合の考慮点
5.4 リソース構成の検討
5.4.1 必要なリソースとリソース数
5.4.2 必要なIPアドレスとポート番号
5.4.3 リソースの共用方法の考え方
5.4.4 リソースサーバを使用する場合の構成
5.5 ハードウェア構成の検討
5.5.1 共有ディスクの構成
5.5.2 LANの構成
5.5.3 監視パスの構成
5.5.4 リセットパスの構成
5.5.5 回線切替装置の構成
5.5.6 ハードウェア構成例
6. システムの構築
6.1 構築の流れ
6.2 ディレクトリ構成
6.3 OSの設定
6.3.1 環境変数の設定
6.3.2 システムファイルの設定
6.3.3 システムクロックの設定
6.3.4 システムログファイルの設定
6.3.5 システムダンプの設定
6.3.6 メッセージの設定
6.4 リセットパスの設定
6.4.1 シリアルポートの設定
6.4.2 パーティションおよびハードウェアマネージメントコンソール接続情報の設定
6.5 監視パスの設定
6.5.1 ホスト名とサービス名の登録
6.5.2 HAモニタの接続構成設定ファイルの作成
6.6 定義ファイルの作成(HAモニタ)
6.7 サーバが使用する共有リソースの設定
6.7.1 共有ディスクの設定
6.7.2 LANの状態設定ファイルの設定
6.7.3 回線切替装置の設定
6.8 SCSIデバイスに関する設定
6.9 サーバの起動・停止・監視コマンドの作成(実行サーバの場合)
6.9.1 サーバの起動コマンドの作成
6.9.2 サーバの停止コマンドの作成
6.9.3 サーバの監視コマンドの作成
6.10 待機サーバの起動・停止・監視時に実行するコマンドの作成(待機系での監視をする場合)
6.10.1 待機サーバの起動時に実行するコマンドの作成
6.10.2 待機サーバの停止時に実行するコマンドの作成
6.10.3 待機サーバの監視時に実行するコマンドの作成
6.11 定義ファイルの作成(サーバ)
6.12 ユーザコマンドの作成
6.12.1 ユーザコマンドが発行されるタイミング(サーバの状態変化時)
6.12.2 ユーザコマンドが発行されるタイミング(HAモニタの状態変化時)
6.12.3 ユーザコマンドの発行形式(サーバの状態変化時)
6.12.4 ユーザコマンドの発行形式(HAモニタの状態変化時)
6.12.5 ユーザコマンドの作成方法
6.12.6 ユーザコマンドのコーディング例
6.13 リソースの監視のための設定
6.13.1 ディスクの監視に必要なファイルの設定
6.14 HAモニタから実行するコマンドの動作環境
6.14.1 HAモニタから実行するコマンドの環境変数
6.14.2 HAモニタから実行するコマンドのファイル記述子
6.14.3 HAモニタから実行するコマンドのシグナル
6.15 定義チェック
6.16 障害情報を収集するための設定
6.17 構築したシステムの動作確認
6.17.1 事前確認
6.17.2 HAモニタの動作確認
6.17.3 サーバの動作確認
6.17.4 系切り替えのテスト
6.17.5 システムに掛かる負荷のテスト
7. システムの運用
7.1 運用の流れ
7.1.1 運用前の準備
7.1.2 運用中の留意事項
7.2 起動・停止
7.2.1 起動する
7.2.2 停止する
7.2.3 共有リソースをメンテナンスするときの注意事項
7.3 サーバログの確認
7.3.1 監視コマンドを使用する場合の実行ログの確認(モニタモードのサーバでptrlcmd_exオペランド,またはsby_ptrlcmd_exオペランドを指定する場合)
7.3.2 監視コマンドを使用する場合の詳細ログの確認(モニタモードのサーバでptrlcmd_exオペランド,またはsby_ptrlcmd_exオペランドを指定する場合)
7.4 障害発生による系切り替え時の運用
7.4.1 待ち状態のサーバを起動して業務を再開する
7.4.2 障害情報を収集する
7.4.3 障害が発生した系を待機系として再起動する
7.4.4 障害対処後にサーバや系の状態を確認する
7.5 障害への対処
7.5.1 系の起動失敗に対処する
7.5.2 サーバの再起動失敗に対処する
7.5.3 系のリセット失敗に対処する
7.5.4 共有リソースの接続失敗に対処する
7.5.5 共有リソースの切り離し失敗に対処する
7.5.6 共有ディスクのデバイス障害に対処する(実行サーバ起動時)(ハイブリッドフェンシングを使用する場合)
7.5.7 共有ディスクのデバイス障害に対処する(実行サーバ起動時以外)(ハイブリッドフェンシングを使用する場合)
7.5.8 共有ディスクの障害に対処する
7.5.9 HAモニタの強制varyon機能を使用して強制的にオンライン化する
7.5.10 ShadowImageを使用する場合に副ボリュームを待機系に引き継ぐ
7.5.11 addressオペランドの指定値の重複に対処する
7.5.12 再起動および系切り替えができない状況のサーバの障害に対処する(モニタモードのサーバ)
7.6 高負荷による障害発生を防止するための運用
7.6.1 サーバの監視履歴を取得する
7.6.2 系の監視履歴を取得する
7.6.3 取得した監視履歴を解析する
7.6.4 サーバのスローダウンの原因を調査する
7.7 運用の自動化
7.7.1 システムの起動からサーバの起動までを自動化する
7.7.2 サーバやHAモニタの状態変化時の運用を自動化する
7.7.3 系切り替え後の運用を自動化する
7.8 計画的な系切り替え
7.8.1 計画的に系切り替えをする
7.9 強制的な系切り替え
7.9.1 強制的に系切り替えをする
7.10 系の移動
7.10.1 系の移動ができる条件
7.10.2 系をほかのサーバに移動する
7.11 システムの変更
7.11.1 系を追加する
7.11.2 サーバを追加する
7.11.3 共有リソースを変更する
7.11.4 系やサーバを稼働させたまま共有リソースの構成を変更する
7.11.5 HAモニタやサーバの環境設定を変更する
7.11.6 稼働しているHAモニタやサーバの設定・動作を変更する
7.11.7 ハードウェアの設定を変更する
第4編 リファレンス
8. 環境設定で定義するファイル
8.1 定義ファイルの概要
8.2 定義の規則
8.2.1 定義の記述形式
8.2.2 定義で使用する記号
8.3 HAモニタの環境設定
8.3.1 HAモニタの環境設定(sysdef)
8.4 サーバの環境設定
8.4.1 サーバ対応の環境設定(servers)
8.4.2 排他サーバの環境設定(servers_opt)
8.5 環境設定例
8.5.1 1:1系切り替え構成時の環境設定例
8.5.2 複数系切り替え構成時の環境設定例
8.5.3 排他サーバ指定時の環境設定例
9. コマンド
9.1 コマンド一覧
9.2 コマンドの説明で使用する見出し
9.3 文法記述記号
9.4 monact(待ち状態のサーバを実行サーバとして起動)
9.5 monbegin(モニタモードのサーバの起動)
9.6 monchange(HAモニタ・サーバ稼働中の設定・動作の変更)
9.7 moncheck(定義チェック)
9.8 mondeact(待ち状態のサーバの停止)
9.9 mondevice(実行サーバ稼働中の共有リソースの変更)
9.10 mondumpdev(ダンプデバイス情報の登録)
9.11 monend(モニタモードのサーバの停止)
9.12 moninfo(実行系でのサーバ引き継ぎ情報の設定/待機系でのサーバ引き継ぎ情報の参照・表示)
9.13 monlink(HAモニタ間の手動接続)
9.14 monodrshw(サーバ順序制御の状態表示)
9.15 monpath(監視パスの状態表示)
9.16 monresbgn(リソースサーバの起動)
9.17 monresend(実行中のリソースサーバの停止)
9.18 monressbystp(待機中のリソースサーバの停止)
9.19 monsbystp(待機サーバの停止)
9.20 monscsiclr(共有ディスクのリザーブ解除)
9.21 monsetup(HAモニタの環境設定)
9.22 monshow(サーバと系の状態表示)
9.23 monsp(SPの状態表示)
9.24 monstart(HAモニタの起動)
9.25 monstop(HAモニタの停止)
9.26 monswap(サーバの系切り替え)
9.27 monts(HAモニタのトラブルシュート情報の収集)
付録
付録A HAモニタのイベントID
付録A.1 HAモニタ開始時のイベント発行タイミング
付録A.2 HAモニタ正常終了時のイベント発行タイミング
付録A.3 HAモニタ異常終了時のイベント発行タイミング
付録A.4 サーバ起動時のイベント発行タイミング
付録A.5 サーバ正常終了時のイベント発行タイミング
付録A.6 サーバ起動失敗時のイベント発行タイミング
付録A.7 サーバ障害時のイベント発行タイミング
付録A.8 他系の障害検出時のイベント発行タイミング
付録A.9 リセットパス障害時のイベント発行タイミング
付録A.10 系のリセット失敗時のイベント発行タイミング
付録A.11 監視パス障害時のイベント発行タイミング
付録A.12 オペレータ介入待ち時のイベント発行タイミング
付録B 監視履歴として出力されるメッセージ
付録B.1 サーバの監視履歴が出力されるタイミング
付録B.2 他系の監視履歴が出力されるタイミング
付録B.3 自系の監視履歴が出力されるタイミング
付録C HAモニタが出力するファイル一覧
付録D HAモニタのプロセス一覧
付録E 各バージョンの変更内容
付録E.1 HAモニタ 01-33の変更内容(3000-9-202-40)
付録E.2 HAモニタ 01-32の変更内容(3000-9-202-30)
付録E.3 HAモニタ 01-31の変更内容(3000-9-202-20)
付録E.4 HAモニタ 01-30の変更内容(3000-9-202-10)
付録E.5 HAモニタ 01-29の変更内容(3000-9-202)
付録E.6 HAモニタ 01-28の変更内容(3000-9-130-T0)
付録E.7 HAモニタ 01-27および01-26の変更内容(3000-9-130-S0)
付録E.8 HAモニタ 01-25の変更内容(3000-9-130-R0)
付録E.9 HAモニタ 01-24および01-23の変更内容(3000-9-130-70)
付録E.10 HAモニタ 01-22の変更内容(3000-9-130-60)
付録E.11 HAモニタ 01-21の変更内容(3000-9-130-50)
付録E.12 HAモニタ 01-20および01-13の変更内容(3000-9-130-40)
付録E.13 HAモニタ 01-12および01-11の変更内容(3000-9-130-20)
付録F このマニュアルの参考情報
付録F.1 関連マニュアル
付録F.2 このマニュアルで使用する製品名・機能名
付録F.3 このマニュアルで使用する英略語
付録F.4 このマニュアルで使用するKB(キロバイト)などの単位表記
用語解説
ページの先頭へ