HITACHI Inspire The Next

高信頼化システム監視機能 HAモニタ Linux(R)編

解説・手引・操作書

3000-9-132-G0


目  次

前書き
変更内容
はじめに
第1編 概要
1. HAモニタの概要
1.1 HAモニタの目的
1.2 系切り替え
1.2.1 系
1.2.2 系切り替えの流れ
1.2.3 サーバ
1.2.4 HAモニタが検出する障害
1.3 系切り替えの種類
1.3.1 自動系切り替え
1.3.2 計画系切り替え
1.4 HAモニタを適用したシステム形態
1.4.1 C/Sシステム形態
1.4.2 FEP形態
1.4.3 分散処理システム形態
1.5 HAモニタの動作環境
1.5.1 必要なハードウェア
1.5.2 必要なソフトウェア
2. HAモニタを使用した系切り替え
2.1 系切り替え構成
2.1.1 1:1系切り替え構成
2.1.2 相互系切り替え構成
2.1.3 2:1系切り替え構成
2.1.4 複数スタンバイ構成
2.1.5 クラスタ型系切り替え構成
2.2 障害検出から系切り替えまでの流れ
2.2.1 サーバ障害時の系切り替え
2.2.2 系障害時の系切り替え
2.3 HAモニタによる障害検出
2.3.1 HAモニタが系切り替えをする条件
2.3.2 サーバ障害の検出(サーバモードの場合)
2.3.3 サーバ障害の検出(モニタモードの場合)
2.3.4 系障害の検出
2.3.5 系のリセット
2.4 共有リソースの引き継ぎ
2.4.1 引き継げるリソースと単位
2.4.2 共有ディスクの引き継ぎ
2.4.3 ファイルシステムの引き継ぎ
2.4.4 LANの引き継ぎ
第2編 解説
3. HAモニタで使用できる機能
3.1 サーバの制御のための機能
3.1.1 モニタモードのサーバの監視
3.1.2 サーバのグループ化による連動系切り替え
3.1.3 サーバの切り替え順序制御
3.1.4 複数の待機系を配置するマルチスタンバイ
3.1.5 系切り替え後の負荷集中を避けるサーバの排他制御
3.1.6 JP1と連携したシステム運用
3.2 系の制御のための機能
3.2.1 系の同時リセットの防止
3.2.2 複数系間の同時リセットの防止
3.2.3 系の二重リセットの防止
3.2.4 系のリセットの抑止
3.2.5 サーバ障害時に系ごと切り替える系のペアダウン
3.2.6 LANの監視および障害時の自動系切り替え
3.2.7 他系のOSパニック検知
3.2.8 仮想化環境での物理パーティションリセット機能
3.2.9 N+Mコールドスタンバイ構成での系切り替え
3.3 共有リソースの制御のための機能
3.3.1 リソースサーバを使用した共有リソースの共用
3.3.2 サーバやHAモニタの状態変化時のコマンド発行
3.3.3 共有リソース接続失敗時のサーバの起動中止
3.3.4 共有リソース引き継ぎのタイムアウト
3.3.5 共有リソースの切り離し順序指定
3.3.6 共有リソースの動的変更
3.4 プログラムの制御のための機能(モニタモード)
3.4.1 UAPの監視
3.5 HAモニタ Extensionの機能
3.5.1 サーバの最大数の変更
3.5.2 系の最大数の変更
4. システムの管理
4.1 サーバの管理
4.1.1 HAモニタによるサーバの起動制御
4.1.2 HAモニタによるサーバの停止制御
4.1.3 サーバの状態遷移
4.1.4 サーバの監視コマンドの制御
4.1.5 サーバの切り替え順序制御をする場合の処理の流れ
4.2 系の管理
4.2.1 系のリセットをする系の決定方法
4.2.2 両系が障害を同時に検出した場合の系切り替え
4.2.3 複数の待機系がある場合の系のリセット
4.2.4 系のリセットに失敗した場合の動作
4.3 共有リソースの管理
4.3.1 共有ディスクの管理
4.3.2 共有ディスクの管理(HA Boosterを使用する場合)
4.3.3 ファイルシステムの管理
4.3.4 LANの管理
4.3.5 共有リソースの状態一覧
4.4 サーバをグループ化する場合のサーバの管理
4.4.1 連動系切り替え時のサーバの切り替え種別
4.4.2 グループ化したサーバの系切り替え制御
4.5 マルチスタンバイ機能を使用する場合のサーバと系の管理
4.5.1 系障害の検出と系のリセット(マルチスタンバイ)
4.5.2 系のリセットに失敗した場合の動作(マルチスタンバイ)
4.5.3 サーバの起動制御・停止制御(マルチスタンバイ)
4.6 リソースサーバの管理
4.6.1 リソースサーバを使用した系切り替え
4.6.2 リソースサーバを使用した共有リソースとの接続・切り離しの流れ
4.6.3 リソースサーバの状態の決定方法
4.7 プログラムの管理(モニタモード)
4.7.1 UAPの監視制御
4.7.2 プログラムの再起動制御
4.7.3 プログラムの状態遷移
4.7.4 UAP監視時の処理の流れ
4.8 処理の流れ
4.8.1 サーバの起動処理の流れ
4.8.2 サーバの停止処理の流れ
4.8.3 サーバ障害時の系切り替え処理の流れ
4.8.4 系障害時の系切り替え処理の流れ
4.8.5 サーバ障害時の系切り替え失敗処理の流れ
4.8.6 系障害時の系切り替え失敗処理の流れ
4.8.7 共有リソースの切り離しを接続時と逆順にする場合の処理の流れ
第3編 導入・運用
5. HAモニタの導入とシステムの設計
5.1 導入と設計の流れ
5.2 系切り替え構成の検討
5.2.1 系切り替え構成の違い
5.2.2 構成設計時の考慮点
5.2.3 系の最大数を変更する場合の考慮点(HAモニタ Extension使用時)
5.2.4 仮想化環境を系切り替え構成にする場合の考慮点(日立サーバ仮想化機構(Virtage)使用時)
5.2.5 仮想化環境を系切り替え構成にする場合の考慮点(VMware ESXi使用時)
5.3 サーバ構成の検討
5.3.1 系切り替えをする単位(サーバ)の決定
5.3.2 複数のサーバを使用する場合の考慮点
5.4 リソース構成の検討
5.4.1 必要なリソースとリソース数
5.4.2 必要なIPアドレス
5.4.3 リソースの共用方法の考え方
5.4.4 リソースサーバを使用する場合の構成
5.5 ハードウェア構成の検討
5.5.1 共有ディスクの構成
5.5.2 LANの構成
5.5.3 監視パスの構成
5.5.4 リセットパスの構成
5.5.5 ハードウェア構成例(BladeSymphony(Basicモード))
5.5.6 ハードウェア構成例(BladeSymphony(LPARモード))
5.5.7 ハードウェア構成例(HA8000)
5.5.8 ハードウェア構成例(HA8500)
6. システムの構築
6.1 構築の流れ
6.2 ディレクトリ構成
6.3 OSの設定
6.3.1 環境変数の設定
6.3.2 システムファイルの設定
6.3.3 システムクロックの設定
6.3.4 DNSの設定
6.3.5 システムログファイルの設定
6.3.6 カーネルのパラメタの設定
6.3.7 出力言語種別の設定
6.3.8 セキュリティレベルの設定
6.3.9 ファイルシステムの設定
6.4 リセットパスの設定(BladeSymphony)
6.4.1 設定に必要な情報(BladeSymphony)
6.4.2 設定値の例(BladeSymphony)
6.5 リセットパスの設定(HA8000)
6.5.1 設定に必要な情報(HA8000)
6.5.2 設定値の例(HA8000)
6.6 障害管理プロセサの設定(HA8500)
6.6.1 LANポートの設定(HA8500)
6.6.2 障害管理プロセサのIPアドレスの登録(HA8500)
6.6.3 HAモニタのリセット手順ファイルの設定(HA8500)
6.7 HAモニタで使用するためのVMware ESXiの設定
6.8 監視パスの設定
6.8.1 ホスト名とサービス名の登録
6.8.2 HAモニタの接続構成設定ファイルの作成
6.9 定義ファイルの作成(HAモニタ)
6.10 サーバが使用する共有リソースの設定
6.10.1 共有ディスクの設定
6.10.2 LANの状態設定ファイルの設定
6.10.3 LANの監視設定ファイルの設定
6.11 サーバの起動・停止・監視コマンドの作成
6.11.1 サーバの起動コマンドの作成
6.11.2 サーバの停止コマンドの作成
6.11.3 サーバの監視コマンドの作成
6.12 プログラムの再起動コマンドの作成(プログラム管理機能使用時)
6.13 UAPの作成と設定
6.13.1 UAPへのAPIの組み込み
6.13.2 UAPの環境変数の設定
6.14 定義ファイルの作成(サーバ)
6.15 定義ファイルの作成(モニタモードのプログラム)
6.16 ユーザコマンドの作成
6.16.1 ユーザコマンドが発行されるタイミング(サーバの状態変化時)
6.16.2 ユーザコマンドが発行されるタイミング(HAモニタの状態変化時)
6.16.3 ユーザコマンドの発行形式(サーバの状態変化時)
6.16.4 ユーザコマンドの発行形式(HAモニタの状態変化時)
6.16.5 ユーザコマンドの作成方法
6.16.6 ユーザコマンドのコーディング例
6.17 HAモニタ Extensionの設定
6.18 構築したシステムの設定・定義のチェック
6.18.1 複数系切り替え構成間での設定・定義のチェック
6.18.2 定義チェック
6.19 障害情報を収集するための設定
6.20 構築したシステムの動作確認
6.20.1 HAモニタの動作確認
6.20.2 サーバの動作確認
6.20.3 系切り替えのテスト
6.20.4 システムに掛かる負荷のテスト
6.21 系の最大数を変更する場合の動作確認(HAモニタ Extension使用時)
7. システムの運用
7.1 運用の流れ
7.1.1 運用前の準備
7.2 起動・停止
7.2.1 起動する
7.2.2 停止する
7.2.3 共有リソースをメンテナンスするときの注意事項
7.3 障害発生による系切り替え時の運用
7.3.1 待ち状態のサーバを起動して業務を再開する
7.3.2 障害情報を収集する
7.3.3 障害が発生した系を再起動する
7.3.4 障害対処後にサーバや系の状態を確認する
7.4 障害への対処
7.4.1 系の起動失敗に対処する
7.4.2 サーバの再起動失敗に対処する
7.4.3 系のリセット失敗に対処する
7.4.4 共有リソースの接続失敗に対処する
7.4.5 共有リソースの切り離し失敗に対処する
7.4.6 UAP障害に対処する
7.5 高負荷による障害発生を防止するための運用
7.5.1 サーバの監視履歴を取得する
7.5.2 系の監視履歴を取得する
7.5.3 取得した監視履歴を解析する
7.5.4 サーバのスローダウンの原因を調査する
7.6 運用の自動化
7.6.1 システムの起動からサーバの起動までを自動化する
7.6.2 サーバやHAモニタの状態変化時の運用を自動化する
7.6.3 系切り替え後の運用を自動化する
7.7 計画的な系切り替え
7.7.1 計画的に系切り替えをする
7.8 システムの変更
7.8.1 系を追加する
7.8.2 サーバを追加する
7.8.3 共有リソースを変更する
7.8.4 系やサーバを稼働させたまま共有リソースの構成を変更する
7.8.5 HAモニタやサーバの環境設定を変更する
7.8.6 稼働しているHAモニタやサーバの設定を変更する
7.8.7 ハードウェアの設定を変更する
第4編 リファレンス
8. 環境設定で定義するファイル
8.1 定義ファイルの概要
8.2 定義の規則
8.2.1 定義の記述形式
8.2.2 定義で使用する記号
8.3 HAモニタの環境設定
8.3.1 HAモニタの環境設定(sysdef)
8.4 サーバの環境設定
8.4.1 サーバ対応の環境設定(servers)
8.4.2 排他サーバの環境設定(servers_opt)
8.5 モニタモードのプログラムの環境設定
8.5.1 モニタモードのプログラム対応の環境設定(programs)
8.6 環境設定例
8.6.1 1:1系切り替え構成時の環境設定例
8.6.2 複数系切り替え構成時の環境設定例
8.6.3 排他サーバ指定時の環境設定例
9. コマンド
コマンド一覧
コマンドの説明で使用する見出し
文法記述記号
monact(待ち状態のサーバを実行サーバとして起動)
monbegin(モニタモードのサーバの起動)
monchange(HAモニタ・サーバ稼働中の設定変更)
moncheck(定義チェック)
mondeact(待ち状態のサーバの停止)
mondevice(実行サーバ稼働中の共有リソースの変更)
monend(モニタモードのサーバの停止)
moninfo(実行系でのサーバ引き継ぎ情報の設定/待機系でのサーバ引き継ぎ情報の参照・表示)
monlink(HAモニタ間の手動接続)
monlistip(IPアドレスの検出)
monmp(MPの状態表示)
monodrshw(サーバ順序制御の状態表示)
monpath(監視パスの状態表示)
monresbgn(リソースサーバの起動)
monresend(実行中のリソースサーバの停止)
monressbystp(待機中のリソースサーバの停止)
monrp(リセットパスの状態表示)
monsbystp(待機サーバの停止)
monsetup(HAモニタの環境設定)
monshow(サーバと系の状態表示)
monstart(HAモニタの起動)
monstop(HAモニタの停止)
monswap(計画系切り替え)
monts(HAモニタのトラブルシュート情報の収集)
10. API
APIの一覧
APIの説明で使用する見出し
hamon_patrolstart(UAPの監視開始)
hamon_patrolstop(UAPの監視終了)
詳細コードの一覧
コーディング例
付録
付録A HAモニタのイベントID
付録B 監視履歴として出力されるメッセージ
付録C HAモニタが出力するファイル一覧
付録D HAモニタのプロセス一覧
付録E 各バージョンの変更内容
付録F このマニュアルの参考情報
付録F.1 関連マニュアル
付録F.2 このマニュアルでの表記
付録F.3 英略語
付録F.4 KB(キロバイト)などの単位表記について
付録G 用語解説
索引