Hitachi

ノンストップデータベース HiRDB Version 10 システム運用ガイド(UNIX(R)用)


20.17.3 ユニットの再開始手順(原因を特定してからユニットを再開始する場合)

システムログファイルの不足原因の一覧を次の表に示します。この表に記載されている原因が該当するかどうかを一つずつ確認していきます。

なお,不足原因は一つとはかぎりません。条件を満たすすべての原因調査をしてください。

表20‒21 システムログファイルの不足原因の一覧

項番

システムログファイルの不足原因

調査方法を説明している箇所

備考

1

システムログファイルをアンロード又は状態変更しなかったため,アンロード待ち状態のファイルが増えて,システムログファイル不足が発生した。

アンロード待ち状態のファイル数を確認する

アンロード状態のチェックを解除する運用をしている場合は,調査の必要はありません。

2

自動ログアンロード機能が停止したため,アンロード待ち状態のファイルが増えて,システムログファイル不足が発生した。

自動ログアンロード機能を使用していない場合は,調査の必要はありません。

3

長時間にわたりトランザクションが決着しなかったため,上書きできない状態のファイルが増えて,システムログファイル不足が発生した。

上書きできない状態のファイル数を確認する

なし

4

シンクポイントダンプの有効化処理がスキップされたため,上書きできない状態のファイルが増えて,システムログファイル不足が発生した。

なし

5

更新可能なオンライン再編成時,オンライン再編成上書き禁止状態のファイルが増えて,システムログファイル不足が発生した。

オンライン再編成上書き禁止状態のファイル数を確認する

更新可能なオンライン再編成を実行していない場合は,調査の必要はありません。

6

システムログファイルに障害が発生したため,スワップ先にできる状態のファイルがなくなり,システムログファイル不足が発生した。

KFPS01202-Eメッセージが出力されていたか確認する

なし

7

HiRDB Datareplicatorとの連動中に,システムログの抽出処理が追い付かなくなり,抽出未完了状態のファイルが増えて,システムログファイル不足が発生した。

抽出未完了状態のファイル数を確認する

HiRDB Datareplicatorを使用していない場合は,調査の必要はありません。

システムログファイルの不足原因を特定してからユニットを再開始する手順を以降で説明します。

〈この項の構成〉

(1) システムログファイルの不足が発生したバックエンドサーバを確認する

syslogfile又はメッセージログファイルに出力されているKFPS01220-Eメッセージを参照して,システムログファイルの不足が発生したバックエンドサーバを確認してください。

(例)

KFPS01220-E Request to swap sys(bes1) log file unable to be executed 
      because there is no standby log file group available.

下線部分にシステムログファイルの不足が発生したバックエンドサーバが表示されます。この例の場合,バックエンドサーバbes1でシステムログファイルの不足が発生しています。

(2) アンロード待ち状態のファイル数を確認する

pdloglsコマンドを実行して,(1)で確認したバックエンドサーバのシステムログファイルの状態を確認してください。

(例)

[図データ]

アンロード待ち状態のファイル数から原因を判断します。次に示す条件式を満たす場合は,アンロード待ち状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

 (A+1)≧↑B÷3↑

A:アンロード待ち状態で,現用ファイルと同じRun IDを持つシステムログファイルの数

B:現用ファイルと同じRun IDを持つシステムログファイルの数

上記の例の場合,Aの条件を満たすファイルは,log003〜log006の4ファイルになります。Bの条件を満たすファイルは,log002〜log007の6ファイルになります。これらの数値を計算式に代入すると,5≧↑6÷3↑となり,条件式を満たします。よって,アンロード待ち状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

また,自動ログアンロード機能を使用している場合に条件式を満たしたときは,自動ログアンロード機能が停止していないか確認してください。ユニットが異常終了する前に,syslogfile又はメッセージログファイルにKFPS01150-Eメッセージが出力されていないかどうを確認してください。KFPS01150-Eメッセージが出力されている場合は,自動ログアンロード機能が停止しています。これが原因でシステムログファイルの不足が発生したと判断できます。

(3) 上書きできない状態のファイル数を確認する

上書きできない状態のファイル数を確認する手順を例題形式で説明します。

シンクポイントダンプファイルの有効保証世代数が1の場合(pd_spd_assurance_countオペランドに1を指定しているか,指定を省略している場合)は,次に示す方法で求めてください。

シンクポイントダンプファイルの有効保証世代数が2の場合(pd_spd_assurance_countオペランドに2を指定している場合)は,次に示すどちらかの方法で求めてください。さらにもう1世代前のシンクポイントダンプの有効化時点にさかのぼって上書きできない状態のシステムログファイルを求めます。

(a) 例題1 再開始に入力するシステムログを示すメッセージ(KFPS01229-I)から求める方法

システムログファイルの不足原因が,上書きできない状態のファイルが増えたことによるものかを調べます。なお,シンクポイントダンプファイルの有効保証世代数は1とします。

手順
  1. pdloglsコマンドを実行して,(1)で確認したバックエンドサーバのシステムログファイルの情報を確認してください。

    [図データ]

    次に示す情報を確認します。

    ・現用ファイルと同じRun IDを持つファイル

    ・上記のファイルのGen No.(ファイルの世代番号)

    この例の場合,log002〜log007が現用ファイルと同じRun IDを持っています。各ファイルの世代番号は次のようになります。

     log002:世代番号1

     log003:世代番号2

     log004:世代番号3

     log005:世代番号4

     log006:世代番号5

     log007:世代番号6(現用ファイル)

  2. KFPS01229-Iメッセージを参照して,ユニットの再開始時に入力情報となるシステムログファイルの情報を確認してください。

    [図データ]

    このメッセージには,ユニットの再開始時に入力情報となるシステムログファイルの情報が表示されます。この例の場合,世代番号3のシステムログファイルが,ユニットの再開始時に入力される先頭のシステムログファイルになります。

    したがって,世代番号が3以降のシステムログファイル(log004〜log007)が,上書きできない状態であることが分かります。

    参考

    ユニットの再開始時に実行されるデータベースの回復処理で入力情報となるシステムログファイルは,上書きできない状態となっています。そのため,世代番号が3以降のシステムログファイル(log004〜log007)が,上書きできない状態であることが分かります。

    注意事項

    次に示す場合,再開始しようとしたユニットが再度異常終了しているため,システムログファイル不足を示すKFPS01220-Eメッセージが二つ以上出力されています。

    • pd_mode_confオペランドにAUTO又はMANUAL1が指定している

    • システムログファイルの不足によるユニットの異常終了後にpdstartコマンドを実行している

    この場合,ユニットが最初に異常終了したときに出力されたKFPS01220-Eメッセージの前に出力されたKFPS01229-Iメッセージを確認してください。

  3. 上書きできない状態のファイル数から原因を判断します。

    次に示す条件式を満たす場合は,上書きできない状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

     A≧↑B÷C↑

    A:上書きできない状態で,現用ファイルと同じRun IDを持つシステムログファイルの数

    B:現用ファイルと同じRun IDを持つシステムログファイルの数

    C:次に示すどちらかの値

    ・HiRDB Text Search Plug-inを使用している場合,又は更新可能なオンライン再編成処理中に異常終了している場合:4

    ・それ以外の場合:3

    この例の場合,Aの条件を満たすファイルは,log004〜log007の4ファイルになります。Bの条件を満たすファイルは,log002〜log007の6ファイルになります。これらの数値を計算式に代入すると,4≧↑6÷3↑となり,条件式を満たします。よって,上書きできない状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

  4. KFPS02179-Iメッセージを参照して,上書きできない状態のファイルが増えた原因を特定してください。

    [図データ]

    KFPS02179-Iメッセージは,シンクポイントダンプの有効化処理をスキップしたときに出力されるメッセージです。factor code=A01-02のメッセージが何回か出力されているため,長時間にわたりトランザクションが決着しなかったことが理由で,上書きできない状態のファイルが増えて,システムログファイル不足が発生したと判断できます。

    なお,要因コード(factor code)が異なるKFPS02179-Iメッセージが複数出力されている場合は,最も多く出力された要因コードで原因を特定します。

    要因コードがA01-02の場合は,長時間にわたりトランザクションが決着しなかったことが理由で,上書きできない状態のファイルが増えて,システムログファイル不足が発生したと判断します。

    要因コードがA01-02以外の場合は,シンクポイントダンプの有効化処理がスキップされたことが理由で,上書きできない状態のファイルが増えて,システムログファイル不足が発生したと判断します。

(b) 例題2 シンクポイントダンプの有効化完了メッセージ(KFPS02183-I)から求める方法

システムログファイルの不足原因が,上書きできない状態のファイルが増えたことによるものかを調べます。なお,シンクポイントダンプファイルの有効保証世代数は2とします。

手順
  1. pdloglsコマンドを実行して,(1)で確認したバックエンドサーバのシステムログファイルの情報を確認してください。

    [図データ]

    次に示す情報を確認します。

    ・現用ファイルと同じRun IDを持つファイル

    ・上記のファイルのGen No.(ファイルの世代番号)

    この例の場合,log002〜log007が現用ファイルと同じRun IDを持っています。各ファイルの世代番号は次のようになります。

     log002:世代番号1

     log003:世代番号2

     log004:世代番号3

     log005:世代番号4

     log006:世代番号5

     log007:世代番号6(現用ファイル)

  2. KFPS02183-Iメッセージを参照して,ユニットの再開始時に入力情報となるシステムログファイルの情報を確認してください。

    [図データ]

    このメッセージは,シンクポイントダンプの有効化完了時に出力されます。シンクポイントダンプファイルの有効保障世代数が2であるため,2世代前までのシンクポイントダンプファイルに対応するシステムログファイルが上書きできない状態になっています。最新より一つ前の世代のシンクポイントダンプの有効化完了メッセージにlog004(世代番号3)が表示されているため,世代番号が3以降のシステムログファイル(log004〜log007)が,上書きできない状態であることが分かります。

    注意事項

    次に示す場合,再開始しようとしたユニットが再度異常終了しているため,システムログファイル不足を示すKFPS01220-Eメッセージが二つ以上出力されています。

    • pd_mode_confオペランドにAUTO又はMANUAL1が指定している

    • システムログファイルの不足によるユニットの異常終了後にpdstartコマンドを実行している

    この場合,ユニットが最初に異常終了したときに出力されたKFPS01220-Eメッセージの前に出力されたKFPS02183-Iメッセージを確認してください。

以降の手順は,「例題1 再開始に入力するシステムログを示すメッセージ(KFPS01229-I)から求める方法」の手順の3以降と同じになります。

(c) 例題3 シンクポイントダンプの有効化スキップメッセージ(KFPS02179-I)から求める方法

システムログファイルの不足原因が,上書きできない状態のファイルが増えたことによるものかを調べます。なお,シンクポイントダンプファイルの有効保証世代数は2とします。

手順
  1. pdloglsコマンドを実行して,(1)で確認したバックエンドサーバのシステムログファイルの情報を確認してください。

    [図データ]

    次に示す情報を確認します。

    ・現用ファイルと同じRun IDを持つファイル

    ・上記のファイルのGen No.(ファイルの世代番号)

    この例の場合,log002〜log007が現用ファイルと同じRun IDを持っています。各ファイルの世代番号は次のようになります。

     log002:世代番号1

     log003:世代番号2

     log004:世代番号3

     log005:世代番号4

     log006:世代番号5

     log007:世代番号6(現用ファイル)

  2. KFPS02179-Iメッセージが出力されていることを確認してください。

    [図データ]

    再開始時のシステムログ入力開始世代のシステムログファイルであるlog004を現用として使用している間に,有効化スキップ回数(number of skip)=1を示すKFPS02179-Iメッセージが出力されています。そのため,一つ前のlog003が現用ファイルとして割り当てられていたときにKFPS02179-Iメッセージが出力されているか確認して,上書きできない状態のシステムログファイルを特定します。

    この例では,log003が現用ファイルとして割り当てられていたときにKFPS01279-Iメッセージが出力されていません。したがって,再開始時のシステムログ入力開始世代のシステムログファイルの二つ前に割り当てられたシステムログファイルであるlog002(世代番号1)以降の世代番号のシステムログファイルが,上書きできない状態のシステムログファイルになります。

    したがって,世代番号が1以降のシステムログファイル(log002〜log007)が,上書きできない状態であることが分かります。

    注意事項

    次に示す場合,再開始しようとしたユニットが再度異常終了しているため,システムログファイル不足を示すKFPS01220-Eメッセージが二つ以上出力されています。

    • pd_mode_confオペランドにAUTO又はMANUAL1が指定している

    • システムログファイルの不足によるユニットの異常終了後にpdstartコマンドを実行している

    この場合,ユニットが最初に異常終了したときに出力されたKFPS01220-Eメッセージの前に出力されたKFPS02183-Iメッセージを確認してください。

以降の手順は,「例題1 再開始に入力するシステムログを示すメッセージ(KFPS01229-I)から求める方法」の手順の3以降と同じになります。

■手順の2の考え方(補足)

最初に,再開始時の入力開始世代のシステムログファイルを現用ファイルとして割り当てたことを示すKFPS01221-Iメッセージを探します。

次に,再開始時の入力開始世代のシステムログファイルを現用ファイルとして使用している間に,有効化スキップ回数(number of skip)=1を示すKFPS02179-Iメッセージが出力されているかを探します。

KFPS02179-Iメッセージが出力されていない場合は,再開始時の入力世代の一つ前のシステムログファイルが上書きできない状態のファイルになります。

KFPS02179-Iメッセージが出力されている場合は,再開始時の入力開始世代の一つ前のシステムログファイルを現用として使用している間に,KFPS02179-Iメッセージが出力されているかを探します。

再開始時の入力開始世代の一つ前のシステムログファイルを現用ファイルとして使用している間に,KFPS02179-Iメッセージが出力されていない場合は,再開始時の入力世代の二つ前のシステムログファイルが上書きできない状態のシステムログファイルになります。

再開始時の入力開始世代の一つ前のシステムログファイルを現用ファイルとして使用している間に,KFPS02179-Iメッセージが出力されている場合は,有効化スキップ回数を確認します。そこからシンクポイントの有効化スキップ回数=1を示すKFPS02179-Iメッセージまで遡ります。このメッセージが出力されたときの一つ前に使用していたシステムログファイルの世代番号以降が,上書きできないシステムログファイルになります。

(4) オンライン再編成上書き禁止状態のファイル数を確認する

pdloglsコマンドを実行して,(1)で確認したバックエンドサーバのシステムログファイルの状態を確認してください。

(例)

[図データ]

オンライン再編成上書き禁止状態のファイル数から原因を判断します。次に示す条件式を満たす場合は,オンライン再編成上書き禁止状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

 (A+1)≧↑B÷4↑

A:オンライン再編成上書き禁止状態で,現用ファイルと同じRun IDを持つシステムログファイルの数

B:現用ファイルと同じRun IDを持つシステムログファイルの数

上記の例の場合,Aの条件を満たすファイルは,log003〜log006の4ファイルになります。Bの条件を満たすファイルは,log002〜log007の6ファイルになります。これらの数値を計算式に代入すると,5≧↑6÷4↑となり,条件式を満たします。よって,オンライン再編成上書き禁止状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

(5) KFPS01202-Eメッセージが出力されていたか確認する

システムログファイル不足によってユニットが異常終了する直前に,syslogfile又はメッセージログファイルにKFPS01202-Eメッセージが出力されていないか確認してください。

(例)

[図データ]

この例のように,KFPS01202-Eメッセージが出力された直後に,KFPS01220-Eメッセージが出力されている場合,スワップ先にできる状態のファイルに障害が発生したため,システムログファイル不足が発生したと判断できます。

(6) 抽出未完了状態のファイル数を確認する

pdloglsコマンドを実行して,(1)で確認したバックエンドサーバのシステムログファイルの状態を確認してください。

(例)

[図データ]

抽出未完了状態のファイル数から原因を判断します。次に示す条件式を満たす場合は,システムログの抽出処理が追い付かなくなり,抽出未完了状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

 (A+1)≧↑(B×3)÷4↑

A:抽出未完了状態で,現用ファイルと同じRun IDを持つシステムログファイルの数

B:現用ファイルと同じRun IDを持つシステムログファイルの数

上記の例の場合,Aの条件を満たすファイルは,log003〜log006の4ファイルになります。Bの条件を満たすファイルは,log002〜log007の6ファイルになります。これらの数値を計算式に代入すると,5≧↑(6×3)÷4↑となり,条件式を満たします。よって,抽出未完了状態のファイルが増えたため,システムログファイル不足が発生したと判断できます。

(7) 特定した原因の対処を行う

ユニットの再開始手順(システムログファイルの不足原因が特定されている場合)」を参照して,特定した原因の対処を行い,ユニットを再開始してください。