Bibliotheca21 Version 2 Standard

[目次][用語][索引][前へ][次へ]

付録C.1 文書収集コマンドを使用した運用

収集先の文書数が多く,一度に収集すると処理が長時間に及ぶ場合に,文書収集コマンドを使用した運用を検討してください。

ここでは,文書収集コマンドを使用した運用方法について説明します。

文書収集コマンドを使用した運用では,収集する文書数,または収集に掛かる時間を制限した新規収集や差分収集を実行できます。また,制限付きの収集を実行した結果,収集先に未収集の文書が残った場合,前回の続きから収集を再開して,収集先に残っている未収集の文書を収集することもできます。このように,収集先の文書を数回に分けて収集することを分割収集といいます。文書収集コマンドを使用した運用では,収集先に未収集の文書がなくなるまで,分割収集を繰り返し実行できます。文書収集コマンドを使用した運用の流れを次に示します。

図C-1 文書収集コマンドを使用した運用の流れ

[図データ]

なお,差分収集で分割収集を実行することを差分分割収集といいます。分割収集および差分分割収集の収集方法について説明します。

<この項の構成>
(1) 分割収集
(2) 差分分割収集

(1) 分割収集

分割収集とは,収集先の文書を数回に分けて収集することです。分割する単位は,収集する文書数または収集処理時間から選択できます。分割する単位は文書収集コマンド(BIBcollectDocコマンド)のオプションで指定します。収集に掛かる時間で分割した場合は,指定された時間になった時点で収集している文書の処理が終わってから収集を終了します。

収集の対象を文書A,文書B,文書C,文書D,文書Eとし,分割する単位を文書数「2」とした場合を例に,分割収集の実行の流れを次の図に示します。

図C-2 分割収集の実行の流れ

[図データ]

図中の1〜3について説明します。

  1. 1回目の収集では,文書Aと文書Bの二つを収集します。
  2. 2回目の収集では,1回目の収集の続きから再開するため,文書Cと文書Dの二つを収集します。
  3. 3回目の収集では,2回目の収集の続きから再開し,未収集の文書数が分割単位の「2」に満たないため,文書Eだけを収集します。

なお,分割収集が完了していない収集先に対して新規収集または差分収集を実行して,その後,再び分割収集を実行しても前回の収集の続きから分割収集を再開することはできません。この場合は,初回の分割収集時と同様に,指定した文書数または収集時間まで新規収集を実行します。

(2) 差分分割収集

差分分割収集とは,収集の実行回数が2回目以降の収集先に対して,前回の収集以降に追加・更新された文書だけを数回に分けて収集することです。差分分割収集が完了する前に追加・更新された文書が収集の対象となり,収集する時点の状態で収集します。分割差分収集を実行している途中で収集済みの文書に対して更新があっても,その文書は収集しません。収集済みの文書を更新して,その文書を収集するには,差分分割収集が完了したあとに再度収集を実行する必要があります。

前回の収集での収集対象を文書A,文書B,文書Cとし,分割する単位を文書数「2」とした場合を例に,差分分割収集の実行の流れを次の図に示します。

図C-3 差分分割収集の実行の流れ

[図データ]

図中の1〜5について説明します。

  1. 前回の収集では,文書A,文書Bおよび文書Cの三つを収集しました。
  2. 前回の収集から1回目の差分分割収集を実行するまでの間に,ユーザXが文書Aおよび文書Bを更新して(更新後の文書A,文書Bを,それぞれ文書A´,文書B´とします),ユーザYが文書Dを追加しました。
  3. 1回目の差分分割収集では,文書A´および文書B´の二つを収集しました。
  4. 1回目の差分分割収集から2回目の差分分割収を実行するまでの間に,ユーザXが文書A´を再び更新して(更新後の文書A´を文書A´´とします),ユーザZが文書Cを更新しました(更新後の文書Cを文書C´とします)。
  5. 2回目の差分分割収集では,1回目の収集の続きから再開するため,文書C´と文書Dの二つを収集します。文書A´´は1回目の収集で文書A´が収集済みのため,収集の対象には含まれません。