Bibliotheca21 Version 2 Standard
![[目次]](FIGURE/CONTENT.GIF)
![[用語]](FIGURE/GLOSS.GIF)
![[索引]](FIGURE/INDEX.GIF)
![[前へ]](FIGURE/FRONT.GIF)
5.1.4 収集環境の作成および文書の収集に関する注意事項
収集環境の作成,および設定に関する注意事項を次に示します。
WWWサーバから文書を収集する場合の注意事項を次に示します。
- リンク先がJavaScriptなどで動的に生成される場合は収集できません。
- 情報の入力有無に関係なく,フォームを介するリンク先は収集できません。
- リンク先が収集先に指定したWWWサーバと異なる場合は収集できません。
- リンク先のリンク階層が10階層を超える場合,11階層目以降は収集できません。
- リンク先がアクセス制御を行っている場合は,URLにユーザ情報が付加されているなどのリンク情報だけでアクセスができないと収集できません。
- 収集先のWWWサーバ,またはHTMLの定義で収集ロボットによる文書の収集を禁止している場合は,Bibliotheca21ではその文書を収集できません。
また,WWWサーバの定義の場合に,定義ファイル(/robots.txt)がなんらかの理由で参照できないときは,すべての文書を収集できません。
WWWサーバの定義の場合は,必要に応じて収集先のWWWサーバのシステム管理者に設定の変更を依頼してください。HTMLの定義の場合は個別の定義はありません。すべての収集ロボットに対する設定の変更が必要です。
なお,Bibliotheca21のロボット識別子は「Bibliotheca21」です。収集ロボットの詳細については「付録E 用語解説」を参照してください。
- 内容による更新の判断にnouseを指定している場合,差分収集ではWWWサーバから返却される更新日時を収集の判断に使用します。WWWサーバから更新日時が返却されない文書は差分収集の対象とするため,差分収集の実行時間が短いと毎回同じ文書だけが収集される場合があります。
NTFSで管理されたドライブ上のフォルダから文書を収集する場合の注意事項を次に示します。
- 収集先のドライブが次に示すOSで作成されていることが前提です。
- Windows NT
- Windows 2000
- Windows Server 2003
- Windows Server 2008
- Windows XP
- Windows Vista
- 検索結果からのアクセスで「Web参照用のURLパス」が必要なため,WWWサーバの仮想ディレクトリに設定されていることが前提です。または,共用フォルダに対するローカルファイルアクセス定義「file://ホスト/仮想ディレクトリ/・・・」が使用できます。ただし,共用フォルダへの直接アクセス「\\ホスト\共用フォルダ名\・・・」は使用できません。
- ショートカットは収集できません。
- 終端文字を含めフルパス名が260文字を超える文書,および終端文字を含め260バイトを超えるフォルダ名,ファイル名の文書は収集できません。
- フォルダ名,ファイル名にシフトJIS以外の文字が使用されている文書は収集できません。
- 文書コマンドを実行するアカウントで参照できない文書は収集できません。
- 収集先がネットワークドライブの場合「スクリプト作成」で作成したスクリプトを利用して定期的に差分収集を行うには,ジョブの設定の変更が必要です。詳細は,「付録D.4 ジョブの設定の変更方法」を参照してください。
Dominoサーバで管理された文書を収集する際の注意事項を次に示します。
- 文書コマンドを実行するアカウントで参照できない文書は収集できません。
- 文書を参照するビュー名が異なる場合は,同じ文書でも別文書として扱われます。
- 同じ文書内に同じ名称の添付ファイルが二つ以上ある場合は,最初の一つだけが検索対象となります。
- 文書に追加されたOLEオブジェクトは,検索対象になりません。
- 収集された文書は,ASP.NET版検索テンプレートで検索できます。ASP版検索テンプレートでの検索,および予約検索の使用はできません。
- アクセス権付き検索機能を使用している場合,アクセス権の情報は文書を収集した時点での情報です。収集が完了したあとにアクセス権を変更した場合,再収集が完了するまで変更したアクセス権の情報は反映されません。
RDBサーバで管理された文書を収集する際の注意事項を次に示します。
- 差分収集実行時には,「更新判定列」に指定した日付で差分を判断します。更新日付が新しい,または古い場合は差分収集を実行しますが,同一の更新日付の場合は,差分収集は実行されません。
- 分割収集は「文書キー列」を昇順に整列した順序で実行されます。分割収集の中断を指定した場合は,中断の直前の「文書キー列」を保存し,分割収集の継続時には,すでに収集を実行した「文書キー列」以降を収集します。
ただし,分割収集の中断以前と同一名称のファイルが存在する場合は,上書きされます。「文書キー列」には必ずユニークなキー名を指定してください。
- 文書の収集は1トランザクションで行われます。そのため,収集対象となる文書数が多大な場合にRDBサーバとの接続がタイムアウトし,収集に失敗するときがあります。このような場合は文書収集コマンドの分割収集を使用して,トランザクションタイムアウトが発生しない範囲で,収集件数,および収集時間を分割して実行してください。
文書収集コマンドの詳細については,「付録C 文書コマンドを使用した運用」を参照してください。
- RDBサーバがSQL Server,およびHiRDBの場合,文書の収集中は収集対象のテーブル,またはビューをロックします。Oracle Databaseの場合は,文書の収集中でもロックはされません。
SQL Server,およびHiRDBのロックの方法を次に示します。
- SQL Serverの場合
収集対象のテーブル,またはビューをインテント共有でロックします。
- HiRDBの場合
収集対象のテーブル,またはビューを共用モードでロックします。
他のアプリケーションなどから更新・挿入が行なわれる可能性のあるテーブル,またはビューを収集する場合は,他のアプリケーションへの影響が最小限となる時間に収集を行うスケジューリングにしてください。
- 文書キー列とそれ以外の列に同じ列名を指定した場合は,文書の収集はできません。
- テキストデータベースに登録できる文書数の上限は,使用しているマシンのディスク容量に依存しますが,3,000,000件を目安に運用してください。
- テキストデータベースに登録できる文書の情報の上限は,本文テキストサイズと文書管理情報を合わせて,1文書あたり960キロバイトです。上限を超える情報を持つ文書を収集した場合,上限を超える部分はテキストデータベースに登録できません。
例えば,テキストサイズが大きい文書,Notes文書で多くの添付ファイルを持つ文書などは上限を超えるおそれがあります。上限を超える情報を持つ文書は,上限までの情報が検索対象となります。
- テキスト抽出に失敗した場合,本文テキストなしと判断されるときがあります。
- 複数の収集環境で文書の収集を同時に実行した場合,同一文書がテキストデータベースに複数登録されるときがあります。
- 新規収集,または収集環境の設定変更により収集された文書は,収集先で更新されていない場合も,データベースが更新されます。
- 収集先のサーバ上の文書が持つアクセス権の情報が収集されるのは,収集環境がNTFS,またはDominoサーバの場合だけです。
- 収集環境がWWWサーバ,RDBサーバでアクセス権を考慮した検索を行う場合,収集環境ごとにアクセス権情報ファイルを用意する必要があります。また,収集先の文書にアクセス権が付与されている場合,アクセス権情報ファイルとは連動しないため,アクセス権情報ファイルの設定を,収集先の文書に付与されているアクセス権と同様にして運用する必要があります。アクセス権情報ファイルの詳細については「4.4 アクセス権を考慮した検索の環境設定」を参照してください。
- アクセス権を考慮した検索で扱うことができるアカウント数の上限は,合計で131,072種類です。131,072種類を超えるアカウントを扱うと,収集されない文書が発生するおそれがあります。アカウントの数はActive Directoryに登録されているユーザ数とグループ数,およびDominoサーバ公開アドレス帳に登録されているユーザ数とグループ数の合計のうち,収集した文書に付加されているものが対象です。
- アクセス権付き検索機能を使用している場合,アクセス権の情報は文書を収集した時点での情報となります。収集が完了したあとにアクセス権を変更した場合,再収集が完了するまで変更したアクセス権の情報は反映されません。
- Bibliotheca21のバージョン02-31以前の収集環境で収集した文書は,バージョンアップしたあとに再収集が完了するまで,アドレスを指定した検索の対象になりません。
- 次に示す各コマンド,および収集環境定義ウィザードで新規収集を実行する場合は,コマンドプロンプトを編集モード(「選択」,「範囲指定」などをメニューバーに表示した状態)にしないでください。編集モードで新規収集を実行すると,処理が待ち状態のままとなります。
- 文書収集コマンド(BIBcollectDocコマンド)
- 文書登録コマンド(BIBregistDocコマンド)
- 文書の整合性確保コマンド(BIBadjustmentDocコマンド)
- 文書拡張情報の登録コマンド(BIBextendDocコマンド)
All Rights Reserved. Copyright (C) 2007, 2009, Hitachi, Ltd.