収集環境の詳細を設定する

収集先種別がWWWの場合の操作手順について説明します。

作成した収集環境をダブルクリックすると，「定義ウィザード（1/2）収集環境の詳細設定」が表示されます。
収集先種別がWWWの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面を次に示します。

図5-4　収集先種別がWWWの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面

「収集先」および「詳細情報」を入力します。

収集先: 文書の収集先を指定します。収集先のURLを1,024バイト以内で指定してください。

詳細情報一覧: 収集先にアクセスするためのネットワークの詳細情報を指定します。; プロキシサーバを経由してWWWサーバにアクセスする場合，必要に応じて次の五つのエントリに値を指定します。

プロキシサーバのホスト名
プロキシサーバのポート番号
プロキシサーバからの問い合わせ情報
プロキシサーバに認証されるユーザ名
プロキシサーバに認証されるユーザのパスワード^※

注※: パスワードの前，後ろ，または前後に空白を指定した場合，空白を省略した文字列がパスワードとして設定されます。例えば，エントリ値に「△Hitachi△」と指定した場合，実際のパスワードは「Hitachi」と判断され，詳細情報一覧のエントリ値には「*******」と表示されます。「△Hitachi」，「Hitachi△」と指定した場合も同様の判断となります。;

Bibliotheca21をバージョンアップした場合，次の表に示すエントリはBibliotheca21を新規にインストールしたときと表示されるエントリの値に違いがあります。エントリ値を変更する場合は，エントリの値を更新したあと再収集してください。
バージョンアップした場合に，新規インストール時の値と異なるエントリを次の表に示します。

表5-1　バージョンアップした場合に新規インストールと異なるエントリ値（WWWの場合）

エントリ名	バージョンアップ時の値	新規インストール時の値
収集URLフィルター	－	/*
収集除外URLフィルター	－	.gif;.tif;.tiff;.jpg;.jpeg;.png;*.bmp
内容による更新の判断	nouse	use
URLの同一性判定方法	0	1

（凡例）　－：バージョンアップ前にユーザが指定した任意の値が設定されます。

収集URLフィルター
収集先に指定したURLから，さらに絞り込むURLを指定します。デフォルトの値に「/*」が設定されています。

収集除外URLフィルター
収集先に指定したURLから除外するURLを指定します。テキストが存在しないファイルを除外するために，デフォルトの値として「*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp」が設定されています。
　
収集URLフィルター，および収集除外URLフィルターで指定するURLには，「*」（ワイルドカード）を指定できます。また，「/」（スラッシュ）を使用して，収集先に指定したURLの末尾フォルダからの相対パスで指定できます。
複数のファイル名を指定するときは，ファイル名を「;」（セミコロン）で区切ってください。
収集URLフィルター，および収集除外URLフィルターを指定する場合のファイル名の指定例を次に示します。

表5-2　ファイル名の指定例（収集先種別がWWWの場合）

指定例	意味（収集URLフィルターに指定した場合）	意味（収集除外URLフィルターに指定した場合）
*.txt	テキストファイルだけを収集します	テキストファイルを除外して収集します
.html;.htm;*.pdf	HTMLファイルおよびPDFファイルだけを収集します	HTMLファイルおよびPDFファイルを除外して収集します
/*	収集先に指定したURLの末尾フォルダ以下を収集します	収集先に指定したURLの中から，末尾フォルダ以下を除外して収集します

「http://www.hitachi.co.jp/New/anews」を収集先に指定した場合の例を次に示します。

収集URLフィルターに「/*」を設定した場合
「/anews」以下のファイルだけが収集され，「http://www.hitachi.co.jp/New」までのパスに含まれるファイルは収集されません。
収集除外URLフィルターに「/*」を設定した場合
「http://www.hitachi.co.jp/New」までのパスに含まれるすべてのファイルが収集され，「/anews」以下のファイルは収集されません。

内容による更新の判断
収集した文書が前回収集済みの文書と同じであるかどうかを，更新時間，または文書の内容を比較して判断します。
use：更新時間に差がある場合，内容を比較して更新を判断します。デフォルトの値です。
nouse：更新時間に差がある文書は更新します。文書の内容は比較しません。
URLの同一性判定方法
収集された異なる表記のURLが同じ実体ファイルを指すような場合に，テキストデータベースに重複したデータを登録しないために，URLが同一かどうか判定する基準を指定できます。
0：完全一致を判定基準とします。
完全一致とは，大文字，小文字，URLエンコード，相対位置のそれぞれの項目が完全に等しいことをいいます。ただし，ホスト名の大文字，小文字は区別されません。
1：正規化を判定基準とします。デフォルトの値です。
URLの正規化はURL構文に従ったものに変換します。URL構文の例を次に示します。

図5-5　URL同一性判定のURL構文の例

URL構文の注意事項を次に示します。
ホスト名およびエスケープ内については英大文字，小文字の区別はされません。
デフォルトのポート番号を使用する場合，ポート番号は省略されます。
URLエンコードについては，展開前のデータはエンコードを行い，同一性判定をします。URLエンコードでの16進表記のアルファベットは，大文字および小文字の区別はされません。
展開前のURLについては，ホスト名からあとのURLに対して，次の文字コード以外のエンコードを行います。
a～z　A～Z　0～9　$　-　_　.　+　!　*　'　(　)　,　;　:　@　&　=　/
ユーザインフォメーションはURLに含めません。
#で記載した情報は削除されます。全体を示すURLが対象です。
クエリーパラメタは内容を判定できないため，完全一致となります。

ポイント

例えば，「http://localhost/www/日立/index.html」と「http://localhost/www/%93%fa%97%a7/index.html」を比較した場合，URLの同一性判定方法に「完全一致」を指定した場合は別URLと判断され，「正規化」を指定した場合は同一URLと判断されます。

　
ダウンロード間隔
文書の収集をダウンロードする間隔を0～600,000ミリ秒の範囲で指定して，WWWサーバの負荷を軽減できます。デフォルトの値は「1,000ミリ秒」です。
被リンク数による順位付け
検索結果一覧の順位付けに，被リンク数による順位付け機能を使用できます。この機能を使用すると，リンクされている数が多い文書を検索結果の上位に表示します。
on：被リンク数による順位付け機能を使用します。
off：被リンク数による順位付け機能を使用しません。デフォルトの値です。
被リンク数による順位付け機能の詳細については，「5.7.2　被リンク数による順位付け機能を使用する」を参照してください。
アクセス権情報ファイル
収集した文書に対応するアクセス権情報ファイルを，フルパスで指定します。指定を省略した場合は，アクセス権を考慮した検索はできません。

「定義ウィザード（1/2）収集環境の詳細設定」画面に入力した例を次に示します。

図5-6　収集先種別がWWWの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面（入力終了後）

[図データ]

［次へ］ボタンをクリックします。
「定義ウィザード（2/2）新規収集及びスクリプト生成」画面が表示されます。
- 新規収集の実行，および差分収集を実行するためのスクリプトを生成できます。
- 「定義ウィザード（1/2）収集環境の詳細設定」画面に戻る場合は，［戻る］ボタンをクリックしてください。

「定義ウィザード（2/2）新規収集及びスクリプト生成」画面で文書の収集を実行する手順については，「5.1.3　文書の収集を実行する」を参照してください。

(2)　収集先種別がNTFSの場合

収集先種別がNTFSの場合の操作手順について説明します。

作成した収集環境をダブルクリックすると，「定義ウィザード（1/2）収集環境の詳細設定」が表示されます。
　
収集先種別がNTFSの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面を次に示します。

図5-7　収集先種別がNTFSの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面

「収集先」および「詳細情報」を入力します。

収集先: 文書の収集先を指定します。; 収集先フォルダのUNC形式のフルパス名を，1,024バイト以内で指定してください。ネットワークドライブに登録されているドライブを指定する場合でも，ドライブ文字は使用しないでください。; 収集先の指定は，［参照］ボタンをクリックしてフォルダダイアログから選択するか，フルパス名を入力エリアに直接入力します。

詳細情報一覧: 収集先にアクセスするためのネットワークの詳細情報を指定します。; ネットワークドライブを経由してNTFSにアクセスする場合，必要に応じて次の二つのエントリに値を指定してください。; ・ネットワークドライブに接続するユーザ名; ・ネットワークドライブに接続するユーザのパスワード^※

注※: パスワードの前，後ろ，または前後に空白を指定した場合，空白を省略した文字列がパスワードとして設定されます。例えば，エントリ値に「△Hitachi△」と指定した場合，実際のパスワードは「Hitachi」と判断され，詳細情報一覧のエントリ値には「*******」と表示されます。「△Hitachi」，「Hitachi△」と指定した場合も同様の判断となります。

表5-3　バージョンアップした場合に新規インストールと異なるエントリ値（NTFSの場合）

エントリ名	バージョンアップ時の値	新規インストール時の値
収集除外ファイルフィルター	－	.gif;.tif;.tiff;.jpg;.jpeg;.png;*.bmp
アクセス権情報の収集指定	OFF	ON

（凡例）: －：バージョンアップ前にユーザが指定した任意の値が設定されます。

Web参照用のURLパス
「Web参照用のURLパス」のエントリ値には，収集先フォルダのURLを指定します。収集した文書は，WWWブラウザで参照するため，収集先のマシンには，WWWサーバが必要です。WWWサーバを経由しないで参照する場合は，「file://」の形式で指定してください。UNC形式で指定すると，検索時に正しく表示されないおそれがあります。
なお，エントリ値に指定した収集先フォルダのURLの指定に間違いがあると，文書の検索時にWWWブラウザから収集先の文書を参照できません。
収集ファイルフィルター
収集先に指定したファイルから，さらに絞り込む場合にファイル名を指定します。

収集除外フィルター
収集先から除外するファイル名を指定します。デフォルトの値に「*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp」が設定されています。
　
収集ファイルフィルター，および収集除外ファイルフィルターで指定するファイル名には「*」（ワイルドカード）を指定できます。複数のファイル名を指定するときは，ファイル名を「;」（セミコロン）で区切ってください。
ファイル名の指定例を次に示します。

表5-4　ファイル名の指定例（収集先種別がNTFSの場合）

指定例	意味（収集ファイルフィルターを指定した場合）	意味（収集除外ファイルフィルターを指定した場合）
*.txt	テキストファイルだけを収集します	テキストファイルを除外して収集します
.html;.htm;*.pdf	HTMLファイルおよびPDFファイルだけを収集します	HTMLファイルおよびPDFファイルを除外して収集します

アクセス権情報の収集指定
アクセス権を考慮した検索を行う場合に指定します。
ON：アクセス権情報を収集します。デフォルトの値です。
OFF：アクセス権情報を収集しません。
文書の収集，または登録を実行したあとに「アクセス権情報の収集指定」の値を変更した場合，文書の収集，登録，および整合性確保によってテキストデータベースの内容が更新されるまでの間，収集環境の設定と検索結果が異なるときがあります。

　
「定義ウィザード（1/2）収集環境の詳細設定」画面の入力例を次に示します。

図5-8　収集先種別がNTFSの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面（入力終了後）

[図データ]

［次へ］ボタンをクリックします。
「定義ウィザード（2/2）新規収集及びスクリプト生成」画面が表示されます。
- 新規収集の実行，および差分収集を実行するためのスクリプトを生成できます。
- 「定義ウィザード（1/2）収集環境の詳細設定」画面に戻る場合は，［戻る］ボタンをクリックしてください。

(3)　収集先種別がNotesの場合

収集先種別がNotesの場合の操作手順について説明します。

作成した収集環境をダブルクリックすると，「定義ウィザード（1/2）収集環境の詳細設定」が表示されます。
収集先種別がNotesの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面を次に示します。

図5-9　収集先種別がNotesの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面
「収集先」および「詳細情報」を入力します。

収集先

文書の収集先を指定します。

収集先のデータベース名を，1,024バイト以内で指定してください。

詳細情報

収集先にアクセスするためのネットワークの詳細情報を指定します。なお，初期値が設定されている場合，値が指定されていないエントリを選択して［更新］ボタンをクリックすると，そのエントリの値に初期値が設定されます。
- ビュー名
  文書を参照するビュー名を指定します。省略した場合はデフォルトビューで表示します。
- 文書の参照方法
  文書の参照方法を指定します。
  notes：Notes文書を参照します。デフォルトの値です。
  http：Domino Webサーバ経由で参照します。
  なお，どちらの文書の参照方法を指定しても「検索結果一覧」画面に表示されるNotes文書は次の形式で表示されます。
  [NOTES]サーバ名/DBファイル名/ビュー名/タイトル
  文書の情報での検索で「アドレス」を指定した検索の場合も，この形式で指定する必要があります。
- httpのポート番号指定
  文書の参照方法にhttpを指定した場合，httpのプロトコルポート番号を指定します。デフォルトの値は「80」です。
　
「定義ウィザード（1/2）収集環境の詳細設定」画面の入力例を次に示します。

図5-10　収集先種別がNotesの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面（入力終了後）
［次へ］ボタンをクリックします。
「定義ウィザード（2/2）新規収集及びスクリプト生成」画面が表示されます。
- 新規収集の実行，および差分収集を実行するためのスクリプトを生成できます。
- 「定義ウィザード（1/2）収集環境の詳細設定」画面に戻る場合は，［戻る］ボタンをクリックしてください。

(4)　収集先種別がRDBの場合

収集先種別がRDBの場合の操作手順について説明します。

作成した収集環境をダブルクリックすると，「定義ウィザード（1/2）収集環境の詳細設定」が表示されます。
収集先種別がRDBの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面を次に示します。

図5-11　収集先種別がRDBの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面

「収集先」および「詳細情報」を入力します。

収集先: 文書の収集先を指定します。; 収集先には収集するRDBサーバに対応した「データベース名」，「テーブル名」，または「ビュー名」を1,024バイト以内で指定してください。; 収集先に指定する「データベース名」，「テーブル名」，または「ビュー名」の大文字，小文字を区別する場合は「""」（ダブルクォート）で囲んでください。ただし，半角空白，全角空白，半角セミコロンは入力できません。

詳細情報: 収集先にアクセスするためのRDBの詳細情報を指定します。なお，初期値が設定されている場合，値が指定されていないエントリを選択して［更新］ボタンをクリックすると，そのエントリの値に初期値が設定されます。

接続文字列
収集対象のRDBに接続するためのRDB接続文字列を入力します。入力できる文字数は1,024文字までです。何も入力しない場合はエラーとなります。
RDB接続文字列は，収集するRDBごとに異なります。それぞれのRDBの情報を確認してください。
ユーザ名
収集対象のRDBを参照するユーザ名を指定します。入力できる文字数は255文字までです。

認証情報
収集対象のRDBを参照するユーザの認証情報（パスワード）を指定します。入力できる文字数は，半角英数字で128文字までです。
　
接続文字列，ユーザ名，認証情報の設定例を次に示します。
●Oracle Provider for OLE DBを使用して，インスタンス名が「ORCL」のOracle Databaseから文書を収集する場合

接続文字列	Provider=OraOLEDB.Oracle;Data Source=ORCL;User Id=%UID%;Password=%PWD%;
ユーザ名	Oracleに接続するユーザ名
認証情報	Oracleに接続するユーザのパスワード

●OLE DB Provider for SQL Serverを使用して，サーバ名が「Server」，データベース名が「SQLDB」のSQL Serverから文書を収集する場合
・Windows認証を使用してSQL Serverに接続する場合

接続文字列	Provider=SQLOLEDB;Data Source=Server;Initial Catalog=SQLDB;Integrated Security=true;
ユーザ名	なし
認証情報	なし

・SQL Server認証を使用してSQL Serverに接続する場合

接続文字列	Provider=SQLOLEDB;Data Source=Server;Initial Catalog=SQLDB;User Id=%UID%;Password=%PWD%;
ユーザ名	SQL Serverに接続するユーザ名
認証情報	SQL Serverに接続するユーザのパスワード

●HiRDB OLE DBプロバイダを使用して，クライアントの環境変数グループが「ENVCLIENT」のHiRDBから文書を収集する場合

接続文字列	Provider=HiRDBProvider;Data Source=ENVCLIENT;User Id=%UID%;Password=%PWD%;
ユーザ名	HiRDBに接続するユーザ名
認証情報	HiRDBに接続するユーザのパスワード

　
「文書キー列」，「更新判定列」，「文書名列」，「URL列」，「文書位置列」，「文書所有者列」，「文書実体列」，「文書実体ファイル名列」に入力できる文字数は255文字までです。列名の大文字，小文字を区別する場合は「""」（ダブルクォート）で囲んでください。ただし，半角空白，全角空白，半角セミコロンは入力できません。
また，エントリで指定した列が存在しない場合は，収集できません。
　

文書キー列
文書のユニークキーを格納した列名を指定します。
列名に指定できる型は，文字列型，数値型です。
更新判定列
文書の更新を判定する情報を格納した列を指定します。列名に指定できる型は，日付型です。
差分収集を実行する場合，前回の収集からデータが更新されているかの判定を，このエントリに指定した列のデータで行います。
このため，更新判定列の指定を省略した場合は，すべてのデータが差分収集の対象となります。
文書名列
文書名を格納した列名を指定します。列名に指定できる型は，文字列型です。
指定を省略した場合は，文書名列は収集されません。
URL列
Webブラウザのアクセスに使用するURLを格納した列名を指定します。列名に指定できる型は，文字列型です。
指定を省略した場合は，URL列は収集されません。
文書位置列
文書の論理的，または物理的位置を格納した列名を指定します。列名に指定できる型は，文字列型です。
指定を省略した場合は，文書位置列は収集されません。ただし，このエントリでは指定を省略しても，収集時にBibliotheca21が仮定した形式が表示されます。
文書所有者列
文書の所有者を格納した列名を指定します。列名に指定できる型は，文字列型です。指定を省略した場合は，文書所有者列は収集されません。

文書実体列
文書の実体を格納した列名を指定します。指定を省略した場合は，文書実体列は収集されません。
文書実体列に指定できるキー列の型は，OLE DBプロバイダごとに違います。対応するOLE DBプロバイダのデータ型を次の表に示します。なお，指定時に型のチェックは行われません。

OLE DBプロバイダ	指定できる型
Oracle Provider for OLE DBを使用してOracle Databaseの文書を収集する場合	文字列型，バイナリ型
OLE DB Provider for SQL Serverを使用してSQL Serverの文書を収集する場合	文字列型，バイナリ型
HiRDB OLE DBプロバイダを使用してHiRDBの文書を収集する場合	文字列型

文書実体ファイル名列
文書の実体のファイル名を格納した列名を指定します。列名に指定できる型は，文字列型です。指定を省略した場合は，文書実体ファイル名列は収集されません。
アクセス権情報ファイル
収集した文書に対応するアクセス権情報ファイルを，フルパスで指定します。指定を省略した場合は，アクセス権を考慮した検索はできません。

　
Bibliotheca21が対応する各RDBサーバのデータ型を次の表に示します。

Oracle Provider for OLE DB

型名種類

文字列型 CHAR，CLOB，VARCHAR

数値型 BINARY_FLOAT，BINARY_DOUBLE，FLOAT，NUMBER

日付型 DATE，TIMESTAMP

バイナリ型 BFILE，BLOB，RAW，LONG RAW
OLE DB Provider for SQL Server

型名種類

文字列型 char，varchar，text

数値型 numeric，decimal，tinyint，smallint，int，real，float

日付型 smalldatetime，datetime

バイナリ型 binary，varbinary

型名	種類
文字列型	CHAR，CLOB，VARCHAR
数値型	BINARY_FLOAT，BINARY_DOUBLE，FLOAT，NUMBER
日付型	DATE，TIMESTAMP
バイナリ型	BFILE，BLOB，RAW，LONG RAW

型名	種類
文字列型	char，varchar，text
数値型	numeric，decimal，tinyint，smallint，int，real，float
日付型	smalldatetime，datetime
バイナリ型	binary，varbinary

HiRDB OLE DBプロバイダ

型名	種類
文字列型	CHAR，MCHAR，NCHAR，VARCHAR，MVARCHAR，NVARCHAR
数値型	DECIMAL，SMALLINT，INTEGER，REAL，SMALLFLT，FLOAT，DOUBLE PRECISION
日付型	DATE，TIME，TIMESTAMP

　
「定義ウィザード（1/2）収集環境の詳細設定」画面の入力例を次に示します。

図5-12　収集先種別がRDBの場合の「定義ウィザード（1/2）収集環境の詳細設定」画面（入力終了後）

[図データ]

［次へ］ボタンをクリックします。
「定義ウィザード（2/2）新規収集及びスクリプト生成」画面が表示されます。
- 新規収集の実行，および差分収集を実行するためのスクリプトを生成できます。
- 「定義ウィザード（1/2）収集環境の詳細設定」画面に戻る場合は，［戻る］ボタンをクリックしてください。

5.1.2　収集環境の詳細を設定する

(1)　収集先種別がWWWの場合

(2)　収集先種別がNTFSの場合

(3)　収集先種別がNotesの場合

(4)　収集先種別がRDBの場合

5.1.2 収集環境の詳細を設定する

(1) 収集先種別がWWWの場合

(2) 収集先種別がNTFSの場合

(3) 収集先種別がNotesの場合

(4) 収集先種別がRDBの場合

5.1.2　収集環境の詳細を設定する

(1)　収集先種別がWWWの場合

(2)　収集先種別がNTFSの場合

(3)　収集先種別がNotesの場合

(4)　収集先種別がRDBの場合