Bibliotheca21 Version 2 Standard

[目次][用語][索引][前へ][次へ]

5.1.2 収集環境の詳細を設定する

収集環境を作成したあと表示される「定義ウィザード(1/2)収集環境の詳細設定」画面について,収集先種別ごとに説明します。

<この項の構成>
(1) 収集先種別がWWWの場合
(2) 収集先種別がNTFSの場合
(3) 収集先種別がNotesの場合
(4) 収集先種別がRDBの場合

(1) 収集先種別がWWWの場合

収集先種別がWWWの場合の操作手順について説明します。

  1. 作成した収集環境をダブルクリックすると,「定義ウィザード(1/2)収集環境の詳細設定」が表示されます。
    収集先種別がWWWの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面を次に示します。

    図5-4 収集先種別がWWWの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面

    [図データ]

  2. 「収集先」および「詳細情報」を入力します。
    収集先
    文書の収集先を指定します。収集先のURLを1,024バイト以内で指定してください。
    詳細情報一覧
    収集先にアクセスするためのネットワークの詳細情報を指定します。
    プロキシサーバを経由してWWWサーバにアクセスする場合,必要に応じて次の五つのエントリに値を指定します。
    • プロキシサーバのホスト名
    • プロキシサーバのポート番号
    • プロキシサーバからの問い合わせ情報
    • プロキシサーバに認証されるユーザ名
    • プロキシサーバに認証されるユーザのパスワード
    注※
    パスワードの前,後ろ,または前後に空白を指定した場合,空白を省略した文字列がパスワードとして設定されます。例えば,エントリ値に「△Hitachi△」と指定した場合,実際のパスワードは「Hitachi」と判断され,詳細情報一覧のエントリ値には「*******」と表示されます。「△Hitachi」,「Hitachi△」と指定した場合も同様の判断となります。
     
    Bibliotheca21をバージョンアップした場合,次の表に示すエントリはBibliotheca21を新規にインストールしたときと表示されるエントリの値に違いがあります。エントリ値を変更する場合は,エントリの値を更新したあと再収集してください。
    バージョンアップした場合に,新規インストール時の値と異なるエントリを次の表に示します。

    表5-1 バージョンアップした場合に新規インストールと異なるエントリ値(WWWの場合)

    エントリ名 バージョンアップ時の値 新規インストール時の値
    収集URLフィルター /*
    収集除外URLフィルター *.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp
    内容による更新の判断 nouse use
    URLの同一性判定方法 0 1

    (凡例) −:バージョンアップ前にユーザが指定した任意の値が設定されます。

     
    • 収集URLフィルター
      収集先に指定したURLから,さらに絞り込むURLを指定します。デフォルトの値に「/*」が設定されています。
    • 収集除外URLフィルター
      収集先に指定したURLから除外するURLを指定します。テキストが存在しないファイルを除外するために,デフォルトの値として「*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp」が設定されています。
       
      収集URLフィルター,および収集除外URLフィルターで指定するURLには,「*」(ワイルドカード)を指定できます。また,「/」(スラッシュ)を使用して,収集先に指定したURLの末尾フォルダからの相対パスで指定できます。
      複数のファイル名を指定するときは,ファイル名を「;」(セミコロン)で区切ってください。
      収集URLフィルター,および収集除外URLフィルターを指定する場合のファイル名の指定例を次に示します。

      表5-2 ファイル名の指定例(収集先種別がWWWの場合)

      指定例 意味(収集URLフィルターに指定した場合) 意味(収集除外URLフィルターに指定した場合)
      *.txt テキストファイルだけを収集します テキストファイルを除外して収集します
      *.html;*.htm;*.pdf HTMLファイルおよびPDFファイルだけを収集します HTMLファイルおよびPDFファイルを除外して収集します
      /* 収集先に指定したURLの末尾フォルダ以下を収集します 収集先に指定したURLの中から,末尾フォルダ以下を除外して収集します

      「http://www.hitachi.co.jp/New/anews」を収集先に指定した場合の例を次に示します。

      • 収集URLフィルターに「/*」を設定した場合
        「/anews」以下のファイルだけが収集され,「http://www.hitachi.co.jp/New」までのパスに含まれるファイルは収集されません。
      • 収集除外URLフィルターに「/*」を設定した場合
        「http://www.hitachi.co.jp/New」までのパスに含まれるすべてのファイルが収集され,「/anews」以下のファイルは収集されません。

    • 内容による更新の判断
      収集した文書が前回収集済みの文書と同じであるかどうかを,更新時間,または文書の内容を比較して判断します。
      use:更新時間に差がある場合,内容を比較して更新を判断します。デフォルトの値です。
      nouse:更新時間に差がある文書は更新します。文書の内容は比較しません。
    • URLの同一性判定方法
      収集された異なる表記のURLが同じ実体ファイルを指すような場合に,テキストデータベースに重複したデータを登録しないために,URLが同一かどうか判定する基準を指定できます。
      0:完全一致を判定基準とします。
      完全一致とは,大文字,小文字,URLエンコード,相対位置のそれぞれの項目が完全に等しいことをいいます。ただし,ホスト名の大文字,小文字は区別されません。
      1:正規化を判定基準とします。デフォルトの値です。
      URLの正規化はURL構文に従ったものに変換します。URL構文の例を次に示します。

      図5-5 URL同一性判定のURL構文の例

      [図データ]

      URL構文の注意事項を次に示します。
    • ホスト名およびエスケープ内については英大文字,小文字の区別はされません。
    • デフォルトのポート番号を使用する場合,ポート番号は省略されます。
    • URLエンコードについては,展開前のデータはエンコードを行い,同一性判定をします。URLエンコードでの16進表記のアルファベットは,大文字および小文字の区別はされません。
    • 展開前のURLについては,ホスト名からあとのURLに対して,次の文字コード以外のエンコードを行います。
      a〜z A〜Z 0〜9 $ - _ . + ! * ' ( ) , ; : @ & = /
    • ユーザインフォメーションはURLに含めません。
    • #で記載した情報は削除されます。全体を示すURLが対象です。
    • クエリーパラメタは内容を判定できないため,完全一致となります。
      ポイント
      例えば,「http://localhost/www/日立/index.html」と「http://localhost/www/%93%fa%97%a7/index.html」を比較した場合,URLの同一性判定方法に「完全一致」を指定した場合は別URLと判断され,「正規化」を指定した場合は同一URLと判断されます。
       
    • ダウンロード間隔
      文書の収集をダウンロードする間隔を0〜600,000ミリ秒の範囲で指定して,WWWサーバの負荷を軽減できます。デフォルトの値は「1,000ミリ秒」です。
    • 被リンク数による順位付け
      検索結果一覧の順位付けに,被リンク数による順位付け機能を使用できます。この機能を使用すると,リンクされている数が多い文書を検索結果の上位に表示します。
      on:被リンク数による順位付け機能を使用します。
      off:被リンク数による順位付け機能を使用しません。デフォルトの値です。
      被リンク数による順位付け機能の詳細については,「5.7.2 被リンク数による順位付け機能を使用する」を参照してください。
    • アクセス権情報ファイル
      収集した文書に対応するアクセス権情報ファイルを,フルパスで指定します。指定を省略した場合は,アクセス権を考慮した検索はできません。
    「定義ウィザード(1/2)収集環境の詳細設定」画面に入力した例を次に示します。

    図5-6 収集先種別がWWWの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面(入力終了後)

    [図データ]

  3. [次へ]ボタンをクリックします。
    「定義ウィザード(2/2)新規収集及びスクリプト生成」画面が表示されます。
    • 新規収集の実行,および差分収集を実行するためのスクリプトを生成できます。
    • 「定義ウィザード(1/2)収集環境の詳細設定」画面に戻る場合は,[戻る]ボタンをクリックしてください。

「定義ウィザード(2/2)新規収集及びスクリプト生成」画面で文書の収集を実行する手順については,「5.1.3 文書の収集を実行する」を参照してください。

(2) 収集先種別がNTFSの場合

収集先種別がNTFSの場合の操作手順について説明します。

  1. 作成した収集環境をダブルクリックすると,「定義ウィザード(1/2)収集環境の詳細設定」が表示されます。
     
    収集先種別がNTFSの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面を次に示します。

    図5-7 収集先種別がNTFSの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面

    [図データ]

  2. 「収集先」および「詳細情報」を入力します。
    収集先
    文書の収集先を指定します。
    収集先フォルダのUNC形式のフルパス名を,1,024バイト以内で指定してください。ネットワークドライブに登録されているドライブを指定する場合でも,ドライブ文字は使用しないでください。
    収集先の指定は,[参照]ボタンをクリックしてフォルダダイアログから選択するか,フルパス名を入力エリアに直接入力します。
    詳細情報一覧
    収集先にアクセスするためのネットワークの詳細情報を指定します。
    ネットワークドライブを経由してNTFSにアクセスする場合,必要に応じて次の二つのエントリに値を指定してください。
    ・ネットワークドライブに接続するユーザ名
    ・ネットワークドライブに接続するユーザのパスワード
    注※
    パスワードの前,後ろ,または前後に空白を指定した場合,空白を省略した文字列がパスワードとして設定されます。例えば,エントリ値に「△Hitachi△」と指定した場合,実際のパスワードは「Hitachi」と判断され,詳細情報一覧のエントリ値には「*******」と表示されます。「△Hitachi」,「Hitachi△」と指定した場合も同様の判断となります。
     
    Bibliotheca21をバージョンアップした場合,次の表に示すエントリはBibliotheca21を新規にインストールしたときと表示されるエントリの値に違いがあります。エントリ値を変更する場合は,エントリの値を更新したあと再収集してください。
    バージョンアップした場合に,新規インストール時の値と異なるエントリを次の表に示します。

    表5-3 バージョンアップした場合に新規インストールと異なるエントリ値(NTFSの場合)

    エントリ名 バージョンアップ時の値 新規インストール時の値
    収集除外ファイルフィルター *.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp
    アクセス権情報の収集指定 OFF ON

    (凡例)
    −:バージョンアップ前にユーザが指定した任意の値が設定されます。

     
    • Web参照用のURLパス
      「Web参照用のURLパス」のエントリ値には,収集先フォルダのURLを指定します。収集した文書は,WWWブラウザで参照するため,収集先のマシンには,WWWサーバが必要です。WWWサーバを経由しないで参照する場合は,「file://」の形式で指定してください。UNC形式で指定すると,検索時に正しく表示されないおそれがあります。
      なお,エントリ値に指定した収集先フォルダのURLの指定に間違いがあると,文書の検索時にWWWブラウザから収集先の文書を参照できません。
    • 収集ファイルフィルター
      収集先に指定したファイルから,さらに絞り込む場合にファイル名を指定します。
    • 収集除外フィルター
      収集先から除外するファイル名を指定します。デフォルトの値に「*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp」が設定されています。
       
      収集ファイルフィルター,および収集除外ファイルフィルターで指定するファイル名には「*」(ワイルドカード)を指定できます。複数のファイル名を指定するときは,ファイル名を「;」(セミコロン)で区切ってください。
      ファイル名の指定例を次に示します。

      表5-4 ファイル名の指定例(収集先種別がNTFSの場合)

      指定例 意味(収集ファイルフィルターを指定した場合) 意味(収集除外ファイルフィルターを指定した場合)
      *.txt テキストファイルだけを収集します テキストファイルを除外して収集します
      *.html;*.htm;*.pdf HTMLファイルおよびPDFファイルだけを収集します HTMLファイルおよびPDFファイルを除外して収集します
       
    • アクセス権情報の収集指定
      アクセス権を考慮した検索を行う場合に指定します。
      ON:アクセス権情報を収集します。デフォルトの値です。
      OFF:アクセス権情報を収集しません。
      文書の収集,または登録を実行したあとに「アクセス権情報の収集指定」の値を変更した場合,文書の収集,登録,および整合性確保によってテキストデータベースの内容が更新されるまでの間,収集環境の設定と検索結果が異なるときがあります。
     
    「定義ウィザード(1/2)収集環境の詳細設定」画面の入力例を次に示します。

    図5-8 収集先種別がNTFSの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面(入力終了後)

    [図データ]

  3. [次へ]ボタンをクリックします。
    「定義ウィザード(2/2)新規収集及びスクリプト生成」画面が表示されます。
    • 新規収集の実行,および差分収集を実行するためのスクリプトを生成できます。
    • 「定義ウィザード(1/2)収集環境の詳細設定」画面に戻る場合は,[戻る]ボタンをクリックしてください。

「定義ウィザード(2/2)新規収集及びスクリプト生成」画面で文書の収集を実行する手順については,「5.1.3 文書の収集を実行する」を参照してください。

(3) 収集先種別がNotesの場合

収集先種別がNotesの場合の操作手順について説明します。

  1. 作成した収集環境をダブルクリックすると,「定義ウィザード(1/2)収集環境の詳細設定」が表示されます。
    収集先種別がNotesの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面を次に示します。

    図5-9 収集先種別がNotesの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面

    [図データ]

  2. 「収集先」および「詳細情報」を入力します。
    収集先
    文書の収集先を指定します。
    収集先のデータベース名を,1,024バイト以内で指定してください。
    詳細情報
    収集先にアクセスするためのネットワークの詳細情報を指定します。なお,初期値が設定されている場合,値が指定されていないエントリを選択して[更新]ボタンをクリックすると,そのエントリの値に初期値が設定されます。
    • ビュー名
      文書を参照するビュー名を指定します。省略した場合はデフォルトビューで表示します。
    • 文書の参照方法
      文書の参照方法を指定します。
      notes:Notes文書を参照します。デフォルトの値です。
      http:Domino Webサーバ経由で参照します。
      なお,どちらの文書の参照方法を指定しても「検索結果一覧」画面に表示されるNotes文書は次の形式で表示されます。
      [NOTES]サーバ名/DBファイル名/ビュー名/タイトル
      文書の情報での検索で「アドレス」を指定した検索の場合も,この形式で指定する必要があります。
    • httpのポート番号指定
      文書の参照方法にhttpを指定した場合,httpのプロトコルポート番号を指定します。デフォルトの値は「80」です。
     
    「定義ウィザード(1/2)収集環境の詳細設定」画面の入力例を次に示します。

    図5-10 収集先種別がNotesの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面(入力終了後)

    [図データ]

  3. [次へ]ボタンをクリックします。
    「定義ウィザード(2/2)新規収集及びスクリプト生成」画面が表示されます。
    • 新規収集の実行,および差分収集を実行するためのスクリプトを生成できます。
    • 「定義ウィザード(1/2)収集環境の詳細設定」画面に戻る場合は,[戻る]ボタンをクリックしてください。

「定義ウィザード(2/2)新規収集及びスクリプト生成」画面で文書の収集を実行する手順については,「5.1.3 文書の収集を実行する」を参照してください。

(4) 収集先種別がRDBの場合

収集先種別がRDBの場合の操作手順について説明します。

  1. 作成した収集環境をダブルクリックすると,「定義ウィザード(1/2)収集環境の詳細設定」が表示されます。
    収集先種別がRDBの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面を次に示します。

    図5-11 収集先種別がRDBの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面

    [図データ]

  2. 「収集先」および「詳細情報」を入力します。
    収集先
    文書の収集先を指定します。
    収集先には収集するRDBサーバに対応した「データベース名」,「テーブル名」,または「ビュー名」を1,024バイト以内で指定してください。
    収集先に指定する「データベース名」,「テーブル名」,または「ビュー名」の大文字,小文字を区別する場合は「""」(ダブルクォート)で囲んでください。ただし,半角空白,全角空白,半角セミコロンは入力できません。
    詳細情報
    収集先にアクセスするためのRDBの詳細情報を指定します。なお,初期値が設定されている場合,値が指定されていないエントリを選択して[更新]ボタンをクリックすると,そのエントリの値に初期値が設定されます。
    • 接続文字列
      収集対象のRDBに接続するためのRDB接続文字列を入力します。入力できる文字数は1,024文字までです。何も入力しない場合はエラーとなります。
      RDB接続文字列は,収集するRDBごとに異なります。それぞれのRDBの情報を確認してください。
    • ユーザ名
      収集対象のRDBを参照するユーザ名を指定します。入力できる文字数は255文字までです。
    • 認証情報
      収集対象のRDBを参照するユーザの認証情報(パスワード)を指定します。入力できる文字数は,半角英数字で128文字までです。
       
      接続文字列,ユーザ名,認証情報の設定例を次に示します。
      ●Oracle Provider for OLE DBを使用して,インスタンス名が「ORCL」のOracle Databaseから文書を収集する場合
      接続文字列 Provider=OraOLEDB.Oracle;Data Source=ORCL;User Id=%UID%;Password=%PWD%;
      ユーザ名 Oracleに接続するユーザ名
      認証情報 Oracleに接続するユーザのパスワード
      ●OLE DB Provider for SQL Serverを使用して,サーバ名が「Server」,データベース名が「SQLDB」のSQL Serverから文書を収集する場合
      ・Windows認証を使用してSQL Serverに接続する場合
      接続文字列 Provider=SQLOLEDB;Data Source=Server;Initial Catalog=SQLDB;Integrated Security=true;
      ユーザ名 なし
      認証情報 なし
      ・SQL Server認証を使用してSQL Serverに接続する場合
      接続文字列 Provider=SQLOLEDB;Data Source=Server;Initial Catalog=SQLDB;User Id=%UID%;Password=%PWD%;
      ユーザ名 SQL Serverに接続するユーザ名
      認証情報 SQL Serverに接続するユーザのパスワード
      ●HiRDB OLE DBプロバイダを使用して,クライアントの環境変数グループが「ENVCLIENT」のHiRDBから文書を収集する場合
      接続文字列 Provider=HiRDBProvider;Data Source=ENVCLIENT;User Id=%UID%;Password=%PWD%;
      ユーザ名 HiRDBに接続するユーザ名
      認証情報 HiRDBに接続するユーザのパスワード
     
    「文書キー列」,「更新判定列」,「文書名列」,「URL列」,「文書位置列」,「文書所有者列」,「文書実体列」,「文書実体ファイル名列」に入力できる文字数は255文字までです。列名の大文字,小文字を区別する場合は「""」(ダブルクォート)で囲んでください。ただし,半角空白,全角空白,半角セミコロンは入力できません。
    また,エントリで指定した列が存在しない場合は,収集できません。
     
    • 文書キー列
      文書のユニークキーを格納した列名を指定します。
      列名に指定できる型は,文字列型,数値型です。
    • 更新判定列
      文書の更新を判定する情報を格納した列を指定します。列名に指定できる型は,日付型です。
      差分収集を実行する場合,前回の収集からデータが更新されているかの判定を,このエントリに指定した列のデータで行います。
      このため,更新判定列の指定を省略した場合は,すべてのデータが差分収集の対象となります。
    • 文書名列
      文書名を格納した列名を指定します。列名に指定できる型は,文字列型です。
      指定を省略した場合は,文書名列は収集されません。
    • URL列
      Webブラウザのアクセスに使用するURLを格納した列名を指定します。列名に指定できる型は,文字列型です。
      指定を省略した場合は,URL列は収集されません。
    • 文書位置列
      文書の論理的,または物理的位置を格納した列名を指定します。列名に指定できる型は,文字列型です。
      指定を省略した場合は,文書位置列は収集されません。ただし,このエントリでは指定を省略しても,収集時にBibliotheca21が仮定した形式が表示されます。
    • 文書所有者列
      文書の所有者を格納した列名を指定します。列名に指定できる型は,文字列型です。指定を省略した場合は,文書所有者列は収集されません。
    • 文書実体列
      文書の実体を格納した列名を指定します。指定を省略した場合は,文書実体列は収集されません。
      文書実体列に指定できるキー列の型は,OLE DBプロバイダごとに違います。対応するOLE DBプロバイダのデータ型を次の表に示します。なお,指定時に型のチェックは行われません。
      OLE DBプロバイダ 指定できる型
      Oracle Provider for OLE DBを使用してOracle Databaseの文書を収集する場合 文字列型,バイナリ型
      OLE DB Provider for SQL Serverを使用してSQL Serverの文書を収集する場合 文字列型,バイナリ型
      HiRDB OLE DBプロバイダを使用してHiRDBの文書を収集する場合 文字列型
    • 文書実体ファイル名列
      文書の実体のファイル名を格納した列名を指定します。列名に指定できる型は,文字列型です。指定を省略した場合は,文書実体ファイル名列は収集されません。
    • アクセス権情報ファイル
      収集した文書に対応するアクセス権情報ファイルを,フルパスで指定します。指定を省略した場合は,アクセス権を考慮した検索はできません。
     
    Bibliotheca21が対応する各RDBサーバのデータ型を次の表に示します。
    • Oracle Provider for OLE DB
      型名 種類
      文字列型 CHAR,CLOB,VARCHAR
      数値型 BINARY_FLOAT,BINARY_DOUBLE,FLOAT,NUMBER
      日付型 DATE,TIMESTAMP
      バイナリ型 BFILE,BLOB,RAW,LONG RAW
    • OLE DB Provider for SQL Server
      型名 種類
      文字列型 char,varchar,text
      数値型 numeric,decimal,tinyint,smallint,int,real,float
      日付型 smalldatetime,datetime
      バイナリ型 binary,varbinary
    • HiRDB OLE DBプロバイダ
      型名 種類
      文字列型 CHAR,MCHAR,NCHAR,VARCHAR,MVARCHAR,NVARCHAR
      数値型 DECIMAL,SMALLINT,INTEGER,REAL,SMALLFLT,FLOAT,DOUBLE PRECISION
      日付型 DATE,TIME,TIMESTAMP
     
    「定義ウィザード(1/2)収集環境の詳細設定」画面の入力例を次に示します。

    図5-12 収集先種別がRDBの場合の「定義ウィザード(1/2)収集環境の詳細設定」画面(入力終了後)

    [図データ]

  3. [次へ]ボタンをクリックします。
    「定義ウィザード(2/2)新規収集及びスクリプト生成」画面が表示されます。
    • 新規収集の実行,および差分収集を実行するためのスクリプトを生成できます。
    • 「定義ウィザード(1/2)収集環境の詳細設定」画面に戻る場合は,[戻る]ボタンをクリックしてください。

「定義ウィザード(2/2)新規収集及びスクリプト生成」画面で文書の収集を実行する手順については,「5.1.3 文書の収集を実行する」を参照してください。