Hitachi

uCosminexus Enterprise Search 運用ガイド


5.4.3 WWWクローラー詳細情報

WWW固有のクローラー情報の詳細情報について説明します。他のクローラーと共通の設定については,「5.4.1 クローラー詳細情報の共通設定項目」を参照してください。

図5‒6 WWWクローラー詳細情報画面

[図データ]

WWWクローラー詳細情報画面の項目を次の表に示します。

表5‒6 WWWクローラー詳細情報画面の項目

#

項目名

指定規則

説明

サイトURL

必須

サイトのURLを入力します。

入力できる文字数は100文字以内です。URLと認識できない文字を入力した場合はエラーとなります。

プロキシ

必須

共通定義で登録したプロキシ定義のタイトルが,プルダウンメニューに表示されます。利用するプロキシを選択します。

Basic認証

必須

共通定義で登録したユーザー認証定義のタイトルが,プルダウンメニューに表示されます。利用するユーザー認証を選択します。

SiteMinder認証

必須

共通定義で登録したSiteMinder定義のタイトルが,プルダウンメニューに表示されます。利用するSiteMinder認証を選択します。

インターバル

必須

サイトへアクセスする間隔を0〜1,800,000ミリ秒の範囲で入力します。入力できる文字数は,半角数字で7文字以内です。デフォルトでは,1,000ミリ秒が設定されています。

指定できる範囲以外の文字を入力した場合はエラーとなります。

フィルター※1※2

任意

クローリングを行うURLのフィルター式を入力します。入力できる文字数は1,024文字以内です。

「を含む」にはクロール対象に含むフィルター式を,「を除く」には,クロール対象から除くフィルター式を指定できます。フィルター式の正当性はチェックされません。

  • 「を含む」

    フィルター式にマッチするURLのクローリングを実行します。

  • 「を除く」

    フィルター式にマッチするURLのクローリングを実行しません。「*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp」がデフォルトで設定されています。

「を除く」,「を含む」の両方を指定した場合,「を除く」で指定された条件にマッチしないURLのうち,「を含む」で指定された条件にマッチするURLのクローリングを実行します。

なお,フィルターにより制限されたURLへは,アクセスを行いません。

注※1

正規化されたあとのURLのフィルター式の意味を,次の表に示します。

表5‒7 正規化されたあとのURLのフィルター式の意味

フィルター定義

意味

*(ワイルドカード)

任意の文字0文字以上として扱われます。

?(ワイルドカード)

任意の文字1文字として扱われます。

任意のシングルバイト文字

大文字と小文字は,同一文字として扱われます。

任意のマルチバイト文字(UTF-8)

そのまま比較します。

;(セミコロン)

セパレーターです。

このセパレーターで複数のフィルターを指定できます。

注※2

フィルター式に何も指定しない場合は,次の表のとおりとなります。

表5‒8 フィルター式に何も指定しない場合

フィルター種類

デフォルト

備考

クロール対象に含むフィルター式

なし

クロール対象から除くフィルター式

*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp

既定の画像ファイル