5.4.3 WWWクローラー詳細情報
WWW固有のクローラー情報の詳細情報について説明します。他のクローラーと共通の設定については,「5.4.1 クローラー詳細情報の共通設定項目」を参照してください。
WWWクローラー詳細情報画面の項目を次の表に示します。
# |
項目名 |
指定規則 |
説明 |
---|---|---|---|
① |
サイトURL |
必須 |
サイトのURLを入力します。 入力できる文字数は100文字以内です。URLと認識できない文字を入力した場合はエラーとなります。 |
② |
プロキシ |
必須 |
共通定義で登録したプロキシ定義のタイトルが,プルダウンメニューに表示されます。利用するプロキシを選択します。 |
③ |
Basic認証 |
必須 |
共通定義で登録したユーザー認証定義のタイトルが,プルダウンメニューに表示されます。利用するユーザー認証を選択します。 |
④ |
SiteMinder認証 |
必須 |
共通定義で登録したSiteMinder定義のタイトルが,プルダウンメニューに表示されます。利用するSiteMinder認証を選択します。 |
⑤ |
インターバル |
必須 |
サイトへアクセスする間隔を0〜1,800,000ミリ秒の範囲で入力します。入力できる文字数は,半角数字で7文字以内です。デフォルトでは,1,000ミリ秒が設定されています。 指定できる範囲以外の文字を入力した場合はエラーとなります。 |
⑥ |
フィルター※1※2 |
任意 |
クローリングを行うURLのフィルター式を入力します。入力できる文字数は1,024文字以内です。 「を含む」にはクロール対象に含むフィルター式を,「を除く」には,クロール対象から除くフィルター式を指定できます。フィルター式の正当性はチェックされません。
「を除く」,「を含む」の両方を指定した場合,「を除く」で指定された条件にマッチしないURLのうち,「を含む」で指定された条件にマッチするURLのクローリングを実行します。 なお,フィルターにより制限されたURLへは,アクセスを行いません。 |
- 注※1
-
正規化されたあとのURLのフィルター式の意味を,次の表に示します。
表5‒7 正規化されたあとのURLのフィルター式の意味 フィルター定義
意味
*(ワイルドカード)
任意の文字0文字以上として扱われます。
?(ワイルドカード)
任意の文字1文字として扱われます。
任意のシングルバイト文字
大文字と小文字は,同一文字として扱われます。
任意のマルチバイト文字(UTF-8)
そのまま比較します。
;(セミコロン)
セパレーターです。
このセパレーターで複数のフィルターを指定できます。
- 注※2
-
フィルター式に何も指定しない場合は,次の表のとおりとなります。
表5‒8 フィルター式に何も指定しない場合 フィルター種類
デフォルト
備考
クロール対象に含むフィルター式
なし
−
クロール対象から除くフィルター式
*.gif;*.tif;*.tiff;*.jpg;*.jpeg;*.png;*.bmp
既定の画像ファイル