Hitachi

uCosminexus Enterprise Search 環境設定ガイド


2.5.2 contents/WEB-INF/classes/crawl.properties

Enterprise Searchのクローリング機能の指定を行います。

WWWクローラーに対するプロパティは,アクセス権をクロールする設定にしている場合だけ適用されます。

表2‒5  crawl.propertiesの設定値

プロパティ名

デフォルト値

説明

crawl[.クローラーID].WebRetryCount※1

3

WWWクローラーのWebアクセスでエラーが発生した場合に,再接続を実施する回数を指定します。

指定できる回数は,0〜10です。

範囲外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebRetryIntervalTime※1

1

WWWクローラーのWebアクセスでエラーが発生した場合に,再接続までのインターバル時間を指定します。

指定できるインターバル時間は,0〜10(秒)です。

範囲外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebTimeOut※1

30

WWWクローラーのWebアクセス時のタイムアウト時間を指定します。

指定できる時間は,1〜3,600(秒)です。

範囲外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebHtmlContentType※1※2

text/html

WWWクローラーで,HTMLとして判定するHTTPヘッダのコンテンツタイプを指定します。

コンテンツタイプ文字列は正規表現で指定します。また,複数指定する場合も正規表現で指定します。

指定例を次に示します。

  • 指定例

  • (?:text/html$|text/plain$)

正規表現として不正な値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebCssContentType※1※2

text/css

WWWクローラーで,スタイルシートとして判定するHTTPヘッダのコンテンツタイプを指定します。

コンテンツタイプ文字列は正規表現で指定します。また,複数指定する場合も正規表現で指定します。

正規表現として不正な値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebJavascriptContentType※1※2

text/javascript

WWWクローラーで,スクリプトとして判定するHTTPヘッダのコンテンツタイプを指定します。

コンテンツタイプ文字列は正規表現で指定します。また,複数指定する場合も正規表現で指定します。

正規表現として不正な値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebXMLContentType※1※2

(?:text/.*xml|application/.*xml)

WWWクローラーで,XMLとして判定するHTTPヘッダのコンテンツタイプを指定します。

コンテンツタイプ文字列は正規表現で指定します。また,複数指定する場合も正規表現で指定します。

正規表現として不正な値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebArrowOverData※1

10

WWWクローラーでダウンロードするコンテンツのサイズを制限します。

指定できるサイズは,0〜100(MB)です。

0を指定した場合は,無制限となります。

指定値を越えるサイズのコンテンツは,クロール対象になりません。

crawl[.クローラーID].WebsslNoCertificateMode※1

on

WWWクローラーでHTTPS接続時に,証明書の署名エラーを無視するかどうかを指定します。

指定できる値を次に示します。

  • on:署名エラーを無視します。

  • off:署名エラーを無視しません。

既定以外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebMaxRedirect※1

10

WWWクローラーでリダイレクトが発生した場合に,リダイレクトを追跡する回数を指定します。

指定できる回数は,0〜100です。

範囲外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebMaxLinkClassNumber※1

128

WWWクローラーでクロール対象とするリンク回数を指定します。

指定できる回数は,1〜1024です。

範囲外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebMaxServerNumber※1

1

WWWクローラーでクロール対象とするWebサーバーの数を指定します。

指定できる数は,1〜1024です。

範囲外の値を指定した場合,クローリングは定義エラーで終了します。

crawl[.クローラーID].WebRequestAccept※1

*/*

WWWクローラーのWebアクセスで,HTTPヘッダのAcceptに指定する文字列を指定します。

crawl[.クローラーID].WebRequestAcceptCharset※1

*

WWWクローラーのWebアクセスで,HTTPヘッダのAccept-Charsetに指定する文字列を指定します。

crawl[.クローラーID].WebRequestAcceptEncoding※1

gzip

WWWクローラーのWebアクセスで,HTTPヘッダのAccept-Encodingに指定する文字列を指定します。

crawl[.クローラーID].WebRequestAcceptLanguage※1

Ja,*

WWWクローラーのWebアクセスで,HTTPヘッダのAccept-Languageに指定する文字列を指定します。

注※1

クローラーIDあり・なしの両方が指定できるプロパティは,特定のクローラーだけを別の設定で動作させたい場合に使い分けます。定義ファイルに両方が指定されている場合は,クローラーIDありの定義を優先します。また,クローラー定義ありの定義が不正値の場合は,クローラー定義なしの定義が正しくてもクローリングエラーになります。

注※2

一つのコンテンツタイプが,各プロパティに記載されている正規表現の複数と合致する場合の優先順位は以下となります。

 HTML > XML > CSS > JavaScript