Hitachi

uCosminexus Enterprise Search 運用ガイド


9.7.1 クロール実行コマンド

クローラータイプがWWW,Groupmaxの場合で,タスクスケジューラーに指定した時間以外にクローラーを実行するときに,このコマンドを使用します。Groupmaxクローラー詳細情報画面では,定義したクローラーの実行はできません。また,WWWクローラー,Groupmaxクローラー以外のクローラーの定義は,このコマンドでは実行できません。「9.7.2 IWSクロールコマンド」を参照してください。

〈この項の構成〉

(1) 形式

IWSCrawler.bat
  -c crawlId
  [-m {new | diff | next | nextnew | nextdiff}]
  [-f MaxDocNum]
  [-t time]
  [-d {yes | no }]
  [-n maxCrawlCount]

(2) 引数

-c crawlId(クローラーID)

クローリングを実行するクローラーIDを指定します。

-m 実行するクローリングの種類

実行するクローリングの種類を指定します。デフォルトの設定はnextdiffです。

new

新規にクローリングを実行します。

diff

前回のクローリングから追加・更新・削除された文書だけのクローリングを実行します。

next

分割クローリングを実行します。初回は新規クローリングを行い,2回目以降のクローリングでは,初回のクローリングでクローリング対象をすべてクローリングしていない場合は,前回の終了時点からクローリングを開始します。初回のクローリングでクローリング対象をすべてクローリングした場合は,クローリングは実行されません。

nextnew

分割クローリングを実行します。初回は,新規クローリングを行い,2回目以降のクローリングでは,初回のクローリングでクローリング対象をすべてクローリングしていない場合は,前回の終了時点からクローリングを開始します。初回のクローリングでクローリング対象をすべてクローリングした場合は,先頭から新規クローリングを実行します。

nextdiff

分割クローリングを実行します。初回は,新規クローリングを行い,2回目以降のクローリングでは,前回のクローリングでクローリング対象をすべてクローリングした場合は,先頭から差分クローリングを実行します。

前回のクローリングでクローリング対象をすべてクローリングしていない場合は,前回のクローリング終了時点から,前回が初回であった場合は新規クローリング,前回が2回目以降の場合は差分クローリングを実行します。

参考

分割クローリングとは,前回のクローリングで指定件数や指定時間により途中で中断した位置からクローリングを実行することです。

クローリング件数に100件を指定した場合の,分割クローリングの指定値によるクローリングの差異を次の表に示します。なお,分割クローリングとは,前回のクローリングで指定件数や指定時間により途中で中断した位置からクローリングを実行することです。

表9‒4 分割クローリングの指定値による差異

指定値

1回目

2回目

すべてクローリング済み

クローリングが残っている

next

100件までクローリングを実行

実行しない

1回目の終了時点から100件クローリングを実行

nextnew

100件までクローリングを実行

先頭から100件新規クローリングを実行

1回目の終了時点から100件クローリングを実行

nextdiff

100件まで差分クローリングを実行

先頭から100件差分クローリングを実行

1回目の終了時点から100件差分クローリングを実行

-f MaxDocNum(クローリング文書数)

クローリングする文書数を1〜2,147,483,647の範囲で指定します。指定を省略した場合は,全件クローリングを行います。指定できる範囲外の値を指定した場合は,エラーとなります。

-t time(クローリング実行時間)

クローリングを実行する時間をhhmm形式で指定します。hhは0〜23,MMは00〜59までが指定できます。

クローリングを開始したあとに指定した時間が経過した場合は,クローリングを終了します。指定を省略した場合は,無制限で動作します。指定できる形式以外の値を指定した場合は,エラーとなります。

-d 登録済みデータの削除

クローリングの完了後に,すでに登録済みのデータが今回クローリングしたデータ中に含まれない場合,削除するかどうかを指定します。なお,yesを指定した場合でも,終了コードに0が出力されていないときは,削除は実行されていません。

yes

今回のクローリング時に含まれない登録済みのデータを削除します。

no

今回のクローリング時に含まれない登録済みのデータを削除しません。デフォルトの設定です。

-n maxCrawlCount(参照コンテンツ数)

参照するコンテンツ数を1〜2,147,483,647の範囲で指定します。指定を省略した場合は,全件を参照します。指定できる範囲外の値を指定した場合は,エラーとなります。

この引数はWWWクローラーの場合だけ有効になります。WWWクローラー以外に指定した場合は,この引数を無視して動作します。

注意事項

引数が誤りの場合は,次の形式でメッセージが出力されます

エラー(Usage: IWSCrawler.bat -c crawlId [-m {new | diff | next | nextnew | nextdiff}] [-f MaxDocNum] [-t time] [-n maxCrawlCount])

(3) 入出力

なし。

(4) 終了コード

0:正常終了

正常終了した場合に出力されます。全件クローリングを実行しました。

1:正常終了

件数,または時間指定による中断で終了した場合に出力されます。

10:警告終了

引数エラーで終了した場合に出力されます。

クローラータイプがGroupmaxの場合,次の終了コードが出力されます。

  • 11:登録データが不整合です。クローリングはすべて実行済みです。

  • 12:登録データが不整合です。件数,または時間指定により中断しました。

20:異常終了

次のどれかが原因で異常終了した場合に出力されます。

  • データベースの接続に失敗しました。

  • 各種定義ファイルの参照に失敗しました。

  • コマンド実行時の引数に誤りがあります。

(5) 注意事項