Hitachi

uCosminexus Enterprise Search 環境設定ガイド


1.4.3 インデクスの検討

HiRDB XML Extension Version 9(09-04以降)では,インデクスV2を利用することができます。インデクスV2は,09-03以前のインデクス(以下インデクスV1とする)とは異なるデータ構造を持つ検索インデクスです。

インデクスV2は次の特長があります。詳細はマニュアル「HiRDB XML Extension Version 9」を参照してください。

  1. 検索速度の向上

    次のような検索が速くなります。

    • 出現頻度が低い文字を含む長い文字列の検索

    • 出現頻度が低い単語を含むAND条件検索

    • 出現頻度が高い単語同士のOR条件検索

    一方で,登録時間はインデクスV1と比較して遅くなります。また,インデクスサイズはインデクスV1の1.3倍必要となります。

  2. 文字列インクリメンタル機能

    文字列インクリメンタル機能は,特定の文字列(3文字以上)の検索を速くする機能です。例えば,よく検索される単語や,他の検索に比べて時間がかかる検索キーワードを,HiRDB XML Extension Version 9の文字列インクリメンタルコマンドにて登録することで検索速度が速くなります。

    Enterprise Searchでは,検索ログを解析して検索頻度が高い単語の一覧をファイルで出力する単語情報出力コマンド(IwsWordInfoOutput.bat)を提供しています。コマンドの詳細は「uCosminexus Enterprise Search 運用ガイド」を参照してください。

    単語情報出力コマンドを文字列インクリメンタルコマンドと組み合わせて使うことにより,よく検索される単語の検索を高速化することができます。

    文字列インクリメンタル機能の効果的な運用を次に示します。

    • 検索ログをDBに登録するようにしてEnterprise Searchを運用する。

    • 単語情報出力コマンドを使い,直近1週間の検索頻度上位100件の単語一覧を出力する。

    • 出力した単語一覧を用いて,文字列インクリメンタルコマンドを実行する。

    • 上記を週次で実行する。

    文字列インクリメンタル機能を利用する場合,次のサイズをRDエリア容量の見積もりに加えてください。

      登録テキストサイズ(KB)×0.05×インクリメンタル単語数×100000

  3. カタカナ異表記統一機能

    「バ」と「ヴァ」などのカタカナの表記を統一する機能です。インデクス作成時に表記を統一する方式のため,検索時に異表記展開する方式に比べて検索性能が向上します。

上記の特長から,インデクスV2の利用を推奨します。

Enterprise Searchのインデクスの作成方法は,「2.3.3 インデクスの作成」を参照してください。カタカナ異表記統一機能の設定は,「2.5.1 contents/WEB-INF/classes/iwsearch.properties」のプロパティ(bib.expansmodeおよびbib.iv2.samee)を参照してください。