1.4 Text Search Plug-inで効果的に検索するには

この節では,Text Search Plug-inでより効果的な検索をするための機能について説明します。これらの機能は,インデクス定義で利用の有無を設定します。設定方法については,文書検索プラグインの場合は「2.5.6 インデクスの定義」を,文字列検索プラグインの場合は「2.7.4 インデクスの定義」を参照してください。

<この節の構成>
(1) 文字種の組み合わせの追加
(2) 大小文字または全角半角文字の表記差の吸収
(3) 拗音の統一
(4) 濁音の統一
(5) 検索に使用しない文字の削除

(1) 文字種の組み合わせの追加

情報検索時には,例えば,「WWWサーバ」のようなアルファベットやカタカナなど,さまざまな種類の文字(文字種)を組み合わせた検索タームを指定する場合があります。このような場合,インデクス作成ルール追加機能で文字種の組み合わせをインデクス情報に追加しておきます。こうすることで,さまざまな文字種の組み合わせで構成される検索タームを指定したときの検索性が向上します。

特に,任意の文章や文字列を指定する概念検索では,インデクス作成ルール追加機能を使用すると検索精度が向上します。

(2) 大小文字または全角半角文字の表記差の吸収

検索対象となる文書情報には,大文字と小文字,全角文字と半角文字のように,表記の異なる文字が含まれています。この表記の違いによって,期待する検索結果が得られない場合があります。例えば,「BaseBall」と指定して検索すると,「BASEBALL」や「baseball」が検索されなかったりします。この大小文字または全角半角文字表記の違いを吸収した検索結果を得るためには,大小文字・全角文字半角文字統一機能を利用します。

この機能には,次の3種類の利用方法があります。

これらのうち,例えば,大小文字統一機能の使用を設定して「book」と指定して検索すると,「Book」や「BOOK」も検索できるようになります。

(3) 拗音の統一

「あ」と「ぁ」,「や」と「ゃ」など,拗音の違いを吸収して検索できる機能を拗音統一機能といいます。この機能を使用すると,次の拗音が統一の対象となります。

[図データ]

例えば,「りょう」を検索タームに指定した場合,「りょう」,「りょぅ」,「りよう」,および「りよぅ」が検索対象となります。

(4) 濁音の統一

「バ」と「ハ゛」,「ぱ」と「は゜」のように濁音や半濁音の違いを吸収して検索できる機能を濁音統一機能といいます。

(5) 検索に使用しない文字の削除

検索に使用しない文字を設定する機能を,削除文字指定機能といいます。例えば,「X△M△L」のように,文字間に半角スペースを入れて表記されている場合,検索タームに半角スペースを入れなければヒットしません。

削除文字指定機能を使用すると,次の文字が登録した文書情報から削除されます。

全角文字の "。"(句点),"、"(読点),全角スペース,

半角文字の "。"(句点),"、"(読点),半角スペース(0x20),改行コード(0x0a,0x0d),タブコード(0x09)

これによって,「XML」のように,検索タームにスペースを入れなくてもヒットさせることができます。