Hitachi

HiRDB 全文検索プラグイン HiRDB Text Search Plug-in Version 10


1.3.2 概念検索

Text Search Plug-inの文書検索プラグインでは,関連プログラムとして提供しているText Search Plug-in Conceptual Extensionを組み込むことで,ユーザが任意に指定した文章や文字列を手がかりにして,その条件と似た概念を持つ文書を検索します。この検索方法概念検索といいます。例えば,「『近年,環境保護に関する対策に力を入れている自治体が増えている』という概念を持つ文書を探す」などの検索ができます。ただし,文字列検索プラグインでは,概念検索機能は使用できません。

概念検索の検索条件に指定する文章を,種文章といいます。概念検索では,初めに種文章を特徴付ける単語が,種文章から抽出されます。この単語を特徴タームといいます。次に,抽出された特徴タームの中から,種文章の概念を表す(実際の検索に使用する)タームが選出されます。ここで選出された特徴タームを検索用特徴タームといいます。

検索用特徴タームの抽出には,データベース内の統計情報を使用します。検索用特徴タームは,次の優先順位に従って,環境定義ファイルの「検索用特徴ターム数」に指定された個数分を上限として,種文章から抽出されます。

上記の優先順位に従って抽出された検索用特徴タームを基に,データベース内の文書が検索されます。

Text Search Plug-in Conceptual Extensionを組み込んだ場合の概念検索の概要を次の図に示します。

図1‒3 Text Search Plug-in Conceptual Extensionを組み込んだ場合の概念検索の概要

[図データ]

〈この項の構成〉

(1) 概念検索の特長

概念検索には,次の3種類の特長があります。

(a) 文書検索の簡易化

概念検索では,探したい情報に関係の深い文章(種文章)を検索条件として指定します。複雑な検索条件式を指定する必要はありません。そのため,検索条件のキーワードが限定できない場合や,複雑な検索条件の入力などの操作に不慣れな場合でも,文章の持つ概念から目的の文書を検索できます。

検索条件となる文章は,ユーザが直接入力したり,データベースの登録文書から切り出して指定したりできます。

(b) 文章指定による幅広い検索

概念検索では,文章に記述された内容(概念)に似た文書を検索します。そのため,キーワード検索よりも幅広く目的の文書を検索できます。

この特長を生かした適用例としては,特許出願時の類似特許検索などが挙げられます。

(c) 新たな思考や発想の支援

概念検索の検索結果を新たな種文章の素材として利用することもできます。このような手順で検索を繰り返すことによって,新たな思考や発想の手がかりを見つけ出すことができます。

(2) 概念検索の種類

Text Search Plug-inで実行できる概念検索の種類を次に説明します。

(a) 種文章を複数指定する検索

検索条件には,種文章を複数個指定できます。例えば,「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と「リサイクルは,資源の有効活用に寄与するだけではなく,ゴミの減量化にも効果が期待できる」という文章を種文章として指定し,それぞれの概念の和で表される仮想的な種文章に似た概念を持つ文書を検索できます。

(b) 同義語・異表記展開検索

概念検索での同義語展開検索では,同義語辞書での定義に基づいて,検索用特徴タームの同義語が自動的に展開されます。概念検索での異表記展開検索では,Text Search Plug-inでのルールに基づいて,自動的に検索用特徴タームの異表記が展開されます。展開された同義語・異表記は,検索用特徴タームとあわせて検索条件となります。

(c) 論理演算検索

概念検索での論理演算検索は,例えば,「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と似た概念を持つ文書を検索した結果と,「リサイクルは,資源の有効活用に寄与するだけではなく,ゴミの減量化にも効果が期待できる」という文章と似た概念を持つ文書を検索した結果の両方に含まれる文書を検索できます。この例では,検索条件同士の論理積(AND条件)を検索条件にしています。

また,論理和(OR条件)を検索の条件にして,「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と似た概念を持つ文書を検索した結果と,「リサイクルは,資源の有効活用に寄与するだけではなく,ゴミの減量化にも効果が期待できる」という文章と似た概念を持つ文書を検索した結果のどちらかに含まれる文書を検索することもできます。

(d) 構造名を指定した検索

構造化文書を格納した表の列を検索対象とする場合は,その表の構造化文書を格納した列に定義された文書の構造を検索条件として利用できます。例えば,「文書・章・節・項」という構造を持つ文書を格納する列があるとします。この列に対しては,「節の中に「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と似た概念を持つ文書」のように,構造を条件にして検索できます。

(e) スコア検索

概念検索の結果文書に,種文章の概念に対する適合度から算出した得点(スコア)を付けます。適合度が高い文書ほど得点が高くなります。

スコア算出時には,例えば,「種文章を100点として,相対的な値に得点を調整する(スコアを正規化する)」,「一定のスコア以上の文書だけを検索結果とする」などの指定もできます。

(f) 検索用特徴ターム出力

検索条件として指定した種文章から抽出される,検索用特徴タームを出力します。出力した検索用特徴タームは,検索用特徴タームを指定して検索する際の検索条件として利用できます。また,検索結果の妥当性を判断する材料としても利用できます。

(g) 検索用特徴タームを指定した検索

種文章から抽出された検索用特徴タームを修正し,それを検索条件として利用できます。検索用特徴ターム出力機能を使用して出力した検索用特徴タームに対して,タームの追加,削除,またはタームごとの重みを変更するなどの修正を加え,この修正した検索用特徴タームを条件に検索できます。

(3) 概念検索と全文検索の長所を利用した検索

検索タームによる絞込み検索

概念検索で文書を抽出しておき,その抽出結果に対して検索タームで絞り込むという,概念検索と全文検索の長所を利用した検索を実現できます。