1.3.2 概念検索
Text Search Plug-inの文書検索プラグインでは,関連プログラムとして提供しているText Search Plug-in Conceptual Extensionを組み込むことで,ユーザが任意に指定した文章や文字列を手がかりにして,その条件と似た概念を持つ文書を検索します。この検索方法概念検索といいます。例えば,「『近年,環境保護に関する対策に力を入れている自治体が増えている』という概念を持つ文書を探す」などの検索ができます。ただし,文字列検索プラグインでは,概念検索機能は使用できません。
概念検索の検索条件に指定する文章を,種文章といいます。概念検索では,初めに種文章を特徴付ける単語が,種文章から抽出されます。この単語を特徴タームといいます。次に,抽出された特徴タームの中から,種文章の概念を表す(実際の検索に使用する)タームが選出されます。ここで選出された特徴タームを検索用特徴タームといいます。
検索用特徴タームの抽出には,データベース内の統計情報を使用します。検索用特徴タームは,次の優先順位に従って,環境定義ファイルの「検索用特徴ターム数」に指定された個数分を上限として,種文章から抽出されます。
-
種文章に多く出現する特徴タームほど優先順位が高くなる
-
データベース中に存在する数が少ない特徴タームほど優先順位が高くなる
上記の優先順位に従って抽出された検索用特徴タームを基に,データベース内の文書が検索されます。
Text Search Plug-in Conceptual Extensionを組み込んだ場合の概念検索の概要を次の図に示します。
(1) 概念検索の特長
概念検索には,次の3種類の特長があります。
(a) 文書検索の簡易化
概念検索では,探したい情報に関係の深い文章(種文章)を検索条件として指定します。複雑な検索条件式を指定する必要はありません。そのため,検索条件のキーワードが限定できない場合や,複雑な検索条件の入力などの操作に不慣れな場合でも,文章の持つ概念から目的の文書を検索できます。
検索条件となる文章は,ユーザが直接入力したり,データベースの登録文書から切り出して指定したりできます。
(b) 文章指定による幅広い検索
概念検索では,文章に記述された内容(概念)に似た文書を検索します。そのため,キーワード検索よりも幅広く目的の文書を検索できます。
この特長を生かした適用例としては,特許出願時の類似特許検索などが挙げられます。
(c) 新たな思考や発想の支援
概念検索の検索結果を新たな種文章の素材として利用することもできます。このような手順で検索を繰り返すことによって,新たな思考や発想の手がかりを見つけ出すことができます。
(2) 概念検索の種類
Text Search Plug-inで実行できる概念検索の種類を次に説明します。
(a) 種文章を複数指定する検索
検索条件には,種文章を複数個指定できます。例えば,「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と「リサイクルは,資源の有効活用に寄与するだけではなく,ゴミの減量化にも効果が期待できる」という文章を種文章として指定し,それぞれの概念の和で表される仮想的な種文章に似た概念を持つ文書を検索できます。
(b) 同義語・異表記展開検索
概念検索での同義語展開検索では,同義語辞書での定義に基づいて,検索用特徴タームの同義語が自動的に展開されます。概念検索での異表記展開検索では,Text Search Plug-inでのルールに基づいて,自動的に検索用特徴タームの異表記が展開されます。展開された同義語・異表記は,検索用特徴タームとあわせて検索条件となります。
(c) 論理演算検索
概念検索での論理演算検索は,例えば,「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と似た概念を持つ文書を検索した結果と,「リサイクルは,資源の有効活用に寄与するだけではなく,ゴミの減量化にも効果が期待できる」という文章と似た概念を持つ文書を検索した結果の両方に含まれる文書を検索できます。この例では,検索条件同士の論理積(AND条件)を検索条件にしています。
また,論理和(OR条件)を検索の条件にして,「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と似た概念を持つ文書を検索した結果と,「リサイクルは,資源の有効活用に寄与するだけではなく,ゴミの減量化にも効果が期待できる」という文章と似た概念を持つ文書を検索した結果のどちらかに含まれる文書を検索することもできます。
(d) 構造名を指定した検索
構造化文書を格納した表の列を検索対象とする場合は,その表の構造化文書を格納した列に定義された文書の構造を検索条件として利用できます。例えば,「文書・章・節・項」という構造を持つ文書を格納する列があるとします。この列に対しては,「節の中に「近年,環境保護に関する対策に力を入れている自治体が増えている」という文章と似た概念を持つ文書」のように,構造を条件にして検索できます。
(e) スコア検索
概念検索の結果文書に,種文章の概念に対する適合度から算出した得点(スコア)を付けます。適合度が高い文書ほど得点が高くなります。
スコア算出時には,例えば,「種文章を100点として,相対的な値に得点を調整する(スコアを正規化する)」,「一定のスコア以上の文書だけを検索結果とする」などの指定もできます。