Hitachi

HiRDB XML拡張機能 HiRDB XML Extension Version 10


2.5.6 同義語辞書の作成

全文検索で検索タームの同義語を検索条件として使用する場合同義語辞書の作成が必要です。

同義語辞書を作成する前に,同義語辞書の基になるファイルを作成します。このファイルを同義語辞書テキストファイルといいます。同義語辞書テキストファイルには,キーワードとなる単語(検索ターム)の同義語の展開方法を定義します。同義語辞書テキストファイルはテキストエディタなどで作成します。なお,同義語辞書を作成しない場合,このファイルを作成する必要はありません。

〈この項の構成〉

(1) 同義語辞書テキストファイルの記述形式

同義語辞書テキストファイルには次の形式で同義語を定義します。

記述形式
同義語,同義語〔,同義語〕…
注意事項
  • 同義語辞書は,HiRDBをセットアップしたときの文字コード,および「付録A 検索に使用できる文字」に示す文字コードで記述してください。

  • 一つの同義語のグループには,2語以上の同義語を記述してください。

  • 行の先頭文字に「*」(半角アスタリスク)を記述すると注釈行とみなされ,同義語として扱われません。「*」を同義語とする場合,「\*」と記述してください。なお「\」(エスケープ文字)は半角でも全角でもかまいません。

  • 行の途中に△(半角スペース)があった場合,半角スペース以降のデータは注釈として扱われます。ただし,行の先頭にある半角スペースは無視されます。

    半角スペースを同義語とする場合,「\△」と記述してください。なお「\」は半角でも全角でもかまいません。

  • 行の末尾が「,」(半角コンマ)で終了している場合,行が継続しているものとして扱われます。「,」を同義語とする場合「\,」と記述してください。なお「\」は半角でも全角でもかまいません。

  • 「\」を同義語とする場合,「\\」と記述してください。なお,「\」は半角でも全角でもかまいません。

  • BOM(Byte Order Mark)は使用しないでください。BOMが含まれている場合は,通常の文字として扱います。

(2) 同義語辞書テキストファイルの記述例

同義語辞書テキストファイルの記述例を次の図に示します。

図2‒27 同義語辞書テキストファイルの記述例

[図データ]

(3) 同義語グループ内での文字種の制限

一つの同義語のグループには,カタカナ,漢字,数字,アルファベットなどの種類の文字が混在している場合があります。これらの文字の種類を,文字種といいます。例えば「アメリカ合衆国」という単語は,カタカナ(アメリカ)と漢字(合衆国)の二つの文字種で構成されています。

同義語辞書テキストファイルを作成する場合,次のことに注意してください。

同義語のグループでの文字種の分割例を次の図に示します。

図2‒28 同義語のグループでの文字種の分割例

[図データ]