2.5.8 同義語辞書の作成
全文検索で検索タームの同義語を検索条件として使用する場合,または概念検索で種文章から抽出した検索用特徴タームの同義語を検索条件として使用する場合は同義語辞書の作成が必要です。
同義語辞書を作成する前に,同義語辞書の基になるファイルを作成します。このファイルを同義語辞書テキストファイルといいます。同義語辞書テキストファイルには,キーワードとなる単語(検索ターム)の同義語の展開方法を定義します。同義語辞書テキストファイルはテキストエディタなどで作成します。なお,同義語辞書を作成しない場合,このファイルを作成する必要はありません。
(1) 同義語辞書テキストファイルの記述形式
同義語辞書テキストファイルには次の形式で同義語を定義します。
- 記述形式
-
同義語,同義語〔,同義語〕…
- 注意事項
-
-
同義語辞書は,HiRDBをセットアップしたときの文字コード,および「付録A 登録する文書(テキストデータ)および文字列データに使用できる文字」に示す文字コードで記述してください。
-
一つの同義語のグループには,2語以上の同義語を記述してください。
-
行の先頭文字に*(半角アスタリスク)を記述すると,注釈行とみなされ,同義語として扱われません。"*"を同義語とする場合,"\*"と記述してください。なお,"\"は半角でも全角でもかまいません。
-
行の途中に△(半角スペース)があった場合,半角スペース以降のデータは注釈として扱われます。ただし,行の先頭にある半角スペースは無視されます。
半角スペースを同義語とする場合,"\△"と記述してください。なお,"\"は半角でも全角でもかまいません。
-
行の末尾が,(半角コンマ)で終了している場合,行が継続しているものとして扱われます。","を同義語とする場合,"\,"と記述してください。なお,"\"は半角でも全角でもかまいません。
-
"\"(エスケープ文字)を同義語とする場合,"\\"と記述してください。なお,"\"は半角でも全角でもかまいません。
-
BOM(Byte Order Mark)は使用しないでください。BOMが含まれていた場合は,通常の文字として扱います。
-
(3) 同義語グループ内での文字種の制限
一つの同義語のグループには,カタカナ,漢字,数字,アルファベットなどの種類の文字が混在している場合があります。これらの文字の種類を,文字種といいます。例えば,「アメリカ合衆国」という単語は,カタカナ(アメリカ)と漢字(合衆国)の二つの文字種で構成されています。
同義語辞書テキストファイルを作成する場合,次のことに注意してください。
-
一つの同義語のグループを文字種ごとに分割したとき,その数の合計が1,000以下となるようにしてください。ただし,ひらがなは文字種として数えません。
-
長音およびハイフンは,直前にある文字と同じ文字種とします。直前に文字がない場合は,そのほかの扱いになります。
同義語のグループでの文字種の分割例を次の図に示します。