Hitachi

HiRDB 全文検索プラグイン HiRDB Text Search Plug-in Version 10


2.2.2 使用する文字コードによる機能差異について

HiRDBが文字コードutf-8でセットアップされた場合,Text Search Plug-inでも文字コードutf-8を使用できるようになります。この場合,文字 コードがutf-8であるXML文書,プレーン文書, およびFREEWORD型テキストが検索対象となります。ただし,FREEWORD型テキストについては,文字コード種別がMS-Unicodeである必要があります(MS-UnicodeはMicrosoft社のUnicodeです)。

また,使用する文字コードによって,Text Search Plug-inで使用できる機能が異なります。使用する文字コードによるText Search Plug-inの機能差を,表2-1表2-2,および表2-3に示します。

表2‒1 使用できる検索機能

機能

Shift-JISまたは

EUC使用時

utf-8使用時

単純文字列検索

検索タームを複数指定した検索(論理和または論理積使用)

近傍検索

同義語展開検索

異表記展開検索

構造名を指定した検索

重み付き検索

概念検索

抽象データ型関数extracts

(凡例)

○:使用できる。

△:制限付きで使用できる。

HiRDBが文字コードutf-8の場合,TSPluginの下で使用できるパス名,ファイル名はASCIIコードの範囲内の必要があります。

注※

文字コードutf-8でextracts関数を使用する場合,XML出力を利用してください(SGML出力はできません)。また,extracts関数に渡す引数は必ずMS-Unicodeで記述してください。

表2‒2 インデクス作成時に使用できる機能

機能

Shift-JISまたは

EUC使用時

utf-8(UCS2)使用時

utf-8(UCS4)使用時

概念検索の使用

インデクス作成ルール追加機能

大小文字・全角文字半角文字統一機能

拗音統一機能

濁音統一機能

削除文字指定機能

文字単位インデクス作成機能

差分インデクス定義

×

分割遅延登録時のインデクス定義

英文インデクス定義

×

(凡例)

○:使用できる。

×:使用できない。

表2‒3 使用できるユティリティ

プラグイン種別

ユティリティ

コマンド名

機能

Shift-JIS

または

EUC使用時

utf-8

(UCS2)

使用時

utf-8

(UCS4)

使用時

文書検索プラグイン

SGMLプラグイン

phsregsetup

レジストリの初期化

phssgmlreg

SGML定義情報の登録

phssgmlrm

SGML定義情報の削除

phssgmlval

SGML定義情報の参照

phssyndicreg

同義語辞書の登録

phssyndicrm

同義語辞書の削除

phssyndicconv

同義語辞書の移行

×

phssyndicbkup(UNIXの場合)

同義語辞書のバックアップ

n-gramインデクスプラグイン

phnidxls

インデクス情報の取得

phnincmt

インデクスのインクリメンタル(最適化)

×

phnincrword

文字列指定インクリメンタルユティリティ

×

phnmerge

差分インデクスからMASTERインデクスへのマージ

×

phnexpnd

インデクスの拡張

×

phnstartidx

インデクスの作成開始

phndelay

インデクス分割遅延登録開始/終了指定

phnmodidx

インデクス情報変更

phncond

インデクス詰め替え

phnconget

統計情報収集

×

×

phnconbuild

統計情報統合

×

×

phnconrstr

統計情報反映

×

×

phnchgcon

特徴ターム取得RDエリア指定

文字列検索プラグイン

FREE WORDプラグイン

phcsyndicreg

同義語辞書の登録

phcsyndicrm

同義語辞書の削除

phcsyndicconv

同義語辞書の移行

×

phcsyndicbkup(UNIXの場合)

同義語辞書のバックアップ

IXFREE WORDプラグイン

phxidxls

インデクス情報の取得

phxincmt

インデクスのインクリメンタル(最適化)

×

phxincrword

文字列指定インクリメンタルユティリティ

×

phxexpnd

インデクスの拡張

×

phxstartidx

インデクスの作成開始

phxdelay

インデクス分割遅延登録開始/終了指定

phxmodidx

インデクス情報変更

phxcond

インデクス詰め替え

(凡例)

○:使用できる。

×:使用できない。

注※

文字コードutf-8(UCS4)使用時に次のユティリティを実行した場合,処理を行わないで正常終了します。

  • phnmerge(差分インデクスからMASTERインデクスへのマージ)

  • phnexpnd,phxexpnd(インデクスの拡張)