2.2.2 使用する文字コードによる機能差異について

HiRDBが文字コードutf-8でセットアップされた場合,Text Search Plug-inでも文字コードutf-8を使用できるようになります。この場合,文字 コードがutf-8であるXML文書,プレーン文書, およびFREEWORD型テキストが検索対象となります。ただし,FREEWORD型テキストについては,文字コード種別がMS-Unicodeである必要があります(MS-UnicodeはMicrosoft社のUnicodeです)。

また,使用する文字コードによって,Text Search Plug-inで使用できる機能が異なります。使用する文字コードによるText Search Plug-inの機能差を,表2-1表2-2,および表2-3に示します。

表2-1 使用できる検索機能

機能Shift-JISまたは
EUC使用時
utf-8使用時
単純文字列検索
検索タームを複数指定した検索(論理和または論理積使用)
近傍検索
同義語展開検索
異表記展開検索
構造名を指定した検索
重み付き検索
概念検索
抽象データ型関数extracts
(凡例)
○:使用できる。
△:制限付きで使用できる。
HiRDBが文字コードutf-8の場合,TSPluginの下で使用できるパス名,ファイル名はASCIIコードの範囲内の必要があります。
注※
文字コードutf-8でextracts関数を使用する場合,XML出力を利用してください(SGML出力はできません)。また,extracts関数に渡す引数は必ずMS-Unicodeで記述してください。

表2-2 インデクス作成時に使用できる機能

機能Shift-JISまたは
EUC使用時
utf-8(UCS2)使用時utf-8(UCS4)使用時
概念検索の使用
インデクス作成ルール追加機能
大小文字・全角文字半角文字統一機能
拗音統一機能
濁音統一機能
削除文字指定機能
文字単位インデクス作成機能
差分インデクス定義×
分割遅延登録時のインデクス定義
英文インデクス定義×
(凡例)
○:使用できる。
×:使用できない。

表2-3 使用できるユティリティ

プラグイン種別ユティリティ
コマンド名
機能Shift-JIS
または
EUC使用時
utf-8
(UCS2)
使用時
utf-8
(UCS4)
使用時
文書検索プラグインSGMLプラグインphsregsetupレジストリの初期化
phssgmlregSGML定義情報の登録
phssgmlrmSGML定義情報の削除
phssgmlvalSGML定義情報の参照
phssyndicreg同義語辞書の登録
phssyndicrm同義語辞書の削除
phssyndicconv同義語辞書の移行×
phssyndicbkup(UNIXの場合)同義語辞書のバックアップ
n-gramインデクスプラグインphnidxlsインデクス情報の取得
phnincmtインデクスのインクリメンタル(最適化)×
phnincrword文字列指定インクリメンタルユティリティ×
phnmerge差分インデクスからMASTERインデクスへのマージ×
phnexpndインデクスの拡張×
phnstartidxインデクスの作成開始
phndelayインデクス分割遅延登録開始/終了指定
phnmodidxインデクス情報変更
phncondインデクス詰め替え
phnconget統計情報収集××
phnconbuild統計情報統合××
phnconrstr統計情報反映××
phnchgcon特徴ターム取得RDエリア指定
文字列検索プラグインFREE WORDプラグインphcsyndicreg同義語辞書の登録
phcsyndicrm同義語辞書の削除
phcsyndicconv同義語辞書の移行×
phcsyndicbkup(UNIXの場合)同義語辞書のバックアップ
IXFREE WORDプラグインphxidxlsインデクス情報の取得
phxincmtインデクスのインクリメンタル(最適化)×
phxincrword文字列指定インクリメンタルユティリティ×
phxexpndインデクスの拡張×
phxstartidxインデクスの作成開始
phxdelayインデクス分割遅延登録開始/終了指定
phxmodidxインデクス情報変更
phxcondインデクス詰め替え
(凡例)
○:使用できる。
×:使用できない。
注※
文字コードutf-8(UCS4)使用時に次のユティリティを実行した場合,処理を行わないで正常終了します。
  • phnmerge(差分インデクスからMASTERインデクスへのマージ)
  • phnexpnd,phxexpnd(インデクスの拡張)