2.3 文書空間で使用する文字コード種別の検討

この節では,文書空間で使用する文字コード種別について説明します。

DocumentBrokerの文書空間では,次のどちらかの文字コード種別を使用できます。一つの文書空間では複数の文字コード種別を使用できません。

選択した文字コード種別は,DocumentBrokerおよびデータベースで必ず一致させてください。異なる文字コード種別を設定した場合の動作は保証しません。

また,日本語および英語以外の言語も使用する場合はUTF-8を選択してください。なお,JIS X0213:2004の規格にはShift-JISで扱えない文字が含まれています。そのため,日本語だけを使用する場合でも,UTF-8を選択することを推奨します。

<この節の構成>
(1) データベースの文字コード種別の設定
(2) 文書空間の文字コード種別の設定

(1) データベースの文字コード種別の設定

データベース(HiRDB)の文字コード種別は,データベースの環境構築時にHiRDBで設定します。HiRDBの動作環境の設定コマンドの詳細は,マニュアル「HiRDB コマンドリファレンス」を参照してください。

また,文字コードにUTF-8を使用する場合,全文検索インデクスにUCS-2を利用するかUCS-4を利用するかを検討してください。UCS-4を使用する場合,インデクス定義文にプラグインオプションを追加する必要があります。詳細は,マニュアル「HiRDB Text Search Plug-in」,またはマニュアル「HiRDB XML Extension」を参照してください。

(2) 文書空間の文字コード種別の設定

文書空間の文字コード種別は,DocumentBrokerの環境構築時に設定します。メタ情報の登録コマンド(dbjinitmeta)実行時に,メタ情報初期化ファイルのDocSpaceCharacterSetエントリに指定します。

メタ情報の登録コマンドについては,「7.3 コマンドの文法」を参照してください。