HiRDB 全文検索プラグイン HiRDB Text Search Plug-in Version 8
ここでは,Text Search Plug-inで扱う文書および文字列データに使用できる文字と,登録する文字に関する注意事項について説明します。
登録する文書(テキストデータ)および文字列データに使用できる文字を,表A-1および表A-2に示します。
表A-1 登録する文書(テキストデータ)および文字列データに使用できる文字(HiRDBの文字コード種別がSHIFT-JISのとき)
| 文字種 | 長さ(バイト) | 配置 | ||
|---|---|---|---|---|
| 2バイトコードの1バイト目 | 2バイトコードの2バイト目 | |||
| 文字コード | 1バイト 文字コード |
1バイト | 0x20〜0x7E 0xA1〜0xDF |
− |
| 2バイト 文字コード |
2バイト | 0x81〜0x9F 0xE0〜0xFC |
0x40〜0x7E 0x80〜0xFC |
|
| 制御コード | JIS制御 文字コード |
1バイト | 0x09 | − |
表A-2 登録する文書(テキストデータ)および文字列データに使用できる文字(HiRDBの文字コード種別がEUCのとき)(UNIXの場合)
| 文字種 | 長さ(バイト) | 配置 | ||
|---|---|---|---|---|
| 2バイトコードの1バイト目 | 2バイトコードの2バイト目 | |||
| 文字コード | 1バイト 文字コード |
1バイト | 0x20〜0x7E | − |
| 2バイト 文字コード |
2バイト | 0x8E | 0xA1〜0xDF | |
| 0xA1〜0xFE | 0xA1〜0xFE | |||
| 制御コード | JIS制御 文字コード |
1バイト | 0x09 | − |
英文で登録する文書(テキストデータ)および文字列データに使用できる文字を,次の表に示します。
表A-3 登録する文書(テキストデータ)および文字列データに使用できる文字(HiRDBの文字コード種別がSHIFT-JIS,EUCおよびutf-8のとき)
| 文字種 | 長さ(バイト) | 使用できる文字 | |
|---|---|---|---|
| 文字コード | 1バイト文字コード | 1バイト | 0x20〜0x7E |
| 制御コード | JIS制御文字コード | 1バイト | 0x09 |
なお,HiRDBの言語種別がutf-8の場合は,Text Search Plug-inでも文字コードutf-8(MS-UnicodeまたはJISX0221)を使用できます。ただし,インデクス定義にINDEX_UCS4の指定はできません。
使用できるutf-8の範囲を次の表に示します。
表A-4 utf-8コードで使用できる文字(表内の文字コード表現は16進数)
| コードポイント | 1バイト | 2バイト | 3バイト | 4バイト | 5バイト | 6バイト |
|---|---|---|---|---|---|---|
| U+00000009,U+00000020〜U+0000007E | 09,20〜7E※ | |||||
| U+00000080〜U+000007FF | C280〜DFBF | |||||
| U+00000800〜U+0000FFFF | E0A080〜EFBFBF | |||||
| U+00010000〜U+0010FFFF | F0908080〜F48FBFBF | |||||
| U+00110000〜U+001FFFFF | F4908080〜F7BFBFBF | |||||
| U+00200000〜U+03FFFFFF | F888808080〜FBBFBFBFBF | |||||
| U+04000000〜U+7FFFFFFF | FC8480808080〜FDBFBFBFBFBF | |||||
Text Search Plug-inでは,可視状態でつながって見える文字でも,文字と文字の間に表A-1,A-2およびA-3またはA-4に示す以外の文字が含まれていると,検索タームを指定してもヒットしません。表A-1,A-2およびA-3またはA-4に示す以外の文字が登録文書中に含まれていても,登録は正常に処理されエラーにはならない場合があるため,表A-1,A-2およびA-3またはA-4に示す以外の文字が含まれているテキストデータの取り扱いにはご注意ください。
例えば,次のような場合は検索を実行してもヒットしません。
「日<表A-1,A-2およびA-3またはA-4に示す以外の文字>立」をヒットさせたい場合は,検索タームとして「日?立」,「日??立」,「日*立」,「日」と「立」の近傍条件などを使用してください。
英文検索は,デリミタなどの定義によってはヒットする場合もあります。
登録するテキストデータの改行コードには,LF(0x0a)を使用してください。登録するテキストデータに使用している改行コードがCR+LF(0x0d0a)の場合,改行コードを次のように処理します。
All Rights Reserved. Copyright (C) 2007, 2009, Hitachi, Ltd.