ここでは,Text Search Plug-inで扱う文書および文字列データに使用できる文字と,登録する文字に関する注意事項について説明します。
登録する文書(テキストデータ)および文字列データに使用できる文字を,表A-1および表A-2に示します。
表A-1 登録する文書(テキストデータ)および文字列データに使用できる文字(HiRDBの文字コード種別がSHIFT-JISのとき)
文字種 | 長さ(バイト) | 配置 | ||
---|---|---|---|---|
2バイトコードの1バイト目 | 2バイトコードの2バイト目 | |||
文字コード | 1バイト 文字コード | 1バイト | 0x20~0x7E 0xA1~0xDF | - |
2バイト 文字コード | 2バイト | 0x81~0x9F 0xE0~0xFC | 0x40~0x7E 0x80~0xFC | |
制御コード | JIS制御 文字コード | 1バイト | 0x09 | - |
表A-2 登録する文書(テキストデータ)および文字列データに使用できる文字(HiRDBの文字コード種別がEUCのとき)(UNIXの場合)
文字種 | 長さ(バイト) | 配置 | ||
---|---|---|---|---|
2バイトコードの1バイト目 | 2バイトコードの2バイト目 | |||
文字コード | 1バイト 文字コード | 1バイト | 0x20~0x7E | - |
2バイト 文字コード | 2バイト | 0x8E | 0xA1~0xDF | |
0xA1~0xFE | 0xA1~0xFE | |||
制御コード | JIS制御 文字コード | 1バイト | 0x09 | - |
英文で登録する文書(テキストデータ)および文字列データに使用できる文字を,次の表に示します。
表A-3 登録する文書(テキストデータ)および文字列データに使用できる文字(HiRDBの文字コード種別がSHIFT-JIS,EUCおよびutf-8のとき)
文字種 | 長さ(バイト) | 使用できる文字 | |
---|---|---|---|
文字コード | 1バイト文字コード | 1バイト | 0x20~0x7E |
制御コード | JIS制御文字コード | 1バイト | 0x09 |
なお,HiRDBの言語種別がutf-8の場合は,Text Search Plug-inでも文字コードutf-8(MS-UnicodeまたはJISX0221)を使用できます。ただし,インデクス定義にINDEX_UCS4の指定はできません。
使用できるutf-8の範囲を次の表に示します。
表A-4 utf-8コードで使用できる文字(表内の文字コード表現は16進数)
コードポイント | 1バイト | 2バイト | 3バイト | 4バイト | 5バイト | 6バイト |
---|---|---|---|---|---|---|
U+00000009,U+00000020~U+0000007E | 09,20~7E※ | - | - | - | - | - |
U+00000080~U+000007FF | C280~DFBF | - | - | - | - | |
U+00000800~U+0000FFFF | E0A080~EFBFBF | - | - | - | ||
U+00010000~U+0010FFFF | F0908080~F48FBFBF | - | - | |||
U+00110000~U+001FFFFF | F4908080~F7BFBFBF | - | - | |||
U+00200000~U+03FFFFFF | F888808080~FBBFBFBFBF | - | ||||
U+04000000~U+7FFFFFFF | FC8480808080~FDBFBFBFBFBF |
Text Search Plug-inでは,可視状態でつながって見える文字でも,文字と文字の間に表A-1,A-2およびA-3またはA-4に示す以外の文字が含まれていると,検索タームを指定してもヒットしません。表A-1,A-2およびA-3またはA-4に示す以外の文字が登録文書中に含まれていても,登録は正常に処理されエラーにはならない場合があるため,表A-1,A-2およびA-3またはA-4に示す以外の文字が含まれているテキストデータの取り扱いにはご注意ください。
例えば,次のような場合は検索を実行してもヒットしません。
「日<表A-1,A-2およびA-3またはA-4に示す以外の文字>立」をヒットさせたい場合は,検索タームとして「日?立」,「日??立」,「日*立」,「日」と「立」の近傍条件などを使用してください。
英文検索は,デリミタなどの定義によってはヒットする場合もあります。
登録するテキストデータの改行コードには,LF(0x0a)を使用してください。登録するテキストデータに使用している改行コードがCR+LF(0x0d0a)の場合,改行コードを次のように処理します。