文字コード体系とエンコード

ソートマージ

[目次]

[用語]

[索引]

[前へ]

[次へ]

付録I.1　文字コード体系とエンコード

入力レコードの文字列データを表現するコード体系とエンコード種別を，次の表に示します。

表I-1　SORT EEとSORTで対応している文字コード体系

コード体系		文字種別			SORT EE	SORT
コード体系		英数字	カタカナ	漢字・外字など	SORT EE	SORT
ASCII		ASCII	－	－	○^※4	○^※2
JIS8		ASCII	JIS8	－	○^※4	○^※2
JIS X 0201	Shift_JIS	JIS8	JIS8	2バイト符号化	○^※1	○^※2
JIS X 0208	EUC	G0	G2	G1，G3，EUC-HJ領域	○^※1	－
JIS X 0208	EUC	G0	G2	G1，G3	－	○^※2
Unicode	UCS-2	基本ラテン文字 U+0020～U+007F	半角形/全角形 U+FF00～FFFD	CJK統合漢字など	○^※3	×
Unicode	UCS-4	基本ラテン文字 U+0020～U+007F	半角形/全角形 U+FF00～FFFD	CJK統合漢字，CJK統合漢字拡張など	○^※3	×

（凡例）: ○：対応している; ×：対応していない; －：該当しない

注※1: 属性コード「c」，「j」および「q」で，1文字1バイトとして扱います。; 属性コード「u」および「v」で，1文字nバイトのマルチバイト文字として扱います。

注※2: 属性コード「c」，「j」で，1文字1バイトとして扱います。

注※3: 属性コード「w」で，1文字2または4バイトのワイド文字として扱います。; 属性コード「u」および「v」で，1文字nバイトのマルチバイト文字として扱います。

注※4: すべての文字属性コードで，1文字1バイトとして扱います。

表I-2　SORT EEで指定できる文字コードおよびエンコードの種別

文字コード/エンコード種別^※1	説明	コード範囲
ASCII	ASCIIコード＋JIS8 （JIS 8ビット単位コードを含みます）	1バイト長 0x00～0xFF
SJIS	Shift-JIS （Windowsは「Microsoftコードページ932」が該当します）	1バイト長 0x00～0x80，0xA0～0xDF，0xFD～0xFF 2バイト長第1バイト：0x81～0x9F，0xE0～0xFC 第2バイト：0x40～0x7E，0x80～0xFC
EUC-JP	日本語EUC G0：ASCII G1：JIS X 0213第1面 G2：JIS X 0201カタカナ G3：JIS X 0213第2面（Windowsは「Microsoftコードページ51932」が該当します）	1バイト長（G0） 0x00～0x7F 2バイト長（G1）第1，2バイト：0xA1～0xFE 2バイト長（G2）第1バイト：0x8E 第2バイト：0xA1～0xFE 3バイト長（G3）第1バイト：0x8F 第2，3バイト：0xA1～0xFE
EUC-HJ^※3	日本語EUC（EUC-HJ） G0：ASCII G1：JIS X 0213第1面 G2：JIS X 0201カタカナ EUC-HJ領域	1バイト長（G0） 0x00～0x7F 2バイト長（G1）第1，2バイト：0xA1～0xFE 2バイト長（G2）第1バイト：0x8E 第2バイト：0xA1～0xFE 2バイト長（EUC-HJ領域）第1バイト：0xA1～0xFE 第2バイト：0x21～0x7E
UTF-8	8ビット単位のUnicode符号化方式（Windowsは「Microsoftコードページ65001」が該当します）	1バイト長（U+0000～U+007F） 0x00～0x7F 2バイト長（U+0080～U+07FF）第1バイト：0xC0～0xDF 第2バイト：0x80～0xBF 3バイト長（U+0800～U+D7FF，U+E000～U+FFFD）第1バイト：0xE0～0xEF 第2，3バイト：0x80～0xBF 4バイト長（U+10000～U+10FFFF）第1バイト：0xF0～0xF7 第2～4バイト：0x80～0xBF 5バイト長（未定義）第1バイト：0xF8～0xFB 第2～5バイト：0x80～0xBF 6バイト長（未定義）第1バイト：0xFC～0xFD 第2～6バイト：0x80～0xBF
UCS-2LE	Little endianの2オクテット (16bit)文字コード	1文字長（2バイト） U+0000～U+D7FF U+E000～U+FFFD サロゲートペア文字は2文字として扱う^※2
UCS-2BE	Big endianの2オクテット (16bit)文字コード
UCS-4LE	Little endianの4オクテット (32bit)文字コード	1文字長（4バイト） U+0000～U+D7FF U+E000～U+10FFFF
UCS-4BE	Big endianの4オクテット (32bit)文字コード	1文字長（4バイト） U+0000～U+D7FF U+E000～U+10FFFF
UTF-16LE	little endianの16ビット単位のUnicode符号化方式（Windowsは「Microsoftコードページ1200」が該当します）	1文字長（2バイト） U+0000～U+D7FF U+E000～U+FFFF 1文字長（サロゲートペア4バイト）^※2 U+10000～U+10FFFF
UTF-16BE	big endianの16ビット単位のUnicode符号化方式（Windowsは「Microsoftコードページ1201」が該当します）
UTF-32LE	little endianの32ビット単位のUnicode符号化方式（Windowsは「Microsoftコードページ12000」が該当します）	1文字長（4バイト） U+0000～U+D7FF U+E000～U+10FFFF
UTF-32BE	big endianの32ビット単位のUnicode符号化方式（Windowsは「Microsoftコードページ12001」が該当します）	1文字長（4バイト） U+0000～U+D7FF U+E000～U+10FFFF

注※1: 入力データのエンコードは，codetypeオペランドで指定します。オペランドについては，「5.8.13　codetypeオペランド」を参照してください。

注※2: サロゲートペア文字は，上位サロゲート「0xD800～0xDBFF」と下位サロゲート「0xDC00～0xDFFF」の範囲を使用し，ペアで1つの字を表現します。

注※3: EUC-HJは，EUCで外字を2バイトの範囲で使用するために，日立が独自に拡張したコードセットです。

All Rights Reserved. Copyright (C) 2008, 2016, Hitachi, Ltd.