付録I.1 文字コード体系とエンコード

入力レコードの文字列データを表現するコード体系とエンコード種別を,次の表に示します。

表I-1 SORT EEとSORTで対応している文字コード体系

コード体系文字種別SORT EESORT
英数字カタカナ漢字・外字など
ASCIIASCII※4※2
JIS8ASCIIJIS8※4※2
JIS X 0201Shift_JISJIS8JIS82バイト符号化※1※2
JIS X 0208EUCG0G2G1,G3,EUC-HJ領域※1
G1,G3※2
UnicodeUCS-2基本ラテン文字
U+0020~U+007F
半角形/全角形
U+FF00~FFFD
CJK統合漢字など※3×
UCS-4基本ラテン文字
U+0020~U+007F
半角形/全角形
U+FF00~FFFD
CJK統合漢字,CJK統合漢字拡張など※3×
(凡例)
○:対応している
×:対応していない
-:該当しない
注※1
属性コード「c」,「j」および「q」で,1文字1バイトとして扱います。
属性コード「u」および「v」で,1文字nバイトのマルチバイト文字として扱います。
注※2
属性コード「c」,「j」で,1文字1バイトとして扱います。
注※3
属性コード「w」で,1文字2または4バイトのワイド文字として扱います。
属性コード「u」および「v」で,1文字nバイトのマルチバイト文字として扱います。
注※4
すべての文字属性コードで,1文字1バイトとして扱います。

表I-2 SORT EEで指定できる文字コードおよびエンコードの種別

文字コード/エンコード種別※1説明コード範囲
ASCIIASCIIコード+JIS8
(JIS 8ビット単位コードを含みます)
  • 1バイト長
    0x00~0xFF
SJISShift-JIS
(Windowsは「Microsoftコードページ932」が該当します)
  • 1バイト長
    0x00~0x80,0xA0~0xDF,0xFD~0xFF
  • 2バイト長
    第1バイト:0x81~0x9F,0xE0~0xFC
    第2バイト:0x40~0x7E,0x80~0xFC
EUC-JP日本語EUC
G0:ASCII
G1:JIS X 0213第1面
G2:JIS X 0201カタカナ
G3:JIS X 0213第2面
(Windowsは「Microsoftコードページ51932」が該当します)
  • 1バイト長(G0)
    0x00~0x7F
  • 2バイト長(G1)
    第1,2バイト:0xA1~0xFE
  • 2バイト長(G2)
    第1バイト:0x8E
    第2バイト:0xA1~0xFE
  • 3バイト長(G3)
    第1バイト:0x8F
    第2,3バイト:0xA1~0xFE
EUC-HJ※3日本語EUC(EUC-HJ)
G0:ASCII
G1:JIS X 0213第1面
G2:JIS X 0201カタカナ
EUC-HJ領域
  • 1バイト長(G0)
    0x00~0x7F
  • 2バイト長(G1)
    第1,2バイト:0xA1~0xFE
  • 2バイト長(G2)
    第1バイト:0x8E
    第2バイト:0xA1~0xFE
  • 2バイト長(EUC-HJ領域)
    第1バイト:0xA1~0xFE
    第2バイト:0x21~0x7E
UTF-88ビット単位のUnicode符号化方式
(Windowsは「Microsoftコードページ65001」が該当します)
  • 1バイト長(U+0000~U+007F)
    0x00~0x7F
  • 2バイト長(U+0080~U+07FF)
    第1バイト:0xC0~0xDF
    第2バイト:0x80~0xBF
  • 3バイト長(U+0800~U+D7FF,U+E000~U+FFFD)
    第1バイト:0xE0~0xEF
    第2,3バイト:0x80~0xBF
  • 4バイト長(U+10000~U+10FFFF)
    第1バイト:0xF0~0xF7
    第2~4バイト:0x80~0xBF
  • 5バイト長(未定義)
    第1バイト:0xF8~0xFB
    第2~5バイト:0x80~0xBF
  • 6バイト長(未定義)
    第1バイト:0xFC~0xFD
    第2~6バイト:0x80~0xBF
UCS-2LELittle endianの2オクテット
(16bit)文字コード
  • 1文字長(2バイト)
    U+0000~U+D7FF
    U+E000~U+FFFD
  • サロゲートペア文字は2文字として扱う※2
UCS-2BEBig endianの2オクテット
(16bit)文字コード
UCS-4LELittle endianの4オクテット
(32bit)文字コード
  • 1文字長(4バイト)
    U+0000~U+D7FF
    U+E000~U+10FFFF
UCS-4BEBig endianの4オクテット
(32bit)文字コード
UTF-16LElittle endianの16ビット単位のUnicode符号化方式(Windowsは「Microsoftコードページ1200」が該当します)
  • 1文字長(2バイト)
    U+0000~U+D7FF
    U+E000~U+FFFF
  • 1文字長(サロゲートペア4バイト)※2
    U+10000~U+10FFFF
UTF-16BEbig endianの16ビット単位のUnicode符号化方式(Windowsは「Microsoftコードページ1201」が該当します)
UTF-32LElittle endianの32ビット単位のUnicode符号化方式(Windowsは「Microsoftコードページ12000」が該当します)
  • 1文字長(4バイト)
    U+0000~U+D7FF
    U+E000~U+10FFFF
UTF-32BEbig endianの32ビット単位のUnicode符号化方式(Windowsは「Microsoftコードページ12001」が該当します)
注※1
入力データのエンコードは,codetypeオペランドで指定します。オペランドについては,「5.8.13 codetypeオペランド」を参照してください。
注※2
サロゲートペア文字は,上位サロゲート「0xD800~0xDBFF」と下位サロゲート「0xDC00~0xDFFF」の範囲を使用し,ペアで1つの字を表現します。
注※3
EUC-HJは,EUCで外字を2バイトの範囲で使用するために,日立が独自に拡張したコードセットです。