付録K.2 文字種別

トランスレータが扱う文字コードはJISコードを基本とし,それぞれの文字を次に示す文字種別に分類して操作します。

表K-2 文字種別一覧

文字種別意味説明
ISOISO/IEC 646JIS-X0201 (ROMAN)と同様に扱います。
ISO/IEC 646の文字をJIS-X0201 (ROMAN)にそのまま代入できます。
0201RJIS-X0201(ROMAN)7bit JISです。ISO/IEC 646と同様に扱います。
0x00~0x1f:制御コード
0x20~0x7e:印字可能文字
0x7f:DEL
0201KJIS-X0201(かな)JIS-X0201のかな文字部分:0xa1~0xdf
0201K_G1JIS-X0201(かな) G1JIS-X0201(かな)と同様です。
解放文字処理などで文字種別(シフトコード)を区別するために使用します。
8859G1ISO-8859(G1)ISO-8859のG1(GR)文字部分:0xa1~0xff
C6226JIS-C6226JIS-X0208-1978です。
各バイトは0x21~0x7eの範囲となります。
JIS-X0208へ変換できます。
JIS-C6226からJIS-X0208-1983の変更は次のとおりです。
  • 削除文字なし
  • 追加文字あり
  • コード入れ替え 22文字
  • 字形変更されたものあり
0208JIS-X0208JIS-X0208-1990です。
各バイトは0x21~0x7eの範囲となります。
トランスレータではJIS-X0208-1983とは区別しません。
0212JIS-X0212JIS-X0212-1990です。
各バイトは0x21~0x7eの範囲となります。
JIS-X0208との変換はできません。
0212_G1JIS-X0212 G1JIS-X0212と同様です。
解放文字処理などで文字種別(シフトコード)を区別するために使用します。
UTFUnicode(サロゲートペア)サロゲートペアで表される文字をUCS-4表現したものです。
Unicode内でだけ扱えます(UCS-2を除きます)。
UTF-16での1st値:0xd800~0xdbff
UTF-16での2nd値:0xdc00~0xdfff
KEIS_USERKEISユーザ定義文字1st値:0x41~0xa0
2nd値:0xa1~0xfe
IBM_USERIBMユーザ定義文字1st値:0x69~0x7f
2nd値:0x41~0xfe
JEF_USERJEFユーザ定義文字1st値:0x41~0x7d, 7f, 0x80~0xa0
2nd値:0xa1~0xfe
UCS2_USERUCS2ユーザ定義文字Unicodeのユーザ定義文字は,UCS-2の範囲だけ対応します。
1st値:0xe0~0xf8
2nd値:0x00~0xff
SJIS_USERSJISユーザ定義文字1st値0xfa~0xfcはIBM拡張漢字で,Unicode変換時は通常文字扱いとなります。
1st値:0xf0~0xfc
2nd値:0x40~0x7e, 0x80~0xfc
EUC_USEREUCユーザ定義文字[A]
 1st値:0xa1~0xfe
 2nd値:0x21~0x7e
[B]
 1st値:0xf5~0xfe
 2nd値:0xa1~0xfe
(凡例)
1st値:第1バイトの値です。
2nd値:第2バイトの値です。