uCosminexus Interschema ユーザーズガイド

[目次][用語][索引][前へ][次へ]

付録K.2 文字種別

トランスレータが扱う文字コードはJISコードを基本とし,それぞれの文字を次に示す文字種別に分類して操作します。

表K-2 文字種別一覧

文字種別 意味 説明
ISO ISO/IEC 646 JIS-X0201 (ROMAN)と同様に扱います。
ISO/IEC 646の文字をJIS-X0201 (ROMAN)にそのまま代入できます。
0201R JIS-X0201(ROMAN) 7bit JISです。ISO/IEC 646と同様に扱います。
0x00〜0x1f:制御コード
0x20〜0x7e:印字可能文字
0x7f:DEL
0201K JIS-X0201(かな) JIS-X0201のかな文字部分:0xa1〜0xdf
0201K_G1 JIS-X0201(かな) G1 JIS-X0201(かな)と同様です。
解放文字処理などで文字種別(シフトコード)を区別するために使用します。
8859G1 ISO-8859(G1) ISO-8859のG1(GR)文字部分:0xa1〜0xff
C6226 JIS-C6226 JIS-X0208-1978です。
各バイトは0x21〜0x7eの範囲となります。
JIS-X0208へ変換できます。
JIS-C6226からJIS-X0208-1983の変更は次のとおりです。
  • 削除文字なし
  • 追加文字あり
  • コード入れ替え 22文字
  • 字形変更されたものあり
0208 JIS-X0208 JIS-X0208-1990です。
各バイトは0x21〜0x7eの範囲となります。
トランスレータではJIS-X0208-1983とは区別しません。
0212 JIS-X0212 JIS-X0212-1990です。
各バイトは0x21〜0x7eの範囲となります。
JIS-X0208との変換はできません。
0212_G1 JIS-X0212 G1 JIS-X0212と同様です。
解放文字処理などで文字種別(シフトコード)を区別するために使用します。
UTF Unicode(サロゲートペア) サロゲートペアで表される文字をUCS-4表現したものです。
Unicode内でだけ扱えます(UCS-2を除きます)。
UTF-16での1st値:0xd800〜0xdbff
UTF-16での2nd値:0xdc00〜0xdfff
KEIS_USER KEISユーザ定義文字 1st値:0x41〜0xa0
2nd値:0xa1〜0xfe
IBM_USER IBMユーザ定義文字 1st値:0x69〜0x7f
2nd値:0x41〜0xfe
JEF_USER JEFユーザ定義文字 1st値:0x41〜0x7d, 7f, 0x80〜0xa0
2nd値:0xa1〜0xfe
UCS2_USER UCS2ユーザ定義文字 Unicodeのユーザ定義文字は,UCS-2の範囲だけ対応します。
1st値:0xe0〜0xf8
2nd値:0x00〜0xff
SJIS_USER SJISユーザ定義文字 1st値0xfa〜0xfcはIBM拡張漢字で,Unicode変換時は通常文字扱いとなります。
1st値:0xf0〜0xfc
2nd値:0x40〜0x7e, 0x80〜0xfc
EUC_USER EUCユーザ定義文字 [A]
 1st値:0xa1〜0xfe
 2nd値:0x21〜0x7e
[B]
 1st値:0xf5〜0xfe
 2nd値:0xa1〜0xfe

(凡例)
1st値:第1バイトの値です。
2nd値:第2バイトの値です。