23.1 用語の定義
Unicode機能で使用する用語について次に示す。
# |
用語 |
説明 |
---|---|---|
1 |
Unicode |
1バイトでは表現できない文字セットを含むあらゆる文字セットをサポートした文字コードのこと。 代表的な符号化文字集合として,UCS-2,UCS-4がある。代表的なエンコーディングスキーマとしてUTF-8,UTF-16がある。 COBOL2002では,UCS-4の範囲(UCS-2の範囲を含む)をサポートする。 |
2 |
UCS-2 |
符号化文字集合の一つの形式。1文字を2バイトで表現する。COBOL2002では,用途がDISPLAYおよびNATIONALの項目でサポートする。 |
3 |
UCS-4 |
符号化文字集合の一つの形式。1文字を4バイトで表現する。 COBOL2002では,用途がDISPLAYおよびNATIONALの項目でUCS-4の範囲をサポートする。 |
4 |
UTF-8 |
エンコーディングスキーマの一つの形式。ASCII文字を1バイト,日本語文字を3〜8バイト,半角かたかなを3バイトで表現する。 |
5 |
UTF-16 |
エンコーディングスキーマの一つの形式。1つのコード単位を2バイトとし,1文字を1コード単位(2バイト),または2コード単位(4バイト)で表現する。UTF-16では2バイトのコード単位の1バイト目を先に書くビッグエンディアン形式(UTF-16BE)と1バイト目を後に書くリトルエンディアン形式(UTF-16LE)がある。 COBOL2002では,用途がNATIONALの項目でUCS-4の範囲(UCS-2の範囲を含む)をサポートする。 |
6 |
サロゲート |
UTF-16の拡張で,2つのコード単位(4バイト)で1文字を表す機能。この2つのコード単位の組み合わせのことをサロゲートペアと呼ぶ。 COBOL2002では,用途がNATIONALの項目で使用する。 |
7 |
BOM(バイトオーダマーク) |
ファイルの先頭に付加された,Unicodeの表現形式を表す情報。COBOL2002では,テキスト編成ファイルに対してこの情報を付加する。本文中では,Unicodeシグニチャと表記する。 |
8 |
バイトオーダ |
2バイト以上のデータの記録を行なう順序のこと。例えば,0x1234のデータを0x1234のように最上位のバイトから順番に記録する方式をビッグエンディアン,0x3412のように最下位のバイトから順番に記録する方式をリトルエンディアンという。2バイトのUTF-16は,バイトオーダを意識する。 |
9 |
IVS |
漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し,漢字の「異体字」を表現する方法のこと。 COBOL2002では,用途がDISPLAYおよびNATIONALの項目で使用する。 |
10 |
文字位置の個数 |
英数字項目または日本語項目のPICTURE句に指定した文字位置の個数。 例) 01 DATA1 PIC X(3). *>文字位置の個数は3 01 DATA2 PIC N(5). *>文字位置の個数は5 |
11 |
文字数 |
見た目の文字数。 サロゲートペアやIVSで表現する漢字も文字数は1文字とする。 |
12 |
見た目幅 |
Unicode機能の組み込み関数で使用する,文字の見た目の幅。半角文字の幅は1,全角文字の幅は2として扱う。 Unicode機能の組み込み関数で,文字を見た目幅で数える場合に使用する。 |