ソートマージ


付録O 用語解説

(特殊文字)

\

シングルクォーテーション(')などの文字をエスケープする場合に指定します。UNIX環境によっては,バックスラッシュ(\)と表示されます。

(英字)

EUC-JP

UNIX系OSの国際化対応のために開発された文字コード体系です。日本語対応ワークステーションで,内部コードとして広く使用されています。

IVS

IVSとは,同じ意味の漢字文字を複数の字形で表現できる仕組みで,ISO/IEC 10646で規定されているUnicodeで実装されています。漢字を表すコードの直後にVS(Variation Selector,異体字セレクタ)と呼ばれるコードを付加することで,その漢字の「異体字」を表現する方法です。また,基底文字+VSを並べた文字符号列をIVS(Ideographic Variation Sequence)と呼びます。

Microsoftコードページ

Windowsで実装されている各国語別にまとめられた符号化文字集合を示す文字コード体系です。一般的な日本語環境のWindowsシステムで使用するコードページは,コードページ932(CP932)です。

Shift_JIS

1バイト文字(JIS X0201)と2バイト文字(JIS X0208)を,エスケープシーケンスで切り替えることなく,JIS X0208を移動(シフト)させることで,混在して扱えるようにした文字コード体系です。

SORT

SORTは,ファイルに保管されたデータを,それぞれの利用目的に合った形で入出力するソート・マージ機能を提供するソフトウェアです。

SORTには,ソート機能,マージ機能,選択機能および集約機能があります。

SORT EE

SORT EEは,SORTより豊富なソート・マージ機能を提供するソフトウェアです。SORTが提供する機能に,編集機能や複数ファイル出力機能が追加されました。また,可変長データのCSVファイルを入出力ファイルとして扱えます。

SORT EEには,基本機能(ソート機能,マージ機能,コピー機能)とレコード処理機能(選択機能,集約機能,編集機能,ファイル分割機能,ファイル連結機能)があります。SORT EEは,1コマンドで基本機能とレコード処理機能を組み合わせて使用できます。

UCS-2BE

big endian形式のUCS-2文字コードのことです。

UCS-2LE

little endian形式のUCS-2文字コードのことです。

UCS-4BE

big endian形式のUCS-4文字コードのことです。

UCS-4LE

little endian形式のUCS-4文字コードのことです。

Unicode

ISO/IECで標準化された符号化文字集合の規格で,UCS-2とUCS-4の規格があります。

  • UCS-2(Universal Multiple-Octet Coded Character Set-2)は,2オクテット(16bit)で文字を表現します。

  • UCS-4(Universal Multiple-Octet Coded Character Set-4)は,4オクテット(32bit)で文字を表現します。

Unicodeシグニチャ(BOM)

テキストファイルの先頭に付けられる,Unicodeのエンコード方式を示す数バイトのデータのことで,BOM(byte order mark)ともいいます。

UTF-8

UTF-8(Unicode Transformation Format 8)とは,Unicodeを8ビット符号単位で表現するエンコード(符号化)方式です。

UTF-16

UTF-16(Unicode Transformation Format 16)とは,Unicodeを16ビット符号単位で表現するエンコード(符号化)方式です。

UTF-16BE

UTF-16 big endianのエンコード方式のことです。

UTF-16LE

UTF-16 little endianのエンコード方式のことです。

UTF-32

UTF-32(Unicode Transformation Format 32)とは,Unicodeを32ビット符号単位で表現するエンコード(符号化)方式です。

UTF-32BE

UTF-32 big endianのエンコード方式のことです。

UTF-32LE

UTF-32 little endianのエンコード方式のことです。

VS

Variation Selector(異体字セレクタ)と呼ばれるコードで,UnicodeでのIVS(異体字)を表現します。

VSの範囲としてサロゲートエリア内の「U+E0100〜U+E01EF」が割り当てられており,UTF-16ではサロゲートペアでVSが表現されることになります。

(ア行)

円記号(\

シングルクォーテーション(')などの文字をエスケープする場合に指定します。UNIX環境によっては,バックスラッシュ(\)と表示されます。

エンディアン

バイトデータを格納する際のバイトオーダー(格納順序)のことです。上位バイトを下位番地の数値として扱うバイトオーダーをbig endianといい,上位バイトを上位番地の数値として扱うバイトオーダーをlittle endianといいます。

例えば,英小文字の「a(U+0061)」は,UTF-16 big endianでは「0x0061」,UTF-16 little endianでは「0x6100」と表現されます。

(カ行)

簡易コピー機能

簡易コピー機能とは,入力ファイルを出力ファイルに複写する機能です。レコード処理機能(選択,集約,編集,ファイル分割,ファイル連結)と組み合わせることはできませんが,コマンド指定が簡単で使いやすく,また,レコード長とレコード件数の制限がありません。

環境ファイル

SORTの環境ファイル「wnsort.wse」(Windowsの場合だけ)とは,各コマンドの実行時に省略したパラメタの初期値を設定するファイルです。

SORT EEの環境ファイル「Exsortconf.iniファイル(64ビット版は「Exsortconf64.iniファイル」)」とは,SORT EEの実行環境を初期化するときの値を設定するファイルです。

環境変数

SORT EEの環境変数は,exsortコマンドのパラメタ省略時に設定するデフォルト値を定義します。SORT EEの環境変数の指定がなく,SORTの環境ファイルの指定がある場合は,SORTの環境ファイルの指定を有効とします。

基底文字

UnicodeでのIVS(異体字)の表現で,漢字を表すコード部分を「基底文字(Base Character)」と呼びます。

結合文字

Unicodeには,1つの文字に別の文字を結合することで,修飾された1つの文字として表現する方法があります。結合(修飾)する側の文字を「結合文字(Combining Character)」といいます。また,結合(修飾)される側の文字を「基底文字(Base Character)」といい,基底文字と結合文字を組み合わせた結果を「合成済み文字(Precomposed Character)」といいます。

また,合成済み文字と同じ字形の基底文字がある場合,その2つの文字は等価です。結合文字と合成済み文字の例を次に示します。

【例】

基底文字「は(U+306F)」+結合文字「゛(U+3099)」

=合成済み文字「ば(U+306F U+3099)」

=基底文字「ば(U+3070)」

SORT EEでは,結合文字については対応していません。合成済み文字と同じ字形の基底文字は等価と扱われませんので,注意してください。

コードページ932(CP932)

WindowsシステムでのShift_JISコード対応の文字コードを示します。

コードページ1200(CP1200)

WindowsシステムでのUTF-16エンコード対応の文字コードを示します。

コードページ1201(CP1201)

WindowsシステムでのUTF-16(Big Endian)エンコード対応の文字コードを示します。

コードページ12000(CP12000)

WindowsシステムでのUTF-32エンコード対応の文字コードを示します。

コードページ12001(CP12001)

WindowsシステムでのUTF-32(Big Endian)エンコード対応の文字コードを示します。

コードページ51932(CP51932)

WindowsシステムでのEUC-JPコード対応の文字コードを示します。

コードページ65001(CP65001)

WindowsシステムでのUTF-8エンコード対応の文字コードを示します。

コピー機能

コピー機能とは,入力ファイルを出力ファイルに複写する機能です。

レコード処理機能(選択,集約,編集,ファイル分割,ファイル連結)と組み合わせると,レコード処理機能だけを使用できます。

(サ行)

サロゲートペア

Unicodeは,BMPと呼ばれる基本多言語面(Basic Multilingual Plane)と,拡張面の2種類で構成されます。

Unicode(UCS-2)のBMPでは,65,535文字までしか表現できないため,Unicode2.0より拡張面を使用するサロゲートペアの方式が採用されました。

BMPの未定義領域1,024×2個(0xD800〜0xDBFF,0xDC00〜0xDFFF)を使用し,ペア(4バイト)で1つの字を表現します。

JIS規格の第三水準,第四水準の一部の漢字は,サロゲートペアで表現されます。

集約機能

集約機能とは,データ中の文字または数字をキーとして,指定した複数のレコードを一つのレコードに併合し,指定した項目の値を合計する機能です。

正規化

SORTでの正規化とは,キー・項目に対応する入力データを,大小比較できる形式に変形することです。

世界協定時

UTC(Coordinated Universal Time)とは,世界共通の標準時刻のことで,グリニッジ標準時(GMT)と同義です。

選択機能

選択機能とは,条件値とデータを比較し,条件に一致したデータを持つレコードをファイルから選択する機能です。

ソート機能

ソート機能とは,ファイル内のレコードを,データ中の文字または数字をキーとして,昇順または降順に並べ替える機能です。

(ハ行)

比較項目

比較項目とは,選択機能で,条件値と比較されるデータを格納している項目です。

編集機能

編集機能とは,レコード内の任意の部分を選択したり,任意のデータを埋め込んだりすることでレコードを再編成する機能です。

(マ行)

マージ機能

マージ機能とは,複数のファイルのデータを,データ中の文字または数字をキーとして,一つのファイルに併合する機能です。

マルチバイト文字

1文字の長さを可変長の多バイトで扱う文字のことです。

(ラ行)

レコードヘッダ

可変長順編成ファイルで,各レコードの先頭にあるレコード長を格納している領域のことです。日立メインフレームではRDW(Record Descriptor Word,レコード記述語)といいます。

(ワ行)

ワイド文字

1文字の長さを固定長の多バイトで扱う文字のことです。

SORT EEでは,1文字をUCS-2とUTF-16を2バイト,UCS-4とUTF-32を4バイトの固定長として扱います。