Hitachi

HiRDB 全文検索プラグイン HiRDB Text Search Plug-in Version 10


付録G 用語解説

(英字)

BLOB

文書や画像,音声など,キロバイト,メガバイト,またはギガバイト単位の長大なデータのことです。

DTD

SGMLで文書を作成するときの,文書構造の定義です。

DTDファイル

構造化文書用の列に対して,登録する文書の構造を定義するためのファイルです。一つの列に一つのDTDファイルを作成します。

FREEWORD型

文字列データを扱う抽象データ型のことです。

HiRDB管理者

HiRDBの運用コマンドの実行者で,スーパユーザが登録したシステム管理者用のユーザIDでログインしたユーザのことです。HiRDBのディレクトリおよびファイルの所有者です。

IXFREEWORD型

FREEWORD型という抽象データ型に対応するインデクス型のことです。

NGRAM型

SGMLTEXT型という抽象データ型に対応するインデクス型のことです。

RDエリア

データベースの表,インデクス,およびデータディクショナリを格納するデータ領域のことです。

SGMLTEXT型

SGML文書やプレーン文書を扱う抽象データ型のことです。

SGML定義情報

DTDと正規化パラメタのことです。SGML文書の登録や検索に必要なこれらの情報をまとめて,SGML定義情報と呼びます。

UCS2(Universal multi-octet Character Set 2)

ISOによって規定された国際文字コードISO/IEC 10646-1の16ビット文字コードです。

UCS4(Universal multi-octet Character Set 4)

ISOによって規定された国際文字コードISO/IEC 10646-1の32ビット文字コードです。

(ア行)

異表記展開

表記方法が異なるものを同じ意味の語とみなすことです。カタカナ異表記,アルファベット異表記,全角半角異表記などがあります。

インクリメンタル

インデクス作成単位の文字数を増やすことです。

インデクス作成方法

登録している文書または文字列データに対してインデクスを作成する場合,次の方法があります。

  • 即時登録

    インデクス作成とインデクスへの文書登録を同時に実行する方法です。

  • 初期分割登録または分割遅延登録

    インデクスへ反映しないで,文書やデータの登録だけを実行し,インデクス作成開始ユティリティを使ってインデクスへの文書登録を実行する方法です。

重み

検索条件を複数指定するときに,各検索条件に対して付ける重要度のことです。

(カ行)

概念検索

検索条件として指定した文章(種文章)をキーに,似た内容(概念)を持つ文書を検索する検索方法です。

近傍条件検索

単語と単語の間の文字数を条件として指定する検索方法です。

検索結果集合

検索条件に一致した文書の集合です。

検索条件

データベースの文書を検索するための条件です。

検索ターム

検索条件に指定するキーワードです。

検索用特徴ターム

種文章から抽出した特徴タームの中で,その種文章の概念を表すために採用されたタームのことです。種文章の特徴をより明確に示している特徴タームから順に,検索用特徴タームとして採用されます。

更新前ログ取得モード

UAPまたはユティリティを実行するときのデータベースの更新ログ取得方式の一つです。UAPまたはユティリティがRDエリアの内容を更新するときに,ロールバックに必要なデータベース更新ログだけを取得する方式のことです。

構造名

SGML文書中のタグのことです。SGML文書の内容は,このタグによって要素ごとに分けられています。

(サ行)

差分インデクス

文書の登録性能を向上させるために使用する小容量の一時的な登録用インデクスのことです。

除外文字検索

検索タームの一部または前後に特定の文字がある場合を除外して,該当する文書を検索することです。

スコア

検索条件に対して,どの程度の適応度があるかを示した得点です。

正規化パラメタ

正規化パラメタファイルの構成要素の一つです。SGML文書中のタグの制御方法を定義します。

正規化パラメタファイル

SGML文書内のタグや文書中の特定データを制御するパラメタを記述するファイルです。正規化パラメタファイルは「正規化パラメタ」と「特定文字データ変換マップ」で構成されます。

属性名

構造に付加された属性の名前のことです。

(タ行)

種文章

概念検索で,似通った文書を探す基になる文章のことです。

抽象データ型

ユーザが複雑な構造を持つデータとその操作を独自に定義し,利用できるデータ型のことです。

同義語

同じ意味を持つ言葉のことです。例えば,「コンピュータ」の同義語は「電子計算機」となります。

同義語・異表記展開

検索タームの同義語および異表記を呼び出すことです。同義語は同義語辞書から呼び出します。異表記は,システムで決められた規則に従って呼び出されます。

同義語辞書

同義語の展開方法を定義したファイルです。

登録・検索同時実行

排他制御の単位を小さくすることで,SQLによるデータ登録と検索の同時実行を可能とする機能です。

特徴ターム

概念検索で,種文章の内容(概念)を特徴付けているタームのことです。

特徴ターム抽出しきい値

種文章から特徴タームを抽出する際に,出現確率が高いタームを除くためのしきい値のことです。

特定文字データ変換マップ

正規化パラメタファイルの構成要素の一つです。SGML文書中の特定の文字の変換方法を定義します。

(ハ行)

プラグインインデクスの遅延一括作成

プラグインインデクスを定義した表に行データを追加したとき,プラグインインデクスのデータ追加処理をしないで,HiRDBのデータベース再編成ユティリティを使用して,あとで一括してプラグインインデクスのデータ追加処理をする機能です。

プラグインインデクスを定義した表の行データを大量追加(または大量更新)するときにこの機能を使用できます。

文書

データベースに登録するテキスト形式のファイルです。

文書検索プラグイン

SGML文書の検索や登録など,文書を扱うためのプラグインです。文書検索プラグインは,SGMLTEXT型という抽象データ型を扱うSGMLプラグインと,SGMLTEXT型に対応するNGRAM型というインデクス型を扱うn-gramインデクスプラグインで構成されています。

(マ行)

文字列検索プラグイン

短い文字列データの検索や登録など,文字列データを扱うためのプラグインです。文字列検索プラグインは,FREEWORD型という抽象データ型を扱うFREEWORDプラグインと,FREEWORD型に対応するIXFREEWORD型というインデクス型を扱うIXFREEWORDプラグインで構成されています。

(ヤ行)

ユーザLOB用RDエリア

文書や画像,音声などの長大な可変長データを格納するためのRDエリアのことです。次に示すデータを,ユーザLOB用RDエリアに格納する必要があります。

  • BLOB型を指定した列(BLOB列)

  • 抽象データ型内の,BLOB型を指定した属性

  • プラグインインデクス

ユーザ用RDエリア

ユーザが作成する表とインデクスを格納するためのRDエリアのことです。

ユニット

一つのサーバマシン内のHiRDBの動作環境のことです。

(ラ行)

レジストリLOB用RDエリア

レジストリ情報を管理する表(レジストリ管理表)を格納するためのRDエリアです。レジストリ機能を使用する場合に必要です。ただし,プラグインの種類によっては,レジストリ機能を使用しないものがあります。登録されるデータの長さによって,レジストリLOB用RDエリアに格納するかどうかをシステムが自動的に決定します。また,レジストリ管理表に情報を登録したりする,操作用のストアドプロシジャもこのRDエリアに格納します。

レジストリ機能

データ操作時にプラグインが使用するためのプラグイン固有の情報を,HiRDBが保持する機能のことです。

レジストリ用RDエリア

レジストリ情報を管理する表(レジストリ管理表)を格納するためのRDエリアです。レジストリ機能を使用する場合に必要です。ただし,プラグインの種類によっては,レジストリ機能を使用しないものがあります。

ログ取得モード

UAPまたはユティリティを実行するときのデータベースの更新ログ取得方式の一つです。UAPまたはユティリティがRDエリアの内容を更新するときに,ロールバックおよびロールフォワードに必要なデータベース更新ログを取得する方式のことです。

ログレスモード

UAPまたはユティリティを実行するときのデータベースの更新ログ取得方式の一つです。UAPまたはユティリティがRDエリアの内容を更新するときに,データベース更新ログを取得しない方式のことです。