HiRDB 全文検索プラグイン HiRDB Text Search Plug-in Version 8

[目次][用語][索引][前へ][次へ]

2.3.3 ファイル容量

Text Search Plug-inのファイル容量の見積もり方法について説明します。見積もりの必要なファイル容量は,次に説明する更新作業用ファイルと,同義語辞書ファイルおよびシステムログファイルの容量です。

<この項の構成>
(1) SGMLプラグインおよびn-gramインデクスプラグインの場合
(2) FREEWORDプラグインおよびIXFREEWORDプラグインの場合

(1) SGMLプラグインおよびn-gramインデクスプラグインの場合

(a) 同義語辞書ファイル

Text Search Plug-inは,同義語辞書ファイルを次の場所に格納します。

UNIXの場合
$PDDIR/plugin/_phsgml/dic
$PDDIR/plugin/_phsgml/dic_c
$PDDIR/plugin/_phsgml/dic_w
$PDDIR/plugin/_phsgml/dic_y
$PDDIR/plugin/_phsgml/dic_cw
$PDDIR/plugin/_phsgml/dic_cy
$PDDIR/plugin/_phsgml/dic_wy
$PDDIR/plugin/_phsgml/dic_cwy
$PDDIR/plugin/_phsgml/dic_cd
$PDDIR/plugin/_phsgml/dic_cdr
$PDDIR/plugin/_phsgml/dic_cr
$PDDIR/plugin/_phsgml/dic_cwd
$PDDIR/plugin/_phsgml/dic_cwdr
$PDDIR/plugin/_phsgml/dic_cwr
$PDDIR/plugin/_phsgml/dic_cwyd
$PDDIR/plugin/_phsgml/dic_cwydr
$PDDIR/plugin/_phsgml/dic_cwyr
$PDDIR/plugin/_phsgml/dic_cyd
$PDDIR/plugin/_phsgml/dic_cydr
$PDDIR/plugin/_phsgml/dic_cyr
$PDDIR/plugin/_phsgml/dic_d
$PDDIR/plugin/_phsgml/dic_dr
$PDDIR/plugin/_phsgml/dic_r
$PDDIR/plugin/_phsgml/dic_wd
$PDDIR/plugin/_phsgml/dic_wdr
$PDDIR/plugin/_phsgml/dic_wr
$PDDIR/plugin/_phsgml/dic_wyd
$PDDIR/plugin/_phsgml/dic_wydr
$PDDIR/plugin/_phsgml/dic_wyr
$PDDIR/plugin/_phsgml/dic_yd
$PDDIR/plugin/_phsgml/dic_ydr
$PDDIR/plugin/_phsgml/dic_yr

Windowsの場合
%PDDIR%\plugin\_phsgml\dic
%PDDIR%\plugin\_phsgml\dic_c
%PDDIR%\plugin\_phsgml\dic_w
%PDDIR%\plugin\_phsgml\dic_y
%PDDIR%\plugin\_phsgml\dic_cw
%PDDIR%\plugin\_phsgml\dic_cy
%PDDIR%\plugin\_phsgml\dic_wy
%PDDIR%\plugin\_phsgml\dic_cwy
%PDDIR%\plugin\_phsgml\dic_cd
%PDDIR%\plugin\_phsgml\dic_cdr
%PDDIR%\plugin\_phsgml\dic_cr
%PDDIR%\plugin\_phsgml\dic_cwd
%PDDIR%\plugin\_phsgml\dic_cwdr
%PDDIR%\plugin\_phsgml\dic_cwr
%PDDIR%\plugin\_phsgml\dic_cwyd
%PDDIR%\plugin\_phsgml\dic_cwydr
%PDDIR%\plugin\_phsgml\dic_cwyr
%PDDIR%\plugin\_phsgml\dic_cyd
%PDDIR%\plugin\_phsgml\dic_cydr
%PDDIR%\plugin\_phsgml\dic_cyr
%PDDIR%\plugin\_phsgml\dic_d
%PDDIR%\plugin\_phsgml\dic_dr
%PDDIR%\plugin\_phsgml\dic_r
%PDDIR%\plugin\_phsgml\dic_wd
%PDDIR%\plugin\_phsgml\dic_wdr
%PDDIR%\plugin\_phsgml\dic_wr
%PDDIR%\plugin\_phsgml\dic_wyd
%PDDIR%\plugin\_phsgml\dic_wydr
%PDDIR%\plugin\_phsgml\dic_wyr
%PDDIR%\plugin\_phsgml\dic_yd
%PDDIR%\plugin\_phsgml\dic_ydr
%PDDIR%\plugin\_phsgml\dic_yr

容量は,次に示す式で計算します。

同義語辞書容量[バイト] = (wordnum×(20+wordlen)+1000)×dicnum

(b) 概念検索用統計情報サイズ(1RDエリア当たりのphnconget結果)

収集モード指定:normal
概念検索用統計情報サイズ[バイト]=phnidxlsで表示された概念統計情報サイズ(Size of Original Concept File)×8192

収集モード指定:all
概念検索用統計情報サイズ[バイト]=phnidxlsで表示された概念統計情報サイズ(Size of Original Concept File)×8192×1.5
(c) 概念検索用統合統計情報サイズ(phnconbuild結果)

概念検索用統合統計情報サイズ[バイト] = Σ(各概念検索用統計情報サイズ)+MAX(各概念検索用統計情報サイズ)

(d) ログ量

ログ量は,既登録文書量や登録する文書を構成する文字列に依存します。ここでは平均値で記載します。

SGMLTEXT型列の追加
jnl[キロバイト] = 32

PURGE TABLE
jnl[キロバイト] = 48

これ以降のINSERT時,DELETE時,UPDATE時,一括更新時およびインクリメンタル処理のログ取得には,ログ取得モード,更新前ログ取得モードおよびログレスモードが指定できます。ただし,ログ取得モードでは,更新前ログ取得モードの約2倍必要になります。ここでは更新前ログ取得モードで記載します。

INSERT時
jnl[キロバイト]
=↑(docsize×3×10-3)/4+1↑×4+↑(60×docsize×10-3)/4↑×4
 
docsize:平均登録文書サイズ[バイト]

DELETE時
jnl[キロバイト] = 40

UPDATE時
jnl[キロバイト] = INSERTで必要分+DELETEで必要分

一括更新時(pdload,pdrorg,phnmerge,CREATE INDEX,startidx)
jnl[キロバイト]
=↑(docsize×3×10-3)/4+1↑×4×doccnt
+↑(30×docsize×10-3×doccnt)/4↑×4
 
docsize:平均登録文書サイズ[バイト]
doccnt:登録文書数

インクリメンタル処理
jnl[キロバイト]
=↑(余剰インデクス容量×8×103)/インクリメント対象トライノード数↑
×インクリメント対象トライノード数×10
 
インクリメンタル処理で使用する余剰インデクス容量およびインクリメント対象トライノード数については,「phnidxls(インデクス情報の取得ユティリティ)」で取得できます。

インデクス詰め替え処理
jnl[キロバイト] = インデクスデータ量

統計情報反映処理
jnl[キロバイト] = 反映する統計情報サイズ+24

(2) FREEWORDプラグインおよびIXFREEWORDプラグインの場合

(a) 同義語辞書ファイル

Text Search Plug-inは,同義語辞書ファイルを次の場所に格納します。

UNIXの場合
$PDDIR/plugin/_phcfwd/dic
$PDDIR/plugin/_phcfwd/dic_c
$PDDIR/plugin/_phcfwd/dic_w
$PDDIR/plugin/_phcfwd/dic_y
$PDDIR/plugin/_phcfwd/dic_cw
$PDDIR/plugin/_phcfwd/dic_cy
$PDDIR/plugin/_phcfwd/dic_wy
$PDDIR/plugin/_phcfwd/dic_cwy
$PDDIR/plugin/_phcfwd/dic_cd
$PDDIR/plugin/_phcfwd/dic_cdr
$PDDIR/plugin/_phcfwd/dic_cr
$PDDIR/plugin/_phcfwd/dic_cwd
$PDDIR/plugin/_phcfwd/dic_cwdr
$PDDIR/plugin/_phcfwd/dic_cwr
$PDDIR/plugin/_phcfwd/dic_cwyd
$PDDIR/plugin/_phcfwd/dic_cwydr
$PDDIR/plugin/_phcfwd/dic_cwyr
$PDDIR/plugin/_phcfwd/dic_cyd
$PDDIR/plugin/_phcfwd/dic_cydr
$PDDIR/plugin/_phcfwd/dic_cyr
$PDDIR/plugin/_phcfwd/dic_d
$PDDIR/plugin/_phcfwd/dic_dr
$PDDIR/plugin/_phcfwd/dic_r
$PDDIR/plugin/_phcfwd/dic_wd
$PDDIR/plugin/_phcfwd/dic_wdr
$PDDIR/plugin/_phcfwd/dic_wr
$PDDIR/plugin/_phcfwd/dic_wyd
$PDDIR/plugin/_phcfwd/dic_wydr
$PDDIR/plugin/_phcfwd/dic_wyr
$PDDIR/plugin/_phcfwd/dic_yd
$PDDIR/plugin/_phcfwd/ic_ydr
$PDDIR/plugin/_phcfwd/dic_yr

Windowsの場合
%PDDIR%\plugin\_phcfwd\dic
%PDDIR%\plugin\_phcfwd\dic_c
%PDDIR%\plugin\_phcfwd\dic_w
%PDDIR%\plugin\_phcfwd\dic_y
%PDDIR%\plugin\_phcfwd\dic_cw
%PDDIR%\plugin\_phcfwd\dic_cy
%PDDIR%\plugin\_phcfwd\dic_wy
%PDDIR%\plugin\_phcfwd\dic_cwy
%PDDIR%\plugin\_phcfwd\dic_cd
%PDDIR%\plugin\_phcfwd\dic_cdr
%PDDIR%\plugin\_phcfwd\dic_cr
%PDDIR%\plugin\_phcfwd\dic_cwd
%PDDIR%\plugin\_phcfwd\dic_cwdr
%PDDIR%\plugin\_phcfwd\dic_cwr
%PDDIR%\plugin\_phcfwd\dic_cwyd
%PDDIR%\plugin\_phcfwd\dic_cwydr
%PDDIR%\plugin\_phcfwd\dic_cwyr
%PDDIR%\plugin\_phcfwd\dic_cyd
%PDDIR%\plugin\_phcfwd\dic_cydr
%PDDIR%\plugin\_phcfwd\dic_cyr
%PDDIR%\plugin\_phcfwd\dic_d
%PDDIR%\plugin\_phcfwd\dic_dr
%PDDIR%\plugin\_phcfwd\dic_r
%PDDIR%\plugin\_phcfwd\dic_wd
%PDDIR%\plugin\_phcfwd\dic_wdr
%PDDIR%\plugin\_phcfwd\dic_wr
%PDDIR%\plugin\_phcfwd\dic_wyd
%PDDIR%\plugin\_phcfwd\dic_wydr
%PDDIR%\plugin\_phcfwd\dic_wyr
%PDDIR%\plugin\_phcfwd\dic_yd
%PDDIR%\plugin\_phcfwd\dic_ydr
%PDDIR%\plugin\_phcfwd\dic_yr

容量は,次に示す式で計算します。

同義語辞書容量[バイト] = (wordnum×(20+wordlen)+1000)×dicnum

wordnum:登録語数

wordlen:平均語長[バイト]

dicnum:登録辞書数

(b) ログ量

ログ量は,既登録文字列データ量や登録する文字列の内容に依存します。ここでは平均値で記載します。

FREEWORD型列の追加
jnl[キロバイト] = 32

PURGE TABLE
jnl[キロバイト] = 48

これ以降のINSERT時,DELETE時,UPDATE時,一括更新時およびインクリメンタル処理のログ取得には,ログ取得モード,更新前ログ取得モードおよびログレスモードが指定できます。ただし,ログ取得モードでは,更新前ログ取得モードの約2倍必要になります。ここでは更新前ログ取得モードで記載します。

INSERT時
jnl[キロバイト]
=↑(freewordsize×3×10-3)/4+1↑×4
+↑(60×freewordsize×10-3)/4↑×4
 
freewordsize:平均登録文字列データ長[バイト]

DELETE時
jnl[キロバイト] = 40

UPDATE時
jnl[キロバイト] = INSERTで必要分+DELETEで必要分

一括更新時(pdload,pdrorg,phnmerge,CREATE INDEX)
jnl[キロバイト]
=↑(freewordsize×3×10-3)/4+1↑×4×freewordcnt
+↑(30×freewordsize×10-3×doccnt)/4↑×4
 
freewordsize:平均登録文字列データ長[バイト]
freewordcnt:登録文字列データ件数
doccnt:登録文書数

インクリメンタル処理
jnl[キロバイト]
=↑(余剰インデクス容量×8×103)/インクリメント対象トライノード数↑
×インクリメント対象トライノード数×10
 
インクリメンタル処理で使用する余剰インデクス容量およびインクリメント対象トライノード数については,「phxidxls(インデクス情報の取得ユティリティ)」で取得できます。

インデクス詰め替え処理
jnl[キロバイト] = インデクスデータ量