5.8.5 テキスト自動抽出機能

ここでは,テキストデータベースに登録するテキストファイルを自動的に抽出する機能(テキスト自動抽出機能)について説明します。

テキスト自動抽出機能には,次の3種類の機能があります。

テキスト自動抽出機能を使用する場合に設定又は編集が必要なファイルは次の二つです。

なお,テキスト自動抽出サーバを使用する場合は,テキスト抽出管理ファイルの編集も必要です。

<この項の構成>
(1) テキスト自動抽出機能の設定
(2) 抽出対象リストファイルの編集
(3) テキスト抽出管理ファイルの編集
(4) テキスト自動抽出サーバの運用方法(AIX及びHP-UXの場合)
(5) テキスト自動抽出サーバのアクセスログファイルの取得
(6) 注意事項

(1) テキスト自動抽出機能の設定

テキスト自動抽出機能を使用するには,環境設定ファイルで次の項目を設定する必要があります。なお,環境設定ファイルでの設定の詳細については,「5.7 DocumentManagerでの環境設定」を参照してください。

(2) 抽出対象リストファイルの編集

抽出対象リストファイルでは,テキストの抽出方法を指定します。

(a) 格納先

抽出対象リストファイルの格納先を示します。

/usr/infoshare/etc/attxtlst.txt

(b) 指定内容

抽出対象リストファイルには,使用する機能に対応するイベントコードを指定します。指定できるイベントコードは次の2種類です。

REGIST
文書を登録又は一括登録する時に,登録する文書の文書実体ファイルからテキストファイルを抽出する場合に指定します。
抽出には,Document Filter for Text Searchを使用します。
EXPORT
文書配布機能又はエクスポートユティリティ(ISexportコマンド)を実行する時に,テキストデータベースから既に登録されているテキストを抽出する場合に指定します。

(3) テキスト抽出管理ファイルの編集

テキスト抽出管理ファイルでは,テキスト自動抽出サーバのホスト名や実行モードなどを指定します。なお,このファイルを編集する際は,DocumentManagerサーバを停止させてください。

(a) 格納先

テキスト抽出管理ファイルの格納先を示します。

/usr/infoshare/etc/autotxt.cfg

(b) 指定内容

テキスト抽出管理ファイルに指定する内容を次に示します。

ServerName
テキスト自動抽出サーバのホスト名,又はIPアドレスを指定します。255バイト以内で指定してください。
PortNumber
テキスト自動抽出サーバが使用するポート番号を1~65535の範囲で指定してください。なお,指定を省略した場合,テキスト自動抽出サーバはポート番号(22289)を仮定して動作します。
Mode
テキスト抽出処理の実行モードを指定します。
  • Sync
    同期モードで抽出します。
  • NoSync
    非同期モードで抽出します。
LogFileSize
DocumentManagerサーバ及びテキスト自動抽出サーバに出力されるアクセスログファイルのサイズの上限を,0~99(単位:メガバイト)の範囲で指定します。なお,0を指定した場合は,アクセスログファイルは出力されません。また,範囲外の値や指定を省略した場合は1が仮定されます。

(c) 指定例

ServerName = HOST01
PortNumber = 22289
Mode = Sync
LogFileSize = 10

(4) テキスト自動抽出サーバの運用方法(AIX及びHP-UXの場合)

テキスト自動抽出サーバの運用方法について説明します。なお,テキスト自動抽出サーバとして使用できるサーバには,オペレーティングシステムにWindows 2000又はWindows NTを使用していることが前提となります。

(a) ポート番号の設定方法

テキスト自動抽出サービスに,「22289」以外のポート番号を設定する場合,"C:¥winnt¥system32¥drivers¥etc"のservicesファイルに次の記述を追加してください。なお,"C:"はOSがインストールされているドライブ名です。

infosharefilter ポート番号/tcp

なお,指定を省略した場合,テキスト自動抽出サーバはポート番号(22289)を仮定して動作します。ただし,この場合,ポート番号(22289)を既にほかの製品が使用しているとエラーが発生します。

(b) 起動方法

テキスト自動抽出サーバの起動手順を次に示します。

  1. テキスト自動抽出サーバを組み込んだサーバに,システム管理者でログインします。
  2. スタートメニューから,「設定」-「コントロールパネル」-「サービス」を選択します。
    「サービス」ダイアログボックスが表示されます。
  3. 「サービス」ダイアログボックスのリストから,「Document Manager Text Extract Service」を選択して,「開始」ボタンをクリックします。
    テキスト自動抽出サーバが起動します。

(c) 終了方法

テキスト自動抽出サーバの終了手順を次に示します。

  1. テキスト自動抽出サーバを組み込んだサーバに,システム管理者でログインします。
  2. スタートメニューから,「設定」-「コントロールパネル」-「サービス」を選択します。
    「サービス」ダイアログボックスが表示されます。
  3. 「サービス」ダイアログボックスのリストから,「Document Manager Text Extract Service」を選択して,「停止」ボタンをクリックします。
    テキスト自動抽出サーバが終了します。

(5) テキスト自動抽出サーバのアクセスログファイルの取得

テキスト自動抽出サーバのアクセスログは,Document Managerサーバへのテキストデータの転送が完了したタイミングで出力されます。アクセスログファイルのサイズの上限は,サービス起動時に,テキスト抽出管理ファイルに指定されている値がサービス停止時まで有効になります。そのため,アクセスログファイルのサイズの上限を変更する場合は,テキスト自動抽出サーバを再起動する必要があります。

(a) 出力先

アクセスログは次の二つのファイルに出力されます。

autotxtlogのファイルサイズが,テキスト抽出管理ファイルで指定したサイズの上限を超えると,KIIS2003-Iのメッセージをイベントビューアに出力します。その後,autotxtlogをautotxtlog.bakにリネームします。autotxtlog.bakは,1世代分だけ作成されます。

autotxtlogの使用容量が80%,90%,95%,99%を超えた場合は,KIIS2004-Iのメッセージをイベントビューアに出力します。この状態で処理を続行すると,autotxtlogをautotxtlog.bakにリネームして,古いautotxtlog.bakに上書きします。したがって,autotxtlog.bakに必要なアクセスログが残っている場合は,このメッセージが出力された時点で任意のファイルに退避してください。

(b) 出力形式

アクセスログは次のどちらかの形式で出力されます。

YYYY/MM/DD HH:MM:SS AAA.AAA.AAA.AAA BBBBBB CCC…C
 
YYYY/MM/DD HH:MM:SS AAA.AAA.AAA.AAA [DDDDDDDDDD] EEEEEE FFF…F

YYYY/MM/DD HH:MM:SS
DocumentManagerサーバへのテキストデータの転送が完了した年月日及び時刻が表示されます。
AAA.AAA.AAA.AAA
「***.***.***.***」が固定で表示されます。
BBBBBB
テキスト抽出処理の実行モードが表示されます。
  • Sync△△:同期モード
  • NoSync:非同期モード
CCC…C
テキスト抽出処理を実行された文書のファイル名が表示されます。
DDDDDDDDDD
メッセージ番号が表示されます。
EEEEEE
テキスト抽出処理の実行モードが表示されます。実行のモードが不明の場合,「********」が表示されます。
  • Sync△△:同期モード
  • NoSync:非同期モード
FFF…F
テキスト抽出処理を実行された文書のファイル名が表示されます。ファイル名が不明の場合,「********」が表示されます。

(c) 出力例

アクセスログファイルの出力例を次に示します。

2001/04/16 12:13:43 ***.***.***.*** Sync   test1.doc
2001/04/16 12:13:43 ***.***.***.*** NoSync test2.xls
2001/04/16 12:13:43 ***.***.***.*** [KIIS2003-E] Sync   作業報告書.doc
2001/04/16 12:13:43 ***.***.***.*** [KIIS2003-E] ****   ********

(6) 注意事項