ここでは,テキストデータベースに登録するテキストファイルを自動的に抽出する機能(テキスト自動抽出機能)について説明します。
テキスト自動抽出機能には,次の3種類の機能があります。
図5-6 テキスト自動抽出サーバを使用したテキスト抽出の処理の流れ
テキスト自動抽出機能を使用する場合に設定又は編集が必要なファイルは次の二つです。
なお,テキスト自動抽出サーバを使用する場合は,テキスト抽出管理ファイルの編集も必要です。
(1) テキスト自動抽出機能の設定
テキスト自動抽出機能を使用するには,環境設定ファイルで次の項目を設定する必要があります。なお,環境設定ファイルでの設定の詳細については,「5.7 DocumentManagerでの環境設定」を参照してください。
(2) 抽出対象リストファイルの編集
抽出対象リストファイルでは,テキストの抽出方法を指定します。
(a) 格納先
抽出対象リストファイルの格納先を示します。
/usr/infoshare/etc/attxtlst.txt
(b) 指定内容
抽出対象リストファイルには,使用する機能に対応するイベントコードを指定します。指定できるイベントコードは次の2種類です。
(3) テキスト抽出管理ファイルの編集
テキスト抽出管理ファイルでは,テキスト自動抽出サーバのホスト名や実行モードなどを指定します。なお,このファイルを編集する際は,DocumentManagerサーバを停止させてください。
(a) 格納先
テキスト抽出管理ファイルの格納先を示します。
/usr/infoshare/etc/autotxt.cfg
(b) 指定内容
テキスト抽出管理ファイルに指定する内容を次に示します。
(c) 指定例
ServerName = HOST01
PortNumber = 22289
Mode = Sync
LogFileSize = 10
(4) テキスト自動抽出サーバの運用方法(AIX及びHP-UXの場合)
テキスト自動抽出サーバの運用方法について説明します。なお,テキスト自動抽出サーバとして使用できるサーバには,オペレーティングシステムにWindows 2000又はWindows NTを使用していることが前提となります。
(a) ポート番号の設定方法
テキスト自動抽出サービスに,「22289」以外のポート番号を設定する場合,"C:¥winnt¥system32¥drivers¥etc"のservicesファイルに次の記述を追加してください。なお,"C:"はOSがインストールされているドライブ名です。
なお,指定を省略した場合,テキスト自動抽出サーバはポート番号(22289)を仮定して動作します。ただし,この場合,ポート番号(22289)を既にほかの製品が使用しているとエラーが発生します。
(b) 起動方法
テキスト自動抽出サーバの起動手順を次に示します。
(c) 終了方法
テキスト自動抽出サーバの終了手順を次に示します。
(5) テキスト自動抽出サーバのアクセスログファイルの取得
テキスト自動抽出サーバのアクセスログは,Document Managerサーバへのテキストデータの転送が完了したタイミングで出力されます。アクセスログファイルのサイズの上限は,サービス起動時に,テキスト抽出管理ファイルに指定されている値がサービス停止時まで有効になります。そのため,アクセスログファイルのサイズの上限を変更する場合は,テキスト自動抽出サーバを再起動する必要があります。
(a) 出力先
アクセスログは次の二つのファイルに出力されます。
autotxtlogのファイルサイズが,テキスト抽出管理ファイルで指定したサイズの上限を超えると,KIIS2003-Iのメッセージをイベントビューアに出力します。その後,autotxtlogをautotxtlog.bakにリネームします。autotxtlog.bakは,1世代分だけ作成されます。
autotxtlogの使用容量が80%,90%,95%,99%を超えた場合は,KIIS2004-Iのメッセージをイベントビューアに出力します。この状態で処理を続行すると,autotxtlogをautotxtlog.bakにリネームして,古いautotxtlog.bakに上書きします。したがって,autotxtlog.bakに必要なアクセスログが残っている場合は,このメッセージが出力された時点で任意のファイルに退避してください。
(b) 出力形式
アクセスログは次のどちらかの形式で出力されます。
YYYY/MM/DD HH:MM:SS AAA.AAA.AAA.AAA BBBBBB CCC…C
YYYY/MM/DD HH:MM:SS AAA.AAA.AAA.AAA [DDDDDDDDDD] EEEEEE FFF…F
(c) 出力例
アクセスログファイルの出力例を次に示します。
2001/04/16 12:13:43 ***.***.***.*** Sync test1.doc
2001/04/16 12:13:43 ***.***.***.*** NoSync test2.xls
2001/04/16 12:13:43 ***.***.***.*** [KIIS2003-E] Sync 作業報告書.doc
2001/04/16 12:13:43 ***.***.***.*** [KIIS2003-E] **** ********
(6) 注意事項
表5-5 HI-UX/WE2版及びHP-UX版のDocument Filter for Text Searchがバージョン02-00時点でサポートしている文書の種類
種類 | バージョン |
---|---|
RTF | 1.5 |
Word | Word 95,Word 97,Word 98 |
Excel | Excel 95,Excel 97 |
PowerPoint | PowerPoint 95,PowerPoint 97 |
一太郎 | Version 8 |
Lotus 1-2-3 | R5J,1-2-3 97 |
1.2 |
表5-6 Windows版のDocument Filter for Text Searchがバージョン02-10時点でサポートしている文書の種類
種類 | バージョン |
---|---|
RTF | 1.5 |
Word | Word 95,Word 97,Word 98,Word 2000 |
Excel | Excel 95,Excel 97,Excel 2000 |
PowerPoint | PowerPoint 95,PowerPoint 97,PowerPoint 2000 |
一太郎 | Version 8,Version 9 |
Lotus 1-2-3 | R5J,1-2-3 97 |
1.2 |