Groupmax Document Manager Version 6 システム管理者ガイド
ここでは,テキストデータベースに登録するテキストファイルを自動的に抽出する機能(テキスト自動抽出機能)について説明します。
テキスト自動抽出機能には,次の3種類の機能があります。
- 文書を登録又は一括登録する時に,文書実体ファイルとして登録するファイルから自動的にテキストを抽出してテキストファイルを作成し,テキストデータベースに登録する機能
登録するファイルからのテキストの抽出にはDocument Filter for Text Searchを使用します。
- 文書配布機能やエクスポートユティリティ(ISexportコマンド)を使用してDocument Managerデータベースの文書を抽出する時に,抽出する文書に対応するテキストをテキストデータベースから抽出する機能
- Document Managerサーバとは別サーバ上にあるGroupmax Document Manager - Filtering Serverを使用してテキストを抽出する機能
Document Managerサーバとは別サーバ上にあるGroupmax Document Manager - Filtering Serverをテキスト自動抽出サーバといいます。テキスト自動抽出サーバを使用するには,テキスト自動抽出サーバに次のOS及びプログラムが組み込まれていることが前提となります。
一つのDocument Managerサーバに対して,一つのテキスト自動抽出サーバを設定できます。テキスト自動抽出サーバを使用したテキスト抽出の処理の流れを次の図に示します。
- Windows 2000又はWindows NT
- Document Filter for Text Search 02-00以降(Windows版)
- Groupmax Document Manager - Filtering Server
図5-6 テキスト自動抽出サーバを使用したテキスト抽出の処理の流れ
図中の1〜4について説明します。
- クライアントからDocument Managerサーバに文書を登録します。
- 登録された文書は,テキスト自動抽出機能によって,テキスト自動抽出サーバに転送されます。
- テキスト自動抽出サーバで,文書からテキストが抽出されます。
- 抽出されたテキストデータは,Document Managerサーバに転送されます。
テキスト自動抽出サーバでのテキスト抽出の実行モードは,同期モード又は非同期モードのどちらかを選択できます。
- 同期モード
- テキスト自動抽出サーバからDocument Managerサーバへのテキストデータの転送が終了した後,文書が登録されます。
- 非同期モード
- Document Managerサーバからテキスト自動抽出サーバへ文書の転送が終了した後,文書が登録されます。
なお,テキスト自動抽出サーバの実行モードと,クライアントでの全文検索のモードの両方が同期モードの場合は,テキストファイルの登録・削除ユティリティ(IStssync)を実行する必要はありません。それ以外の場合は,テキストファイルの登録・削除ユティリティ(IStssync)を定期的に実行して,テキストファイルを登録又は削除する必要があります。また,テキスト自動抽出サーバの実行モードが非同期の場合に,全文検索対象テキストの抽出処理が失敗したときは文書を再登録する必要があります。
テキスト自動抽出機能を使用する場合に設定又は編集が必要なファイルは次の二つです。
- 環境設定ファイル
- 抽出対象リストファイル
なお,テキスト自動抽出サーバを使用する場合は,テキスト抽出管理ファイルの編集も必要です。
- <この項の構成>
- (1) テキスト自動抽出機能の設定
- (2) 抽出対象リストファイルの編集
- (3) テキスト抽出管理ファイルの編集
- (4) テキスト自動抽出サーバの運用方法(AIX及びHP-UXの場合)
- (5) テキスト自動抽出サーバのアクセスログファイルの取得
- (6) 注意事項
テキスト自動抽出機能を使用するには,環境設定ファイルで次の項目を設定する必要があります。なお,環境設定ファイルでの設定の詳細については,「5.7 DocumentManagerでの環境設定」を参照してください。
- TextAutoExtract
テキスト自動抽出機能を使用するかどうかを設定します。
- TextAutoExtractTimeOut
テキスト自動抽出処理のタイマ監視時間を設定します。テキスト自動抽出サーバを使用する場合,テキスト自動抽出サーバのタイムアウト時間は,(テキスト自動抽出処理のタイマ監視時間+ 900)秒になります。なお,テキスト自動抽出サーバを非同期モードで使用する場合,テキスト自動抽出処理機能にタイマ監視を設定することをお勧めします。
抽出対象リストファイルでは,テキストの抽出方法を指定します。
(a) 格納先
抽出対象リストファイルの格納先を示します。
/usr/infoshare/etc/attxtlst.txt
(b) 指定内容
抽出対象リストファイルには,使用する機能に対応するイベントコードを指定します。指定できるイベントコードは次の2種類です。
- REGIST
- 文書を登録又は一括登録する時に,登録する文書の文書実体ファイルからテキストファイルを抽出する場合に指定します。
- 抽出には,Document Filter for Text Searchを使用します。
- EXPORT
- 文書配布機能又はエクスポートユティリティ(ISexportコマンド)を実行する時に,テキストデータベースから既に登録されているテキストを抽出する場合に指定します。
テキスト抽出管理ファイルでは,テキスト自動抽出サーバのホスト名や実行モードなどを指定します。なお,このファイルを編集する際は,DocumentManagerサーバを停止させてください。
(a) 格納先
テキスト抽出管理ファイルの格納先を示します。
/usr/infoshare/etc/autotxt.cfg
(b) 指定内容
テキスト抽出管理ファイルに指定する内容を次に示します。
- ServerName
- テキスト自動抽出サーバのホスト名,又はIPアドレスを指定します。255バイト以内で指定してください。
- PortNumber
- テキスト自動抽出サーバが使用するポート番号を1〜65535の範囲で指定してください。なお,指定を省略した場合,テキスト自動抽出サーバはポート番号(22289)を仮定して動作します。
- Mode
- テキスト抽出処理の実行モードを指定します。
- Sync
同期モードで抽出します。
- NoSync
非同期モードで抽出します。
- LogFileSize
- DocumentManagerサーバ及びテキスト自動抽出サーバに出力されるアクセスログファイルのサイズの上限を,0〜99(単位:メガバイト)の範囲で指定します。なお,0を指定した場合は,アクセスログファイルは出力されません。また,範囲外の値や指定を省略した場合は1が仮定されます。
(c) 指定例
ServerName = HOST01 PortNumber = 22289 Mode = Sync LogFileSize = 10
(4) テキスト自動抽出サーバの運用方法(AIX及びHP-UXの場合)
テキスト自動抽出サーバの運用方法について説明します。なお,テキスト自動抽出サーバとして使用できるサーバには,オペレーティングシステムにWindows 2000又はWindows NTを使用していることが前提となります。
(a) ポート番号の設定方法
テキスト自動抽出サービスに,「22289」以外のポート番号を設定する場合,"C:\winnt\system32\drivers\etc"のservicesファイルに次の記述を追加してください。なお,"C:"はOSがインストールされているドライブ名です。
- infosharefilter ポート番号/tcp
なお,指定を省略した場合,テキスト自動抽出サーバはポート番号(22289)を仮定して動作します。ただし,この場合,ポート番号(22289)を既にほかの製品が使用しているとエラーが発生します。
(b) 起動方法
テキスト自動抽出サーバの起動手順を次に示します。
- テキスト自動抽出サーバを組み込んだサーバに,システム管理者でログインします。
- スタートメニューから,「設定」−「コントロールパネル」−「サービス」を選択します。
「サービス」ダイアログボックスが表示されます。
- 「サービス」ダイアログボックスのリストから,「Document Manager Text Extract Service」を選択して,「開始」ボタンをクリックします。
テキスト自動抽出サーバが起動します。
(c) 終了方法
テキスト自動抽出サーバの終了手順を次に示します。
- テキスト自動抽出サーバを組み込んだサーバに,システム管理者でログインします。
- スタートメニューから,「設定」−「コントロールパネル」−「サービス」を選択します。
「サービス」ダイアログボックスが表示されます。
- 「サービス」ダイアログボックスのリストから,「Document Manager Text Extract Service」を選択して,「停止」ボタンをクリックします。
テキスト自動抽出サーバが終了します。
テキスト自動抽出サーバのアクセスログは,Document Managerサーバへのテキストデータの転送が完了したタイミングで出力されます。アクセスログファイルのサイズの上限は,サービス起動時に,テキスト抽出管理ファイルに指定されている値がサービス停止時まで有効になります。そのため,アクセスログファイルのサイズの上限を変更する場合は,テキスト自動抽出サーバを再起動する必要があります。
(a) 出力先
アクセスログは次の二つのファイルに出力されます。
- アクセスログファイル
(インストールディレクトリ)\spool\autotxtlog
- アクセスログバックアップファイル
(インストールディレクトリ)\spool\autotxtlog.bak
autotxtlogのファイルサイズが,テキスト抽出管理ファイルで指定したサイズの上限を超えると,KIIS2003-Iのメッセージをイベントビューアに出力します。その後,autotxtlogをautotxtlog.bakにリネームします。autotxtlog.bakは,1世代分だけ作成されます。
autotxtlogの使用容量が80%,90%,95%,99%を超えた場合は,KIIS2004-Iのメッセージをイベントビューアに出力します。この状態で処理を続行すると,autotxtlogをautotxtlog.bakにリネームして,古いautotxtlog.bakに上書きします。したがって,autotxtlog.bakに必要なアクセスログが残っている場合は,このメッセージが出力された時点で任意のファイルに退避してください。
(b) 出力形式
アクセスログは次のどちらかの形式で出力されます。
YYYY/MM/DD HH:MM:SS AAA.AAA.AAA.AAA BBBBBB CCC…C YYYY/MM/DD HH:MM:SS AAA.AAA.AAA.AAA [DDDDDDDDDD] EEEEEE FFF…F
- YYYY/MM/DD HH:MM:SS
- DocumentManagerサーバへのテキストデータの転送が完了した年月日及び時刻が表示されます。
- AAA.AAA.AAA.AAA
- 「***.***.***.***」が固定で表示されます。
- BBBBBB
- テキスト抽出処理の実行モードが表示されます。
- Sync△△:同期モード
- NoSync:非同期モード
- CCC…C
- テキスト抽出処理を実行された文書のファイル名が表示されます。
- DDDDDDDDDD
- メッセージ番号が表示されます。
- EEEEEE
- テキスト抽出処理の実行モードが表示されます。実行のモードが不明の場合,「********」が表示されます。
- Sync△△:同期モード
- NoSync:非同期モード
- FFF…F
- テキスト抽出処理を実行された文書のファイル名が表示されます。ファイル名が不明の場合,「********」が表示されます。
(c) 出力例
アクセスログファイルの出力例を次に示します。
2001/04/16 12:13:43 ***.***.***.*** Sync test1.doc 2001/04/16 12:13:43 ***.***.***.*** NoSync test2.xls 2001/04/16 12:13:43 ***.***.***.*** [KIIS2003-E] Sync 作業報告書.doc 2001/04/16 12:13:43 ***.***.***.*** [KIIS2003-E] **** ********
(6) 注意事項
- テキスト自動抽出機能を使用する場合,抽出対象となるファイルは主ファイルだけです。関連ファイルの自動抽出は行いません。したがって,関連ファイルだけで構成された文書に対してはテキスト自動抽出が行われません。
- 環境設定ファイルでテキスト自動抽出機能を使用する定義をして,抽出対象リストファイルを作成しなかった場合,REGISTとEXPORTの両方を指定したものと仮定されて,テキスト自動抽出が実行されます。
- テキスト自動抽出機能を使用する場合は,十分なハードディスクの容量を確保するように,注意してください。
- クライアントで文書を圧縮する指定をしている場合,テキスト自動抽出機能は実行されません。
- イベントコードにREGISTを指定してテキスト自動抽出機能を使用する場合,文書の登録と同時にテキストの抽出,登録も実行されるため,テキスト自動抽出機能を使用しない場合に比べて文書の登録に時間が掛かります。
- DocumentManagerサーバを停止後,テキスト自動抽出サーバを停止してください。
- テキスト自動抽出サーバを非同期モードで使用する場合,DocumentManagerサーバを停止後,DocumentManagerサーバのマシン上で,テキスト自動抽出サーバインタフェースプロセス(IStsextSV)が終了していることをOSのpsコマンドなどで確認してください。その後,テキスト自動抽出サーバを停止してください。
- イベントコードにREGISTを指定した場合,テキスト自動抽出機能では,Document Filter for Text Search(HI-UX/WE2版又はHP-UX版)を使用します。また,テキスト自動抽出サーバを使用する場合,テキスト自動抽出機能では,テキスト自動抽出サーバ上のDocument Filter for Text Search(Windows版)を使用します。このため,テキストを抽出できるファイル形式については,Document Filter for Text Searchのサポートしている範囲に従います。ただし,HI-UX/WE2版及びHP-UX版のDocument Filter for Text Searchと,Windows版のDocument Filter for Text Searchとではサポートする文書の種類が異なります。
HI-UX/WE2版及びHP-UX版のDocument Filter for Text Searchがバージョン02-00時点でサポートしている文書の種類を表5-5に,Windows版のDocument Filter for Text Searchがバージョン02-10時点でサポートしている文書の種類を表5-6に示します。
表5-5 HI-UX/WE2版及びHP-UX版のDocument Filter for Text Searchがバージョン02-00時点でサポートしている文書の種類
種類 バージョン RTF 1.5 Word Word 95,Word 97,Word 98 Excel Excel 95,Excel 97 PowerPoint PowerPoint 95,PowerPoint 97 一太郎 Version 8 Lotus 1-2-3 R5J,1-2-3 97 1.2 表5-6 Windows版のDocument Filter for Text Searchがバージョン02-10時点でサポートしている文書の種類
種類 バージョン RTF 1.5 Word Word 95,Word 97,Word 98,Word 2000 Excel Excel 95,Excel 97,Excel 2000 PowerPoint PowerPoint 95,PowerPoint 97,PowerPoint 2000 一太郎 Version 8,Version 9 Lotus 1-2-3 R5J,1-2-3 97 1.2
All Rights Reserved. Copyright (C) 2001, 2003, Hitachi, Ltd.