Document Filter for Text Search Version 3

[目次][用語][索引][前へ][次へ]

2.4 テキスト抽出時の注意事項

テキスト抽出時の注意事項を次に示します。

DMCフィルタの対象ドキュメントの種類を,次の表に示します。

なお,文書種類は各アプリケーションの日本語版に対応しています。また,プラットフォームによって表2-2に示す内容と異なる場合があります。詳細はリリースノートを参照してください。

表2-2 対象ドキュメントの詳細[DMCフィルタ]

文書種類 バージョンおよび形式(拡張子※1
Word Word 95,Word 97,Word 98,Word 2000,Word 2002,Word 2003,Word 2007,Word2010
Word文書形式※2(DOC,DOT,DOCX,DOCM,DOTX,DOTM)
Excel Excel 95,Excel 97,Excel 2000,Excel 2002,Excel 2003,Excel 2007,Excel 2010
Excelブック形式(XLS,XLT,XLSX,XLSM,XLTX,XLTM)
PowerPoint PowerPoint 95,PowerPoint 97,PowerPoint 2000,PowerPoint 2002,PowerPoint 2003,PowerPoint 2007,PowerPoint 2010
スライドショー形式,プレゼンテーション形式※2(PPT,POT,PPS,PPTX,PPTM,POTX,POTM,PPSX,PPSM)
一太郎 Version 7,Version 8,Version 9,Version 10,Version 11,Version 12,Version 13,2004,2005,2006,2007,2008,2009,2010,2011
通常形式,7形式(JTD,JTT,JFW,JVW)
PDF PDF1.2,PDF1.3,PDF1.4,PDF1.5,PDF1.6,PDF1.7,ISO 32000-1準拠
Acrobatで作成した文書形式,ISO 32000-1準拠のPDFファイル形式(PDF)
Lotus 1-2-3 R5J,97,98,2000,Millennium Edition(WK4,123)
OASYS V5,V6,V7,V8,2002
結合型ファイル形式,複合型ファイル形式(OA2,OA3)
DocuWorks V4,V5.,V6
DocuWorks文書形式(XDW)
RTF RTF 1.3,1.4,1.5
OfficeのRTF形式で出力した文書(RTF)
HTML HTMLタグを含むファイル(HTM,HTML)
XML <?xml version="1.0" ....?>があるファイル(XML)

注※1
本ライブラリは形式をバイナリ判定するため,拡張子には依存しません。アプリケーションが使用する拡張子です。

注※2
文書形式はMicrosoft Office Binary File Formats,およびMicrosoft Office Binary File Formatsに対応するOffice Open XML File Formatsです。

 

DMCフィルタの対象ドキュメントは,ファイル中に別のファイル形式を含む場合があります。含まれるファイル形式が添付ファイル,またはOLEオブジェクトの場合に,テキスト抽出できる対象ドキュメントの文書形式を,表2-3,表2-4に示します。

表2-3 添付ファイルからテキスト抽出できる文書の形式

添付ファイル付き文書の種類と形式 テキスト抽出対象の添付ファイル
PDF
  • 添付ファイル形式
  • PDFパッケージ形式
  • PDFポートフォリオ形式

  • DMCフィルタの対象ドキュメント
  • テキストファイル
DocuWorks
  • オリジナルデータ添付形式

表2-4 OLEオブジェクトからテキスト抽出できる文書の形式

OLEオブジェクト付き文書の種類 テキスト抽出対象のOLEオブジェクト

  • Word
  • Excel
  • PowerPoint
  • 一太郎

  • Word
  • Excel
  • PowerPoint
  • RTF
  • PDF
  • 一太郎
  • DocuWorks

 

MSIF/MS64フィルタの対象ドキュメントの詳細を,次の表に示します。

表2-5 対象ドキュメントの詳細[MSIF/MS64フィルタ]

文書種類 バージョン
任意 導入するIFilterに依存します。
導入するIFilterが対応する形式のファイル

 

DOCFフィルタの対象ドキュメントの詳細を,次の表に示します。

表2-6 対象ドキュメントの詳細[DOCFフィルタ]

文書種類 バージョン
テキスト Shift-JIS(Windows31J),EUC-JP,JIS,UTF-8(UCS-2範囲)
拡張子がtxtのファイル

 

DMTXフィルタの対象ドキュメントの詳細を,次の表に示します。

表2-7 対象ドキュメントの詳細[DMTXフィルタ]

文書種類 バージョン
テキスト Shift-JIS(Windows31J),EUC-JP,JIS,UTF-8(UCS-4範囲),UTF-16
テキストエディタ(メモ帳など)で作成したファイル
注意
一時フォルダ内のファイルについて
Document Filter for Text Searchを利用してテキスト抽出処理中にプロセスを強制終了させたり,サポート外の文書ファイルを読み込ませたりすると,一時ファイルの出力先に一時ファイルが残る場合があります。この一時ファイルは,テキスト抽出処理が終われば不要になります。そのままにしておくとディスク容量の圧迫につながりますので,必要に応じて削除してください。

 

テキスト抽出する文書ファイル,および使用するフィルタの注意事項を次に示します。

<この節の構成>
2.4.1 DMCフィルタの場合
2.4.2 MSIF/MS64フィルタの場合
2.4.3 DOCFフィルタの場合
2.4.4 DMTXフィルタの場合