Document Filter for Text Search Version 3
![[目次]](FIGURE/CONTENT.GIF)
![[用語]](FIGURE/GLOSS.GIF)
![[索引]](FIGURE/INDEX.GIF)
![[前へ]](FIGURE/FRONT.GIF)
(1) 共通の注意事項
- テキスト抽出サイズをデフォルト(5MB)以上にする場合は,上位プログラム,および組み込まれているシステムがサポートしているサイズ以内に設定してください。
- 添付ファイルの表示順序と,添付ファイルからテキスト抽出する順序は一致しない場合があります。
- 添付ファイル,およびOLEオブジェクトの場合は,その文書種別(拡張子)がコンフィグレーションの設定で別のテキスト抽出ライブラリの適用を定義されているときでも,DMCフィルタでテキスト抽出されます。
また,テキストファイルの判定,抽出結果はDMTXフィルタを使用した場合と同じです。コンフィグレーションの定義は適用されません。
次の文書ファイル,および文書の情報はテキスト抽出できない場合があります。
- 読み出しのパスワードが設定されている文書ファイル
- 図形,イメージ,線画,枠,数式で構成されている文書ファイル
- ヘッダー,フッター,ページ番号,および番号などの自動で生成する情報
- MicrosoftのIRM(Information Right Management)機能を使用し,文書へのアクセス権限(閲覧・変更など)を設定したWord 2003,Excel 2003,PowerPoint2003の文書ファイル
- 実行中のアプリケーションと異なる形式やバージョンで保存した文書ファイル
- レイアウト表示どおりにテキストが格納されていない文書ファイル
- リンク形式のOLEオブジェクト
- 4階層以上の添付ファイル,またはOLEオブジェクトを含む文書ファイル
- OLEオブジェクトの作成方法によっては,テキスト抽出できません
次の場合は,詳細情報が出力されます。
- 添付ファイルをテキスト抽出できない文書と判断した場合
ただし,未サポートの添付ファイルの場合は詳細情報は出力されません。
(2) Wordの注意事項
- 自動更新の日付,時間は正しくテキスト抽出できません。
- 特殊文字の一部は,テキスト抽出できません。
- フィールドの内容は,一部テキスト抽出できません。
- 日本語環境以外でローカライズされたWordにより作成されたファイルは,テキスト抽出できない場合があります。
(3) Excelの注意事項
- ヘッダー,フッターでは,指定されたページ番号,頁数,日付,時刻,ファイル名,シート名はテキスト抽出できません。
- 「シートの保護」を設定したファイルのテキスト抽出はできますが,「ブックの保護」を指定したファイルはテキスト抽出できません。
- 「ユーザ定義」のセルは,表示結果とテキスト抽出の結果が異なる場合があります。
- 日本語環境以外でローカライズされたExcelにより作成されたファイルは,テキスト抽出できない場合があります。
(4) PowerPointの注意事項
(5) 一太郎の注意事項
- 圧縮してから保存した文書はテキスト抽出できません。
- マスキング文書の塗りつぶされた枠内はテキスト抽出できません。
(6) PDFの注意事項
- ユーザ定義Cmap文字は抽出できない場合があります。また,Symbol文字は文字化けする場合があります。
- 立体文字は,複数の文字がテキスト抽出されます。
- 文字のフォントがWingdingsの場合は,該当文字が抽出できません。例えば,Word文書,PowerPoint文書で作成した箇条書きの行頭文字(○●◆□■など)をPDF文書に変換した場合,該当の行頭文字は正しく抽出できません。
- Acrobatの「テキスト選択ツール」でコピーできない文字は,抽出できません。
- サポートしているバージョン以外のAcrobatや,別のアプリケーションで作成したPDFは,テキスト抽出に失敗したり,文字化けしたりする場合があります。
- ユーザ定義文字やPDF独自のコードが使用されている文字は,文字化けする場合があります。
- 文書を開くパスワードが設定されている文書は,テキスト抽出できません。
- OwnerPassWordの設定されている文書は,40-Bit RC4の場合を除きテキスト抽出できません。
- パスワードによるセキュリティ設定で,テキスト内容のコピー(抽出)が許可されていない場合はテキスト抽出できません。
テキスト内容のコピーが許可されている場合は,その他のセキュリティ権限(変更・印刷等)が許可されていなくてもテキスト抽出できます。
- Acrobatのセキュリティの選択で,互換性のある形式が「Acrobat 7およびそれ以降」に設定されている文書からはテキスト抽出できません。
- TYPE3フォントは抽出できません。
- パッケージ形式,およびポートフォリオ形式の場合は,表紙(テンプレート)からもテキスト抽出されます。
- ポートフォリオ形式のタイトル,およびカバーからはテキスト抽出できません。
(7) DocuWorksの注意事項
- 太文字,影付きで修飾された文字は,複数の文字がテキスト抽出されます。
- セキュリティが設定された文書はテキスト抽出できません。
- 縦書きテキストは一文字ごとに改行されます。このため,単語として扱えない場合があります。
- OLEオブジェクトからは,テキスト抽出できません。
- 署名された文書は,セキュリティが設定された文書として扱われるためテキスト抽出できません。
(8) RTFの注意事項
- 自動更新の日付,時間は正しくテキスト抽出できません。
- 特殊文字の一部は,テキスト抽出できません。
- フィールドの内容の一部は,テキスト抽出できません。
- 日本語環境以外でローカライズされたアプリケーションにより作成されたファイルは,テキスト抽出できない場合があります。
(9) HTMLの注意事項
- タグと属性の内容はテキスト抽出できません。
- <html>タグが無い場合は,テキスト抽出できません。
- METAタグに文字コードセット指定が無い場合に,EUCコードで記述された文書ファイルはテキスト抽出できません。
(10) XMLの注意事項
Microsoft Officeで作成したXMLファイルにOLEオブジェクトが存在する場合は,OLEオブジェクトの抽出はできません。
All Rights Reserved. Copyright (C) 2003, 2012, Hitachi, Ltd.