« 8.5. 标准主题定制 :: Contents :: 8.7. 更新相关 »

8.6. IM-ContentsSearch for Accel Platform¶

8.6.1. 试用版许可证对最大内容数的限制。¶

试用版许可证状态下最多可登记的2万个内容。

另外，根据每个等级内容信息的应用程序式样不同，内容被生成的单位也不同。

通过等级 IM-ContentsSearch for Accel Platform 许可证，即可无限登记。

8.6.2. 与文本抽取有关的限制。¶

□ 支持文件格式

可使用标配的文本抽取类抽取文本的文件格式如下所述。

“可抽取文本的文件格式一览”

1. 纯文本 text/plain (txt)

2. HTML text/html (htm, html)

3. XML text/xml (xml)

4. PDF application/pdf (pdf)

5. Microsoft Office Word

・application/msword (doc)

・application/vnd.openxmlformats-officedocument.wordprocessingml.document (docx)

6. Microsoft Office PowerPoint

・application/vnd.ms-powerpoint (ppt)

・application/vnd.openxmlformats-officedocument.presentationml.presentation (pptx)

7. Microsoft Office Excel

・application/vnd.ms-excel (xls)

・application/vnd.openxmlformats-officedocument.spreadsheetml.sheet (xlsx)

8. Microsoft Visio application/ vnd.ms-visio.viewer (vsd)

9. ZIP存档 application/zip (zip)

□ 抽取文本时的限制事项

以下记述了抽取每个文件格式文本时的限制事项。

1. 纯文本

API会使用统计的手法自动判别纯文本文件内文本的字符编码。

但是，对于只含有短文本的文件或有多个字符编码混在一起的文件等，

有可能无法正确判别字符编码。此时，从文件中抽取的文本

乱码，无法正确检索。

2. HTML

API会从HTML内的下述部分抽取文本。

・包含在 HEAD 元素内的 TITLE 元素中的文本

・包含在 BODY 元素内的文本

另外API会尝试通过查找由META标签指定的content-type来判别HTML的字符编码，

失败后，会尝试使用与纯文本相同的统计手法进行判别。

若无法正确判别字符编码，则从文件抽取的文本会变成乱码。

3. XML

API会抽取XML内的全部文本结点。

4. PDF

API会根据设定文件(<CONTENTS_PATH>/WEB-INF/conf/solr-extractor-config.xml)的指定，

使用下述任一个从PDF抽取文本。

1. PDFBox (http://pdfbox.apache.org/)

2. Xpdf (http://www.foolabs.com/xpdf/) 附属命令”pdftotext”

3. 免费软件”xdoc2txt” (http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html)

通过使用pdftotext和xdoc2txt增加了支持文本抽取的PDF种类。

使用pdftotext或xdoc2txt时，需要在intra-mart AccelPlatform动作的全部机器上

安装Xpdf或xdoc2txt.exe，并配备好各命令正常动作的环境。

另外，xdoc2txt.exe只在Microsoft Windows机器上动作。

此外，无论使用哪种方法，都无法从通过加设密码密码化了的PDF文件

（使用PDF Viewer打开时要求输入密码的PDF文件）抽取文本。

5. Microsoft Office Word

API会根据设定文件的指定使用下述任一个从Word文件抽取文本。

1. Apache POI (http://poi.apache.org/)

2. xdoc2txt

无论使用哪一个都可从到Office 2003为止的Word文件(扩展符doc)及Office 2007的Word文件(扩展符docx)抽取文本。

但是，使用xdoc2txt时，需要配备一个安装了xdoc2txt.exe且能正常动作的环境。

另外，xdoc2txt.exe只在Microsoft Windows上动作。

此外，无论使用哪一个，都无法从被密码保护的Word文件中抽取文本。

6. Microsoft Office PowerPoint

API会根据设定文件的指定，使用下述任一个从PowerPoint文件抽取文本。

1. Apache POI (http://poi.apache.org/)

2. xdoc2txt

无论使用哪一个都可从到Office 2003为止的PowerPoint文件(扩展符ppt)及Office 2007的PowerPoint文件(扩展符pptx)抽取文本。

但是，使用xdoc2txt时，需要配备一个安装了xdoc2txt.exe且能正常动作的环境。

另外，xdoc2txt.exe只在Microsoft Windows上动作。

此外，无论使用哪一个，都无法从被密码保护的PowerPoint文件中抽取文本。

7. Microsoft Office Excel

API会根据设定文件的指定，使用下述任一个从Excel文件抽取文本。

1. Apache POI

2. xdoc2txt

无论使用哪一个都可从到Office 2003为止的Excel文件(扩展符xls)及Office 2007的Excel文件(扩展符xlsx)抽取文本。

但是，使用xdoc2txt时，需要配备一个安装了xdoc2txt.exe且能正常动作的环境。

另外，xdoc2txt.exe只在Microsoft Windows机器上动作。

此外，无论使用哪一个，都无法从被密码保护的Excel文件中抽取文本。

8. Zip 存档

在从被包含于ZIP存档内的各文件中抽取文本的同时，也会加上从各文件的文件名本身抽取的文本。

ZIP存档内文件的文件名被视为按照Windows-31J（一般说是 Shift_JIS）编码的被记录在ZIP中的文件名。

对于由日语Windows生成的ZIP文件，此假定基本上是正确的。

若ZIP存档内的文件名不是按照Windows-31J编码的，则抽取出的文本中会发生乱码。

但是，发生乱码的只是文件名部分，对从文件内容抽取的文本没有影响。

若在ZIP文件中含有被密码化了的文件，API只将该文件的文件名作为文本抽取出来。

此外，只对ZIP 2.0兼容的存档格式可判别是否已被密码化。

Windows生成的ZIP文件夹一般都与此格式兼容。

« 8.5. 标准主题定制 :: Contents :: 8.7. 更新相关 »