8.6. IM-ContentsSearch for Accel Platform

8.6.1. 试用版许可证对最大内容数的限制。

  • 试用版许可证状态下最多可登记的 2 万个内容。
    另外,根据每个等级内容信息的应用程序式样不同,内容被生成的单位也不同。
    通过等级 IM-ContentsSearch for Accel Platform 许可证,即可无限登记。

8.6.2. 与文本抽取有关的限制。

  • □ 支持文件格式
    可使用标配的文本抽取类抽取文本的文件格式如下所述。

    “可抽取文本的文件格式一览”
    1. 纯文本 text/plain (txt)
    2. HTML text/html (htm, html)
    3. XML text/xml (xml)
    4. PDF application/pdf (pdf)
    5. Microsoft Office Word
    ・application/msword (doc)
    ・application/vnd.openxmlformats-officedocument.wordprocessingml.document (docx)
    6. Microsoft Office PowerPoint
    ・application/vnd.ms-powerpoint (ppt)
    ・application/vnd.openxmlformats-officedocument.presentationml.presentation (pptx)
    7. Microsoft Office Excel
    ・application/vnd.ms-excel (xls)
    ・application/vnd.openxmlformats-officedocument.spreadsheetml.sheet (xlsx)
    8. Microsoft Visio application/ vnd.ms-visio.viewer (vsd)
    9. ZIP 存档 application/zip (zip)
    □ 提取文本时的限制事项
    以下记述了提取每个文件格式文本时的限制事项。
    1. 纯文本
    API 会使用统计的手法自动判别纯文本文件内文本的字符编码。
    但是,对于只含有短文本的文件或有多个字符编码混在一起的文件等,
    有可能无法正确判别字符编码。此时,从文件中提取的文本
    乱码,无法正确检索。
    2. HTML
    API 会从 HTML 内的下述部分提取文本。
    ・包含在 HEAD 元素内的 TITLE 元素中的文本
    ・包含在 BODY 元素内的文本
    另外,API会尝试通过查找由 META 标签指定的 content-type 来判别 HTML 的字符编码,
    失败后,会尝试使用与纯文本相同的统计手法进行判别。
    若无法正确判别字符编码,则从文件提取的文本会变成乱码。
    3. XML
    API 会抽取 XML 内的全部文本结点。
    4. PDF
    API 会根据设定文件(<CONTENTS_PATH>/WEB-INF/conf/solr-extractor-config.xml)的指定,
    使用下述任一个从PDF提取文本。
    2. Xpdf (http://www.foolabs.com/xpdf/) 附属命令”pdftotext”
    3. 免费软件”xdoc2txt” (http://ebstudio.info/home/xdoc2txt.html)

    通过使用 pdftotext 和 xdoc2txt 增加了支持文本抽取的PDF种类。
    使用 pdftotext 或 xdoc2txt 时,需要在 intra-mart AccelPlatform 动作的全部机器上
    安装Xpdf或xdoc2txt.exe,并配备好各命令正常动作的环境。
    另外,xdoc2txt.exe只在 Microsoft Windows 机器上动作。
    此外,无论使用哪种方法,都无法从已用密码加密的PDF文件
    (用PDF Viewer打开时,必须输入密码的PDF文件)中提取文本。
    5. Microsoft Office Word
    API会根据设定文件的指定使用下述任一个从 Word 文件提取文本。
    1. Apache POI (http://poi.apache.org/)
    2. xdoc2txt
    无论使用哪一个都可从到 Office 2003 为止的 Word 文件(扩展名 doc)及 Office 2007 的 Word 文件(扩展名 docx)提取文本。
    但是,使用 xdoc2txt 时,需要配备一个安装了 xdoc2txt.exe 且能正常动作的环境。
    另外,xdoc2txt.ex e只在 Microsoft Windows 上动作。
    此外,无论使用哪一个,都无法从被密码保护的Word文件中提取文本。
    6. Microsoft Office PowerPoint
    API 会根据设定文件的指定,使用下述任一个从 PowerPoint 文件提取文本。
    1. Apache POI (http://poi.apache.org/)
    2. xdoc2txt
    无论使用哪一个都可从到 Office 2003 为止的 PowerPoint 文件(扩展名 ppt)及 Office 2007 的 PowerPoint 文件(扩展名 pptx)提取文本。
    但是,使用 xdoc2txt 时,需要配备一个安装了 xdoc2txt.exe 且能正常动作的环境。
    另外,xdoc2txt.exe 只在 Microsoft Windows 上动作。
    此外,无论使用哪一个,都无法从被密码保护的 PowerPoint 文件中提取文本。
    7. Microsoft Office Excel
    API 会根据设定文件的指定,使用下述任一个从 Excel 文件提取文本。
    1. Apache POI
    2. xdoc2txt
    无论使用哪一个都可从到 Office 2003 为止的 Excel 文件(扩展名 xls)及 Office 2007 的 Excel 文件(扩展名 xlsx)提取文本。
    但是,使用 xdoc2txt 时,需要配备一个安装了 xdoc2txt.exe 且能正常动作的环境。
    另外,xdoc2txt.exe 只在 Microsoft Windows 机器上动作。
    此外,无论使用哪一个,都无法从被密码保护的 Excel 文件中提取文本。
    8. Zip 存档
    在从被包含于 ZIP 存档内的各文件中提取文本的同时,也会加上从各文件的文件名本身提取的文本。
    ZIP 存档内文件的文件名被视为按照Windows-31J(通常是 Shift_JIS)编码的被记录在 ZIP 中的文件名。
    对于由日语 Windows 生成的 ZIP 文件,此假设基本上是正确的。
    若 ZIP 存档内的文件名不是按照 Windows-31J 编码的,则提取出的文本中会发生乱码。
    但是,发生乱码的只是文件名部分,对从文件内容提取的文本没有影响。

    若在 ZIP 文件中含有被密码化了的文件,API 只将该文件的文件名作为文本提取出来。
    此外,只对 ZIP 2.0 兼容的存档格式可判别是否已被密码化。
    Windows 生成的 ZIP 文件夹一般都与此格式兼容。