intra-mart Accel Platform 2014 Spring(Granada) / Release Note

第1版 2014-04-01

«  8.5. 标准主题定制   ::   Contents   ::   8.7. 更新相关  »

8.6. IM-ContentsSearch for Accel Platform

8.6.1. 试用版许可证对最大内容数的限制。

  • 试用版许可证状态下最多可登记的2万个内容。
    另外,根据每个等级内容信息的应用程序式样不同,内容被生成的单位也不同。
    通过等级 IM-ContentsSearch for Accel Platform 许可证,即可无限登记。

8.6.2. 与文本抽取有关的限制。

  • □ 支持文件格式
    可使用标配的文本抽取类抽取文本的文件格式如下所述。

    “可抽取文本的文件格式一览”
    1. 纯文本 text/plain (txt)
    2. HTML text/html (htm, html)
    3. XML text/xml (xml)
    4. PDF application/pdf (pdf)
    5. Microsoft Office Word
    ・application/msword (doc)
    ・application/vnd.openxmlformats-officedocument.wordprocessingml.document (docx)
    6. Microsoft Office PowerPoint
    ・application/vnd.ms-powerpoint (ppt)
    ・application/vnd.openxmlformats-officedocument.presentationml.presentation (pptx)
    7. Microsoft Office Excel
    ・application/vnd.ms-excel (xls)
    ・application/vnd.openxmlformats-officedocument.spreadsheetml.sheet (xlsx)
    8. Microsoft Visio application/ vnd.ms-visio.viewer (vsd)
    9. ZIP存档 application/zip (zip)
    □ 抽取文本时的限制事项
    以下记述了抽取每个文件格式文本时的限制事项。
    1. 纯文本
    API会使用统计的手法自动判别纯文本文件内文本的字符编码。
    但是,对于只含有短文本的文件或有多个字符编码混在一起的文件等,
    有可能无法正确判别字符编码。此时,从文件中抽取的文本
    乱码,无法正确检索。
    2. HTML
    API会从HTML内的下述部分抽取文本。
    ・包含在 HEAD 元素内的 TITLE 元素中的文本
    ・包含在 BODY 元素内的文本
    另外API会尝试通过查找由META标签指定的content-type来判别HTML的字符编码,
    失败后,会尝试使用与纯文本相同的统计手法进行判别。
    若无法正确判别字符编码,则从文件抽取的文本会变成乱码。
    3. XML
    API会抽取XML内的全部文本结点。
    4. PDF
    API会根据设定文件(<CONTENTS_PATH>/WEB-INF/conf/solr-extractor-config.xml)的指定,
    使用下述任一个从PDF抽取文本。
    2. Xpdf (http://www.foolabs.com/xpdf/) 附属命令”pdftotext”
    3. 免费软件”xdoc2txt” (http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html)

    通过使用pdftotext和xdoc2txt增加了支持文本抽取的PDF种类。
    使用pdftotext或xdoc2txt时,需要在intra-mart AccelPlatform动作的全部机器上
    安装Xpdf或xdoc2txt.exe,并配备好各命令正常动作的环境。
    另外,xdoc2txt.exe只在Microsoft Windows机器上动作。
    此外,无论使用哪种方法,都无法从通过加设密码密码化了的PDF文件
    (使用PDF Viewer打开时要求输入密码的PDF文件)抽取文本。
    5. Microsoft Office Word
    API会根据设定文件的指定使用下述任一个从Word文件抽取文本。
    1. Apache POI (http://poi.apache.org/)
    2. xdoc2txt
    无论使用哪一个都可从到Office 2003为止的Word文件(扩展符doc)及Office 2007的Word文件(扩展符docx)抽取文本。
    但是,使用xdoc2txt时,需要配备一个安装了xdoc2txt.exe且能正常动作的环境。
    另外,xdoc2txt.exe只在Microsoft Windows上动作。
    此外,无论使用哪一个,都无法从被密码保护的Word文件中抽取文本。
    6. Microsoft Office PowerPoint
    API会根据设定文件的指定,使用下述任一个从PowerPoint文件抽取文本。
    1. Apache POI (http://poi.apache.org/)
    2. xdoc2txt
    无论使用哪一个都可从到Office 2003为止的PowerPoint文件(扩展符ppt)及Office 2007的PowerPoint文件(扩展符pptx)抽取文本。
    但是,使用xdoc2txt时,需要配备一个安装了xdoc2txt.exe且能正常动作的环境。
    另外,xdoc2txt.exe只在Microsoft Windows上动作。
    此外,无论使用哪一个,都无法从被密码保护的PowerPoint文件中抽取文本。
    7. Microsoft Office Excel
    API会根据设定文件的指定,使用下述任一个从Excel文件抽取文本。
    1. Apache POI
    2. xdoc2txt
    无论使用哪一个都可从到Office 2003为止的Excel文件(扩展符xls)及Office 2007的Excel文件(扩展符xlsx)抽取文本。
    但是,使用xdoc2txt时,需要配备一个安装了xdoc2txt.exe且能正常动作的环境。
    另外,xdoc2txt.exe只在Microsoft Windows机器上动作。
    此外,无论使用哪一个,都无法从被密码保护的Excel文件中抽取文本。
    8. Zip 存档
    在从被包含于ZIP存档内的各文件中抽取文本的同时,也会加上从各文件的文件名本身抽取的文本。
    ZIP存档内文件的文件名被视为按照Windows-31J(一般说是 Shift_JIS)编码的被记录在ZIP中的文件名。
    对于由日语Windows生成的ZIP文件,此假定基本上是正确的。
    若ZIP存档内的文件名不是按照Windows-31J编码的,则抽取出的文本中会发生乱码。
    但是,发生乱码的只是文件名部分,对从文件内容抽取的文本没有影响。

    若在ZIP文件中含有被密码化了的文件,API只将该文件的文件名作为文本抽取出来。
    此外,只对ZIP 2.0兼容的存档格式可判别是否已被密码化。
    Windows生成的ZIP文件夹一般都与此格式兼容。

«  8.5. 标准主题定制   ::   Contents   ::   8.7. 更新相关  »