8.6. IM-ContentsSearch for Accel Platform¶
8.6.1. 试用版许可证对最大内容数的限制。¶
试用版许可证状态下最多可登记的2万个内容。另外,根据每个等级内容信息的应用程序式样不同,内容被生成的单位也不同。通过等级 IM-ContentsSearch for Accel Platform 许可证,即可无限登记。
8.6.2. 与文本抽取有关的限制。¶
□ 支持文件格式可使用标配的文本抽取类抽取文本的文件格式如下所述。“可抽取文本的文件格式一览”1. 纯文本 text/plain (txt)2. HTML text/html (htm, html)3. XML text/xml (xml)4. PDF application/pdf (pdf)5. Microsoft Office Word・application/msword (doc)・application/vnd.openxmlformats-officedocument.wordprocessingml.document (docx)6. Microsoft Office PowerPoint・application/vnd.ms-powerpoint (ppt)・application/vnd.openxmlformats-officedocument.presentationml.presentation (pptx)7. Microsoft Office Excel・application/vnd.ms-excel (xls)・application/vnd.openxmlformats-officedocument.spreadsheetml.sheet (xlsx)8. Microsoft Visio application/ vnd.ms-visio.viewer (vsd)9. ZIP存档 application/zip (zip)□ 抽取文本时的限制事项以下记述了抽取每个文件格式文本时的限制事项。1. 纯文本API会使用统计的手法自动判别纯文本文件内文本的字符编码。但是,对于只含有短文本的文件或有多个字符编码混在一起的文件等,有可能无法正确判别字符编码。此时,从文件中抽取的文本乱码,无法正确检索。2. HTMLAPI会从HTML内的下述部分抽取文本。・包含在 HEAD 元素内的 TITLE 元素中的文本・包含在 BODY 元素内的文本另外API会尝试通过查找由META标签指定的content-type来判别HTML的字符编码,失败后,会尝试使用与纯文本相同的统计手法进行判别。若无法正确判别字符编码,则从文件抽取的文本会变成乱码。3. XMLAPI会抽取XML内的全部文本结点。4. PDFAPI会根据设定文件(<CONTENTS_PATH>/WEB-INF/conf/solr-extractor-config.xml)的指定,使用下述任一个从PDF抽取文本。1. PDFBox (http://pdfbox.apache.org/)2. Xpdf (http://www.foolabs.com/xpdf/) 附属命令”pdftotext”3. 免费软件”xdoc2txt” (http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html)通过使用pdftotext和xdoc2txt增加了支持文本抽取的PDF种类。使用pdftotext或xdoc2txt时,需要在intra-mart AccelPlatform动作的全部机器上安装Xpdf或xdoc2txt.exe,并配备好各命令正常动作的环境。另外,xdoc2txt.exe只在Microsoft Windows机器上动作。此外,无论使用哪种方法,都无法从通过加设密码密码化了的PDF文件(使用PDF Viewer打开时要求输入密码的PDF文件)抽取文本。5. Microsoft Office WordAPI会根据设定文件的指定使用下述任一个从Word文件抽取文本。1. Apache POI (http://poi.apache.org/)2. xdoc2txt无论使用哪一个都可从到Office 2003为止的Word文件(扩展符doc)及Office 2007的Word文件(扩展符docx)抽取文本。但是,使用xdoc2txt时,需要配备一个安装了xdoc2txt.exe且能正常动作的环境。另外,xdoc2txt.exe只在Microsoft Windows上动作。此外,无论使用哪一个,都无法从被密码保护的Word文件中抽取文本。6. Microsoft Office PowerPointAPI会根据设定文件的指定,使用下述任一个从PowerPoint文件抽取文本。1. Apache POI (http://poi.apache.org/)2. xdoc2txt无论使用哪一个都可从到Office 2003为止的PowerPoint文件(扩展符ppt)及Office 2007的PowerPoint文件(扩展符pptx)抽取文本。但是,使用xdoc2txt时,需要配备一个安装了xdoc2txt.exe且能正常动作的环境。另外,xdoc2txt.exe只在Microsoft Windows上动作。此外,无论使用哪一个,都无法从被密码保护的PowerPoint文件中抽取文本。7. Microsoft Office ExcelAPI会根据设定文件的指定,使用下述任一个从Excel文件抽取文本。1. Apache POI2. xdoc2txt无论使用哪一个都可从到Office 2003为止的Excel文件(扩展符xls)及Office 2007的Excel文件(扩展符xlsx)抽取文本。但是,使用xdoc2txt时,需要配备一个安装了xdoc2txt.exe且能正常动作的环境。另外,xdoc2txt.exe只在Microsoft Windows机器上动作。此外,无论使用哪一个,都无法从被密码保护的Excel文件中抽取文本。8. Zip 存档在从被包含于ZIP存档内的各文件中抽取文本的同时,也会加上从各文件的文件名本身抽取的文本。ZIP存档内文件的文件名被视为按照Windows-31J(一般说是 Shift_JIS)编码的被记录在ZIP中的文件名。对于由日语Windows生成的ZIP文件,此假定基本上是正确的。若ZIP存档内的文件名不是按照Windows-31J编码的,则抽取出的文本中会发生乱码。但是,发生乱码的只是文件名部分,对从文件内容抽取的文本没有影响。若在ZIP文件中含有被密码化了的文件,API只将该文件的文件名作为文本抽取出来。此外,只对ZIP 2.0兼容的存档格式可判别是否已被密码化。Windows生成的ZIP文件夹一般都与此格式兼容。