高级选项不常用,其具体说明如下:
【模板的高级选项】
1. 字符编码
默认自动识别。如果该页面未能自动识别发生乱码,需要自行选择字符编码。可以选择GBK或UTF-8。
2. 文档类型
默认自动识别。可以选择采集xml文档。
3. 网页类型
适用于一个模板配置大批量网站的情况(可导入上万个采集地址),选择类型后,可以自动过滤不属于该类型的网页,从而达到快速配置的目的。
4. 主题过滤
自动识别网页的语义,进行文本自动分类和主题归纳。可以用于采集某些类别的数据,过滤掉不属于某些类别的数据。(如有需求请联系我们)
5. 未匹配处理模板
适用于一个模板配置大批量网站的情况,当有页面不符合匹配的类型被过滤掉后,可以在此选择一个针对未匹配页面的处理模板,进入其他处理流程。
6. 采集错误处理模板
适用于因网站反爬或网络不稳定等原因导致的经常有采集失败的情况,在此配置采集错误处理模板,当有采集失败的情况时,失败链接将继续在错误处理模板中运行,进而提高采集成功率。