< 返回文档列表
3.2.2 模板的高级设置
noInitnoInit

高级设置通常不会用到,具体说明如下:

1. 字符编码

默认自动识别。如果该页面未能自动识别发生乱码,需要自行选择字符编码。可以选择GBKUTF-8。

2. 文档类型

默认自动识别。可以选择采集xml文档。

3. 网页类型

适用于一个模板配置大批量网站的情况(可导入上万个采集地址),选择类型后,可以自动过滤不属于该类型的网页,从而达到快速配置的目的。

4. 主题过滤

自动识别网页的语义,进行文本自动分类和主题归纳。可以用于采集某些类别的数据,过滤掉不属于某些类别的数据。(如有需求请联系我们)

5. 未匹配处理模板

适用于一个模板配置大批量网站的情况,当有页面不符合匹配的类型被过滤掉后,可以在此选择一个针对未匹配页面的处理模板,进入其他处理流程。