< 返回文档列表

根据记录的采集日志,选择采集任务的采集策略。

 

【采集策略】

1.采集策略

在不清除日志的情况下,可以依照采集历史记录进行采集策略设定。如果日志清除了,则从头开始采集。(清除日志并非是清除数据表中的数据,只是清除了采集历史记录。)

序号

菜单内容

描述

1

自定义

①全部装载:以下全选。

②装载任务地址:重新采集任务地址。

③入库失败:再次采集之前提示采集入库失败的记录。

④上次未采集:继续采集之前在任务队列但没有采集的日志记录。

⑤采集错误:再次采集之前提示采集错误的记录。

⑥采集正确:再次采集之前提示采集正确的记录。

⑦链接页面:无论是否采集过,采集任务中全部的链接页面。

⑧数据页面:无论是否采集过,采集任务中全部的数据页面。

2

增量采集

不再重采历史数据页面,只采集全部链接页面,以增量更新网站新增加的链接内容。

3

继续上次采集

继续上次终止时的任务列表采集,保证不重复采集任务。

4

全部重采

从头开始重新采集,自动清除全部日志。

2.采集阈值

每次采集任务的上限,可以根据自己的需要设置。32位软件上限约为4000万,填写超过这个上限无效,以上限为准。64位软件理论上没有上限,根据内存大小决定。

3.数据缓存

打开数据缓存可以先将采集数据时的网页的源码记录下来,待到采集完后可以根据每个网页的快照,再进行数据清洗。

查看步骤:

①数据采集>装载记录

②选中其中一条记录,右击打开缓存数据

【查看缓存数据】

③网页数据缓存文本

 

【数据缓存文本】

4.加载日志宏

筛选符合条件的日志,对采集策略进行补充。支持语法如下:

①size:网页大小

例如,加载所有网页大小小于1k的日志:size<1024

②id:网页ID

例如,加载网页大小小于10k并且网页Id大于100的日志:size<10240 and id>100

③pid:来源ID