筛选符合条件的日志,对采集策略进行补充。通过加载日志宏,可以更加精确的确定下次采集的范围。
【加载日志宏】
支持语法如下:
1.size:网页大小
一般网页大小过小的网页,往往是被识别反爬后重定向了,但采集状态仍然是正确(绿色)的。重采时可以筛选出质量小于一定大小的网页进行重复采集。
例如,加载所有网页大小小于1k的日志:size<1024
如果采集状态是ok,但是页面大小小于1kb,可能是被识别反爬后重定向了,重采时可以筛选出质量小于一定大小的网页进行重复采集。如验证码跳出,则采集到的为验证码内容就不会采集正常的网页内容了。
2.id:网页ID
通过规定网页ID可以补采某一部分网页,比如认为数据从哪部分之后有问题了,就补采大于这个网页ID的日志部分。
例如,加载网页大小小于10k并且网页Id大于100的日志:size<10240 and id>100
3.pid:来源ID