目录
    6.2.3 加载日志宏
    视频教程:模板下载:

    筛选符合条件的日志,对采集策略进行补充。通过加载日志宏,可以更加精确的确定下次采集的范围。


     

    加载日志宏


    支持语法如下:

    1.size:网页大小

    一般网页大小过小的网页,往往是被识别反爬后重定向了,但采集状态仍然是正确(绿色)的。重采时可以筛选出质量小于一定大小的网页进行重复采集。

    例如,加载所有网页大小小于1k的日志:size<1024


            如果采集状态是ok,但是页面大小小于1kb,可能是被识别反爬后重定向了,重采时可以筛选出质量小于一定大小的网页进行重复采集。如验证码跳出,则采集到的为验证码内容就不会采集正常的网页内容了。


    2.id:网页ID

    通过规定网页ID可以补采某一部分网页,比如认为数据从哪部分之后有问题了,就补采大于这个网页ID的日志部分。

    例如,加载网页大小小于10k并且网页Id大于100的日志:size<10240 and id>100

    3.pid:来源ID