目录
    5.1.3 数据自动排重
    视频教程:模板下载:

    ForeSpider的数据排重机制,有两重保障。

    1.采集日志排重

    通过采集日志记录的历史采集任务,可以保证不重采相同的链接地址,从而达到排重的作用。

    2.数据入库排重

    通过为数据表设置主键字段,根据网页地址通过MD5算法排重,使得清除日志之后,重复数据即使采集了,也无法入库。

    3.自定义排重字段

    通过设置“键值唯一”的字段属性,指定需要排重的字段,根据字段内容进行排重存储。

    undefined 

    自定义排重字段