微信登录
账号登录
手机号登录
扫码立即登录
您输入的账号或密码错误
手机号码输入不正确,请重新输入!
022-2345 2937
185 2247 0110
business@forenose.com
QQ:2779623375
用户QQ群3:606835039
用户QQ群4:795287153
订阅号
服务号
客服微信:qianxiu0106
ForeSpider
数据采集引擎
ForeSpider的数据排重机制,有两重保障。
1.采集日志排重
通过采集日志记录的历史采集任务,可以保证不重采相同的链接地址,从而达到排重的作用。
2.数据入库排重
通过为数据表设置主键字段,根据网页地址通过MD5算法排重,使得清除日志之后,重复数据即使采集了,也无法入库。
3.自定义排重字段
通过设置“键值唯一”的字段属性,指定需要排重的字段,根据字段内容进行排重存储。
【自定义排重字段】