< 返回文档列表

4.2.1 采集速度

确定采集速度的方式是,先放慢速度采集,调低线程数目和采集间隔,采集状态正常就调高一点,慢慢找到临界状态,然后稳定在这个速度。

 

【采集速度】

1.线程数目

线程数目是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越快,消耗的系统资源也越大,被反爬的可能性也越大。需要结合采集速度、反爬情况和资源消耗来综合设置。

线程数最小是1,最大值要观察任务管理器的内存占用率,一般的办公电脑超过50就可能会卡顿,服务器根据配置选定。

2.采集间隔

是指采集两条数据的时间间隔,结合线程数目调节,可以在1个线程的情况下更慢的采集,降低被封IP的概率。