前嗅网络发表于2022年12月21日10:48最后回复于2022年12月21日10:48

ForeSpider采集速度有多快?

323浏览量

0评论

ForeSpider数据采集分析引擎采用全C++编写的自研内核,可以实现高性能高效率快速采集。用户可自行设置采集线程数和进程数,既可开多个线程进行采集,也可同时打开多个进程进行采集,实现快速采集海量网站,大大提高采集速度。


概念介绍:

①线程:

线程数目是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越大。一个客户端运行的时候,占用的操作系统资源,线程设置的越高,采集越快,但CPU和内存占用率越高,用户可根据自身机器配置适当设置。

②进程:

进程表示客户端,多进程表示有多个客户端在进行任务,服务器版本最多可开16各进程,多进程同时采集可智能并行分配采集任务。


采集速度:

①笔记本电脑400万条/天

(注:此数据为理论情况下的客观数据,是指对方网站的带宽正常,下载爬虫的电脑带宽正常,采集的网站不防爬的情况下)

②服务器4000万条/天

(注:服务器分为单机多进程和多机多进程,次数据指的是单机多进程,2G内存对应一个进程,现规定每台服务器最多开16个进程)。

③台式机单机采集能力可达4000-8000万,日采集能力超过500万。

服务器集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。


私信

举报