前嗅网络发表于2022年12月21日10:48最后回复于2022年12月21日10:48
ForeSpider采集速度有多快?
323浏览量
0评论
ForeSpider数据采集分析引擎采用全C++编写的自研内核,可以实现高性能高效率快速采集。用户可自行设置采集线程数和进程数,既可开多个线程进行采集,也可同时打开多个进程进行采集,实现快速采集海量网站,大大提高采集速度。
概念介绍:
①线程:
线程数目是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越大。一个客户端运行的时候,占用的操作系统资源,线程设置的越高,采集越快,但CPU和内存占用率越高,用户可根据自身机器配置适当设置。
②进程:
进程表示客户端,多进程表示有多个客户端在进行任务,服务器版本最多可开16各进程,多进程同时采集可智能并行分配采集任务。
采集速度:
①笔记本电脑400万条/天
(注:此数据为理论情况下的客观数据,是指对方网站的带宽正常,下载爬虫的电脑带宽正常,采集的网站不防爬的情况下)
②服务器4000万条/天
(注:服务器分为单机多进程和多机多进程,次数据指的是单机多进程,2G内存对应一个进程,现规定每台服务器最多开16个进程)。
③台式机单机采集能力可达4000-8000万,日采集能力超过500万。
服务器集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。
- ·ForeSpider入门教程 26350
- ·ForeSpider数据采集系统功能说明 17176
- ·软件用途 16599
- ·软件功能 16445
- ·ForeSpider数据采集特点 15681
- ·创建表单的视频教程 15601
- ·采集策略相关概念 15447
- ·频道相关概念 15206
- ·表单相关概念 14841
- ·免费代理IP网址大全 14192
评论区
+ 写评论