前嗅网络发表于2022年13月22日12:44最后回复于2022年13月22日12:44

大数据时代不懂爬虫?史上最全爬虫采集范围盘点

946浏览量

0评论

数据将是比石油还珍贵的资源,谁拥有最快获取数据,处理数据,分享数据,产生数据的能力,谁就会胜出。


在当下这个数据已经成为决策核心的大数据时代,越来越多的公司和个人离不开大数据。数据采集和分析能力正在成为职场的必备技能。

今天小编就以国内知名的ForeSpider爬虫软件为例,来为大家盘点一下爬虫软件能够采集哪些数据。

ForeSpider数据采集系统,一款通用性的可视化+开发型爬虫软件,可以采集互联网上几乎100%的公开数据。ForeSpider既能进行可视化的数据提取,又支持正则表达式操作,不管您是否有编程基础,都可以使用采集网站或/app中的数据。


国内网站

1.新闻类网站

实时采集全网所有的新闻资讯内容和政府公告数据:

①媒体门户网站

人民网、央视网、新华网、财经网、东方网、大众网、华声在线、光明网、中国科技网、凤凰网、澎湃新闻、搜狐网、中国网、央视新闻中心、大河网等;




②自媒体平台

今日头条、百家号、一点资讯、网易、腾讯新闻、新浪新闻、钛媒体、CSDN、趣头条、简书、世界经纪人、ChinaUnix、思否等;

 



③垂直新闻媒体网站

汽车之家、东方财富网、IT之家、知音网、健康报网、梅花网等、金融界、中国机械网、界面等;



④各级政府机构门户网站

财政部、自然资源部、证监会、中国政府采购网、国家法律法规、药监局、银监会、国家标准网、海洋局、文物局等;




2.企业类网站

实时采集全网所有的企业黄页网站数据:

顺企网、慧聪网、1688、中国黄页网、马可波罗、黄页88、免费黄页网等。




3.招投标类网站

实时采集全网招投标网站数据及企业官网招投标数据:

①招投标网

中国政府采购网、贵州省招标投标网、安徽招标网、合肥招标投标网、中国采购招标网等;




②各地区公共资源交易中心

广州公共资源交易网、甘肃省公共资源交易网、贵州公共资源交易中心、云南公共资源交易中心、四川公共资源交易中心、重庆公共资源交易中心、西藏公共资源交易中心、广东公共资源交易中心、广西公共资源交易中心、海南公共资源交易中心、湖北公共资源交易中心、湖南公共资源交易中心、河南公共资源交易中心、江西公共资源交易中心、山东公共资源交易中心、江苏公共资源交易中心、安徽公共资源交易中心、浙江公共资源交易中心、福建公共资源交易中心、上海公共资源交易中心、北京公共资源交易中心、天津公共资源交易中心、河北公共资源交易中心、雄安公共资源交易中心、山西公共资源交易中心、内蒙古公共资源交易中心宁夏公共资源交易中心、新疆公共资源交易中心、兵团公共资源交易中心、青海公共资源交易中心、陕西公共资源交易中心、甘肃公共资源交易中心、辽宁公共资源交易中心、吉林公共资源交易中心、黑龙江公共资源交易中心等;

 


 

4.金融类网站

抓取网上金融类网站的公开数据:

东方财富网、金融界、证券之星、中财网行情中心、中国证券业协会网、同花顺、好买基金网、中证网、华夏基金、证监会、中国金融期货交易所、上海期货交易所。



 

5.社交类网站

实时爬取全网全渠道社交媒体及各类垂直行业论坛贴吧数据,可满足多种数据采集场景。可抓取登录、滚动、搜索、点击等多种交互后展现的数据,具体包括账号主页文章/博文/帖子、搜索关键词后得到的文章/博文/帖子、文章/博文评论等:

微博、知乎、豆瓣、抖音、小红书、B站、火山、微信公众、百度贴吧等。




6.电商类网站

批量采集全网主流电商平台及官方/第三方电商数据分析平台数据:

淘宝、天猫、京东、拼多多、苏宁易购、唯品会、当当网、国美、阿里巴巴、聚美优品、贝贝网、寺库网、车厘子鲜果网、食行生鲜、网易严选、卷皮网、中粮我买网、汽车之家、亚马逊(中国)、eBay、AliExpress等。


可采集直接可见或登录后可见的电商网站数据,字段包括:商品类目、标题、URL、价格(挂牌价与到手价)、销量、交易额、库存、评价、图片、访问量、发货地、促销活动、所在店铺、店铺等级等。

 


7.房产类网站

爬取全国各级市区县的房地产数据(包括房产基础数据、房产租售交易数据、土地交易数据),及各类综合房产信息网站:

中原房产、搜房网、房天下、房多多、赶集网、房星网、Q房网、合房网、乐有家、21世纪房产等、各省市房管局网站和各省市土地招拍挂网站等。

 



8.在线服务类网站

美团、大众点评、百度糯米、饿了么、携程旅行网、同程旅游、驴妈妈旅游、去哪儿网、飞猪、途牛旅游、艺龙旅行网、小猪短租、蚂蚁短租、马蜂窝、大麦网、永乐票务、时光网、猫眼、淘票票、土巴兔、齐家网、懒人家政、阿姨来了、58到家、好大夫在线、微医、腾讯课堂、淘宝教育等。




l 境外网站

ForeSpider数据采集分析引擎可以采集境外的各类网站数据,通过配置境外代理IP或VPN,轻松采集境外电商、新闻、社交、地图、企业官网、政府媒体等各行业网站上的公开数据。


1.电商网站

天猫国际、海囤全球、网易考拉、苏宁海外购、亚马逊海外购、聚美极速免税店、唯品国际、宝贝格子、速卖通、兰亭集势、亚马逊(Amazon)、易贝(eBay)、AliExpress、阿里巴巴国际站、Rakuten、NetFlix、Best Buy、新蛋网(Newegg)、西尔斯(Sears)、Overstock、特易购(Tesco)、La Redoute、Play.com、Ssense、Gmarket、Etsy等。

 


 

2.新闻网站

雅虎新闻 (Yahoo! News)、赫芬顿邮报 (HuffingtonPost)、美国有线电视新闻网 (CNN)、谷歌新闻 (Google News)、纽约时报 (New York Times)、福克斯新闻频道(Fox News) 、美国全国广播公司新闻(NBC News)、洛杉矶时报(Los Angeles Times )、朝日新闻(Asahi Shimbun) 等。


 

3.社交网站

脸书(Facebook)、推特(Twitter)、领英(LinkedIn)、Pinterest、Google+、pixiv、Flickr、研究之门(ResearchGate)、Badoo、Seesaa、Scribd、GREE、LiveJournal、Lamebook等。



4.地图网站

采集外国地图类网站上搜索出来的店铺、企业等数据:

谷歌地图(Google Maps) 、Bing地图 (Bing Maps)、雅虎地图(Yahoo! Maps) 、MapQuest等。




5.学术网站

抓取国外学术类期刊、研究院、数据库等网站中的学术数据:

柳叶刀(The Lancet)、研究之门(ResearchGate)、医景网、 CA Cancer J Clin 、美国西南研究院(Southwest Research Institute)、美国化学学会(ACS)、PubMed、生物化学杂志(The Journal of Biochemistry)、伊朗生物技术期刊(Iranian Journal of Biotechnology)、国际地理学会(IGU)、基因库(GenBank);

 

 


6.政府媒体网站

采集各国政府媒体网站及政府网站数据:

新导报(xindb)、白俄罗斯电视台(tvr.by) 欧洲华人报、德国新资讯(deumedia)、美联社(ap.org)、英国卫报(guardian)、美国财富杂志(fortune)、韩国中央日报(joins)等。

 



 l 国内外APP

ForeSpider爬虫软件不仅可以采集网页上的公开数据,还可以采集国内外APP上的公开数据。


1.电商APP

淘宝、天猫、京东、苏宁、唯品会、阿里巴巴、拼多多、美团、饿了么、大众点评、Depop、ASOS、Wish、Sockock、Groupon、亚马逊、eBay等。

采集内容:可采集直接可见或登录后可见的电商APP数据,字段包括商品类目、标题、URL、价格(挂牌价与到手价)、销量、交易额、库存、评价、图片、访问量、发货地、促销活动、所在店铺、店铺等级等。

 


2.新闻APP

今日头条、一点资讯、搜狐、新浪、腾讯、新京报、人民日报、澎湃新闻、网易、凤凰新闻、中央新闻、环球TIME、天天快报、经济学人(The Economist)、纽约时报、南华早报(SCMP)、BBC News、雅虎 (News Digest)、CNN、韩联社等

采集内容:可抓取公开或登录后可见的新闻APP中的数据,例如新闻标题、新闻发布时间、新闻来源、新闻正文、新闻评论等。

 


3.社交媒体APP

微博、小红书、抖音、火山、B站、Facebook、YouTube、PAGO、Yubo、Beeto等。

采集内容:登录/滚动/搜索/点击等多种交互后展现的数据均可采集,具体包括账号主页文章/博文、搜索关键词后得到的文章/博文、文章/博文评论、图片、段视频、点赞量、转发量等。

 


4.地图APP

高德地图、百度地图、腾讯地图、谷歌地图、谷歌地图(Google Maps) 、Bing地图 (Bing Maps)、雅虎地图(Yahoo! Maps)等

采集内容:可批量抓取在各地图APP中搜索关键词出来的商铺、企业数据,例如商铺名称、地址、电话、营业时间、评分、评论、口碑等。



*以上网站仅为展示ForeSpider数据采集分析引擎采集范围及能力,请您在使用中,严格按照国家法律和对方网站的要求进行合法的数据爬取,不要将数据用于违法用途。


l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!


私信

举报