1.爬虫是什么?
爬虫是一个自动采集全网公开数据的软件,它根据既定的抓取目标,有选择的访问网上的网页与相关的链接,获取所需要的信息。
2.爬虫可以采集的范围
凡是通过浏览器可以公开访问的内容,都可以大批量采集下来。
前嗅ForeSpider可以实现:
(1)需要登录或自动获取cookie的网站
前嗅ForeSpider支持自动登录,自动获取cookie信息。
(2)需要输入验证码采可见的数据
可接入第三方打码平台,最多3秒自动返回打码结果。
(3)搜索栏检索关键词的数据
支持各种搜索栏检索关键词,可批量导入数十万关键词。
(4)各种协议的网站数据
支持http、https、各类APP的协议等。
(5)JavaScript和Ajax动态生成的内容
支持所有JavaScript生成的动态内容。
(6)需要用IP代理的网站
支持IP代理,不用担心封锁IP。
(7)post请求和get请求
支持post请求和get请求的网页。
(8)OAuth认证
支持OAuth认证的网页。
(9)搜索引擎全网数据挖掘
可以通过一个模板,采集搜索引擎,挖掘所需数据。
(10)采集境外网站
可以采集境外的网站内容。
(11)采集本地文件
可采集本地文件的内容。
(12)采集内网网站
可采集内网网站的内容。
(13)采集瀑布流翻页
可采集瀑布流翻页的网站内容。
3.爬虫不能采集的范围
(1)非公开数据
网络爬虫技术是一种批量数据下载技术,不是黑客技术,只能采集前端浏览器上能显示的数据内容,对于网站的服务器后端数据,如用户数据等,是不能采集的。
对于需要账号登录才能查看的内容,如果您有账号可以登录,是可以采集该账号下可见数据的;对于其他账号下的内容,也同样不能够采集。
(2)需要手机扫码的数据
对于需要扫码后才能显示的数据,无法实现批量采集。
(3)对于账号有权限限制的数据
有些网站限制一个登录账号一天只能查看x条数据,如果用户没有多余的账号,是无法突破这样的限制的。
(4)需要登录,但是没有账号密码
有些网站登录之后才可以看到信数据,没有账号和密码,爬虫是没有权限进行此采集的。
(5)需要付费的信息
付费会员采集可以看到的数据,或者需要付费购买的数据,爬虫没有权限进行采集。
(6)网站的后台数据
网站后台的数据为非公开数据,爬虫不能进行采集。
(7)网站的注册数据
网站/APP等注册用户数据,属于隐私数据,爬虫不能进行采集。
(8)其他涉及侵犯第三方版权的内容