< 返回文档列表
1.1.1 爬虫能做什么?
noInitnoInit

1.爬虫是什么?

爬虫是一个自动采集全网公开数据的软件,它根据既定的抓取目标,有选择的访问网上的网页与相关的链接,获取所需要的信息。

 

2.爬虫可以采集的范围

凡是通过浏览器可以公开访问的内容,都可以大批量采集下来。

前嗅ForeSpider可以实现:

①需要登录或自动获取cookie的网站

前嗅ForeSpider支持自动登录,自动获取cookie信息。

②需要输入验证码采可见的数据

可接入第三方打码平台,最多3秒自动返回打码结果。

③搜索栏检索的数据

支持各种搜索栏检索关键词,可批量导入数十万关键词。

④各种协议的网站数据

支持http、https、各类APP的协议等。

⑤JavaScript和Ajax动态生成的内容

支持所有JavaScript生成的动态内容。

⑥需要用IP代理的网站

支持IP代理,不用担心封锁IP。

⑦post请求和OAuth认证

支持post请求和OAuth认证的网页。

⑧搜索引擎全网数据挖掘

可以通过一个模板,采集搜索引擎,挖掘所需数据。

 

3.爬虫不能采集的范围

①非公开数据

网络爬虫技术是一种批量数据下载技术,不是黑客技术,只能采集前端浏览器上能显示的数据内容,对于网站的服务器后端数据,如用户数据等,是不能采集的。

对于需要账号登录才能查看的内容,如果您有账号可以登录,是可以采集该账号下可见数据的;对于其他账号下的内容,也同样不能够采集。

②需要手机扫码的数据

对于需要扫码后才能显示的数据,无法实现批量采集。

③对于账号有权限限制的数据

有些网站限制一个登录账号一天只能查看x条数据,如果用户没有多余的账号,是无法突破这样的限制的。

④需要登录,但是没有账号密码

有些网站登录之后才可以看到信数据,没有账号和密码,爬虫是没有权限进行此采集的。

⑤需要付费的信息

付费会员采集可以看到的数据,或者需要付费购买的数据,爬虫没有权限进行采集。

⑥网站的后台数据

网站后台的数据为非公开数据,爬虫不能进行采集。

⑦网站的注册数据

网站/APP等注册用户数据,属于隐私数据,爬虫不能进行采集。

⑧其他涉及侵犯第三方版权的内容