1.1.1 爬虫能做什么？

教程列表

搜索

1.1.1 爬虫能做什么？

视频教程：模板下载：

1.爬虫是什么？

爬虫是一个自动采集全网公开数据的软件，它根据既定的抓取目标，有选择的访问网上的网页与相关的链接，获取所需要的信息。

2．爬虫可以采集的范围

凡是通过浏览器可以公开访问的内容，都可以大批量采集下来。

前嗅ForeSpider可以实现：

（1）需要登录或自动获取cookie的网站

前嗅ForeSpider支持自动登录，自动获取cookie信息。

（2）需要输入验证码采可见的数据

可接入第三方打码平台，最多3秒自动返回打码结果。

（3）搜索栏检索关键词的数据

支持各种搜索栏检索关键词，可批量导入数十万关键词。

（4）各种协议的网站数据

支持http、https、各类APP的协议等。

（5）JavaScript和Ajax动态生成的内容

支持所有JavaScript生成的动态内容。

（6）需要用IP代理的网站

支持IP代理，不用担心封锁IP。

（7）post请求和get请求

支持post请求和get请求的网页。

（8）OAuth认证

支持OAuth认证的网页。

（9）搜索引擎全网数据挖掘

可以通过一个模板，采集搜索引擎，挖掘所需数据。

（10）采集境外网站

可以采集境外的网站内容。

（11）采集本地文件

可采集本地文件的内容。

（12）采集内网网站

可采集内网网站的内容。

（13）采集瀑布流翻页

可采集瀑布流翻页的网站内容。

3．爬虫不能采集的范围

（1）非公开数据

网络爬虫技术是一种批量数据下载技术，不是黑客技术，只能采集前端浏览器上能显示的数据内容，对于网站的服务器后端数据，如用户数据等，是不能采集的。

对于需要账号登录才能查看的内容，如果您有账号可以登录，是可以采集该账号下可见数据的；对于其他账号下的内容，也同样不能够采集。

（2）需要手机扫码的数据

对于需要扫码后才能显示的数据，无法实现批量采集。

（3）对于账号有权限限制的数据

有些网站限制一个登录账号一天只能查看x条数据，如果用户没有多余的账号，是无法突破这样的限制的。

（4）需要登录，但是没有账号密码

有些网站登录之后才可以看到信数据，没有账号和密码，爬虫是没有权限进行此采集的。

（5）需要付费的信息

付费会员采集可以看到的数据，或者需要付费购买的数据，爬虫没有权限进行采集。

（6）网站的后台数据

网站后台的数据为非公开数据，爬虫不能进行采集。

（7）网站的注册数据

网站/APP等注册用户数据，属于隐私数据，爬虫不能进行采集。

（8）其他涉及侵犯第三方版权的内容

咨询电话(周一至周五9：00-18：00)

1.1.1 爬虫能做什么？