图文教程
视频教程
采集模板
常见问题
1.爬虫是什么?
爬虫是一个自动采集全网公开数据的软件,它根据既定的抓取目标,有选择的访问网上的网页与相关的链接,获取所需要的信息。
2.爬虫可以采集的范围
凡是通过浏览器可以公开访问的内容,都可以大批量采集下来。
前嗅ForeSpider可以实现:
①需要登录或自动获取cookie的网站
前嗅ForeSpider支持自动登录,自动获取cookie信息。
②需要输入验证码采可见的数据
可接入第三方打码平台,最多3秒自动返回打码结果。
③搜索栏检索的数据
支持各种搜索栏检索关键词,可批量导入数十万关键词。
④各种协议的网站数据
支持http、https、各类APP的协议等。
⑤JavaScript和Ajax动态生成的内容
支持所有JavaScript生成的动态内容。
⑥需要用IP代理的网站
支持IP代理,不用担心封锁IP。
⑦post请求和OAuth认证
支持post请求和OAuth认证的网页。
⑧搜索引擎全网数据挖掘
可以通过一个模板,采集搜索引擎,挖掘所需数据。
3.爬虫不能采集的范围
①非公开数据
网络爬虫技术是一种批量数据下载技术,不是黑客技术,只能采集前端浏览器上能显示的数据内容,对于网站的服务器后端数据,如用户数据等,是不能采集的。
对于需要账号登录才能查看的内容,如果您有账号可以登录,是可以采集该账号下可见数据的;对于其他账号下的内容,也同样不能够采集。
②需要手机扫码的数据
对于需要扫码后才能显示的数据,无法实现批量采集。
③对于账号有权限限制的数据
有些网站限制一个登录账号一天只能查看x条数据,如果用户没有多余的账号,是无法突破这样的限制的。
④需要登录,但是没有账号密码
有些网站登录之后才可以看到信数据,没有账号和密码,爬虫是没有权限进行此采集的。
⑤需要付费的信息
付费会员采集可以看到的数据,或者需要付费购买的数据,爬虫没有权限进行采集。
⑥网站的后台数据
网站后台的数据为非公开数据,爬虫不能进行采集。
⑦网站的注册数据
网站/APP等注册用户数据,属于隐私数据,爬虫不能进行采集。
⑧其他涉及侵犯第三方版权的内容