采集数据时本地IP被封怎么办?
3880浏览量
0评论
一、关于配置代理IP的问题 我们不禁会发问为什么用代理IP? 由于网站防爬功能日益加强,如果只用一个本地IP采集的话很容易被封IP,导致无法正常访问网页,所以为了防止被网站发现是机器在取数据,需要不断的更换IP。 如何设置代理IP呢? 1.启用IP代理 打开“启用IP代理”按钮,才能启用IP代理功能。 2.启用代理加速 启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。 3.本机IP混用策略 当代理IP失效时,选择是否启用本地网络。 4.添加代理 启用代理后,在IP资源列表中点击“ ”添加一个资源,在弹框中填写资源名称,选择静态动态代理,填写请求频率和备注。 创建好ip资源之后,点击页面右侧的加号,填写IP地址,端口选择代理类型,填写用户名和密码。这样代理IP就配置好了。 【案例1】静态代理IP 创建IP资源 点击右侧加号添加代理,对应关系见下表: 添加好代理账号,点击保存就完成了代理IP的配置。 【案例2】动态代理IP 1.创建IP资源 ①请求频率:每秒每个IP所允许的请求次数,某些代理商对此有所限制时,需要填写。 ②服务端口:对并行运行软件时有效,多进程共享代理IP时需要填写。 2.右侧需要选择的内容: ①协议类型:选择代理的协议类型,软件支持http/https/socket代理。 ②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。 ③刷新周期:指代理IP的有效时长。 ④请求地址:粘贴代理商的请求地址。 ⑤POST DATA:根据代理不同,post请求的情况下填写该内容。 ⑥代码编辑区:需要填写一段脚本,以调用代理IP。代码如下: 获取动态代理ip的脚本代码: ips = DOWNDATA.Split('\n'); var t; for(i=0;i<ips.size;i ) { t = ips[i].TrimAll(); ip = t.Split(','); if(ip.size>1) { this.Insert(ip[0],"","",ip[1].ToInt()/1000, "https"); } } 二、当爬虫内置浏览器与网页版的内容不一致时应该怎么解决? ①点击软件的设置选择清空DNS缓存,然后点击确定。 ②在该设置中点击IE内核,弹框内点击同步版本即可。
③弹框内提示版本已生效请重启软件,按照提示重启软件。
- ·前嗅Forespider爬虫的常见问题答疑详情 10495
- ·孔夫子旧书网 4238
- ·采集数据时本地IP被封怎么办? 3880
- ·前嗅ForeSpider教程:采集美团网 3559
- ·ForeSpider教程之如何进行关键词采集 3486
- ·采集配置界面介绍 2569
- ·昵图网 2218
- ·前嗅ForeSpider中数据采集界面介绍 2068
- ·前嗅ForeSpider教程:采集中国证券网 2037
- ·数据建表 1938
评论区
+ 写评论