发表于2018年6月28日17:20最后回复于2018年6月28日17:20

采集数据时本地IP被封怎么办?

2119浏览量

0评论

一、关于配置代理IP的问题

我们不禁会发问为什么用代理IP?

由于网站防爬功能日益加强,如果只用一个本地IP采集的话很容易被封IP,导致无法正常访问网页,所以为了防止被网站发现是机器在取数据,需要不断的更换IP。

如何设置代理IP呢?

1.启用IP代理

打开“启用IP代理”按钮,才能启用IP代理功能。


2.启用代理加速

启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。

3.本机IP混用策略

当代理IP失效时,选择是否启用本地网络。

4.添加代理

启用代理后,在IP资源列表中点击“ ”添加一个资源,在弹框中填写资源名称,选择静态动态代理,填写请求频率和备注。

创建好ip资源之后,点击页面右侧的加号,填写IP地址,端口选择代理类型,填写用户名和密码。这样代理IP就配置好了。

【案例1】静态代理IP

  1. 创建IP资源

点击右侧加号添加代理,对应关系见下表:

添加好代理账号,点击保存就完成了代理IP的配置。

【案例2】动态代理IP

1.创建IP资源

①请求频率:每秒每个IP所允许的请求次数,某些代理商对此有所限制时,需要填写。

②服务端口:对并行运行软件时有效,多进程共享代理IP时需要填写。

2.右侧需要选择的内容:

①协议类型:选择代理的协议类型,软件支持http/https/socket代理。

②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。

③刷新周期:指代理IP的有效时长。

④请求地址:粘贴代理商的请求地址。

⑤POST DATA:根据代理不同,post请求的情况下填写该内容。

⑥代码编辑区:需要填写一段脚本,以调用代理IP。代码如下:

获取动态代理ip的脚本代码:

ips = DOWNDATA.Split('\n');

var t;

for(i=0;i<ips.size;i )

{

t = ips[i].TrimAll();

ip = t.Split(',');

if(ip.size>1)

{

this.Insert(ip[0],"","",ip[1].ToInt()/1000, "https");

}

}

二、当爬虫内置浏览器与网页版的内容不一致时应该怎么解决?

①点击软件的设置选择清空DNS缓存,然后点击确定。


②在该设置中点击IE内核,弹框内点击同步版本即可。



③弹框内提示版本已生效请重启软件,按照提示重启软件。


发布新帖

私信

举报