< 返回文档列表
4.3.1 如何选购代理IP
noInitnoInit

由于网站防爬功能日益加强,如果只用一个本地IP采集的话很容易被封IP,导致无法正常访问网页,所以为了防止被网站发现是机器在取数据,需要不断的更换IP,这个时候就用到了代理IP。

1.判断网站是否需要代理:

①采集各大著名网站基本都需要代理IP。

②使用1个线程采集都会封IP的网站,需要使用代理IP。

③需要提高采集速度,但是一提高就会封IP的网站。

2.计算需要购买多少代理IP

①根据网站的反爬程度,大致得出一个封IP的严重程度。

②先少购买一点代理IP,首先放慢速度采集,调低线程数目和采集间隔,采集状态正常就调高一点,慢慢找到临界状态,然后稳定在这个速度。

③如需提升采集速度,则按照上述测算出的速度和IP量的比例,同比计算。

3.购买动态还是静态代理

购买哪种代理要根据网站的情况。

①动态代理:大部分网站都可以用动态代理,通常按切换频率、提取数量和使用时长计费。动态代理可以按照一定频率和数量自动从IP池中切换,重复率低,价格略高。

②静态代理:静态代理不自动切换,通常按量和时长购买,当网站在Cookie中记录了访问者的IP时,不能用动态代理,需要使用静态代理。

4.购买http还是https代理

看网站的网址是http还是https开头的,对应买相应的代理。