代理服务器地址库,HTTP请求IP伪造,IIS7禁止IP
< 返回列表时间: 2013-01-03来源:开源中国
HDC调试需求开发(15万预算),能者速来!>>>
这两天因为需求做一个数据采集的工具,之前也针对一些网站做过一些类似的东西,虽然过程上嗑嗑绊绊,但最后都达到了效果。
因为算不上经验丰富,这回遇到的麻烦让我比较困惑。
大概需要抓取二十多万数据,数据源网站服务器用的是IIS7,.net平台,请求大概一千到两千次左右,IP会被禁止,服务器直接返回503,采集中断,封禁时间大概为12个小时。
我采集的速度并不快,尝试过多种暂缓方式。每抓取10条停顿3s/5s/10s,或100条停顿30s/60s,或200条停顿300s/600s,后来发现无论如何去设置间隔时间都是徒劳,我每一次重启路由器开始抓取数量不会超过2000条,就会被服务器拒绝,直接返回503,然后封禁12个小时左右。
为此,我尝试使用代理来完成我的工作,做一个代理控制器,然后google百度的可用代理服务器ip地址列表,这些地址质量惨不忍睹,少有可以正常工作的服务器,以非常缓慢的速度响应,这显然不能为我所用,只好弃之,再寻它法。
由于我是使用远程服务器24小时开机来做数据抓取,所以并不能像adsl重启路由来获得新的ip地址,目前服务器IP刚被解封。即使使用adsl线路依靠重启路由的方式来完成数据抓取,20万的量也足够让我困扰了,除非再写一个定时重启路由的程序,这意味着我随时准备断网,想着都痛苦。
有哪位朋友研究过iis/asp.net/iis插件来限制客户端ip请求次数的原理的?希望能绕过去。
或者,能否伪造http请求的IP?这都比较靠近底层的协议了,小弟对这些目前白纸一张,恳请指教。
每个ip在一天内限制不到2000次,20余万的数据,买代理服务器可否现实?有卖的不?

热门排行