在数据采集或者爬虫的工作中,我们不可防止的会遭遇反爬封锁,所以就会有爬虫的攻防,在攻和守之间两股力气不时的抗衡。
接下来就讲讲在数据采集或爬虫时ip被限制的几种处理计划问题:
处理计划一:
倡议一定要运用代理ip;在有外网IP的机器上,部署爬虫代理效劳器;运用轮训交换代理效劳器来访问想要采集的网站。
这样的话,你的程序逻辑变化小,只需求代理功用就能够,而且依据对方网站屏蔽规则不同,你只需求添加不同的代理就能够了。再者,就算详细IP被屏蔽了,你能够直接把代理效劳器下线就OK,程序逻辑不需求变化。
处理计划二:
假装和轮换,运用代理ip和轮换,cookies的处置。
处理计划三:
运用ADSL+脚本,监测能否被封,然后不时切换ip;设置查询频率限制,也就是限制调用该网站提供的效劳接口。
处理计划四:
网站封IP的根据普通是单位时间内特定IP的访问次数过多,采集很多网站时能够将采集的任务按目的站点的IP停止分组,然后经过控制每个IP在单位时间内发出任务的个数来防止被封。
处理计划五:
尽可能的模仿用户行为,比方UserAgent经常换一换,访问时间距离设长一点,访问时间设置为随机数;访问页面的次第也能够随机。
处理计划六:
对爬虫抓取停止压力控制;能够思索运用代理的方式访问目的站点:降低抓取频率,时间设置长一些,访问时间采用随机数;频繁切换UserAgent(模仿阅读器访问);多页面数据,随机访问然后抓取数据;改换用户IP,这是最直接有效的办法!