对于某些网站,在测试的时候请求几次,能正常获取内容。但是一旦开始大规模爬取,对于大规模且频繁的请求,网页可能会弹出验证码,或者跳转到登陆认证页面,甚至可能会直接封禁客户端的IP/
那么为了防止这种情况发生,我们需要设置代理来解决这个问题,这就需要用到requests里的proxies参数。可以用这样的方式设置:
import requests
proxies={
'http':'http://10.10.1.10:3128',
'http's:'htpp://10.10.1.10:1080'}
requests.get('https://taobao.com',proxies=proxies)
并且proxies参数还支持 代理用户认证 和SOCKS协议代理