爬虫-timeout机制-避免网页假死 长时间不加载

版权声明:我是南七小僧,微信: to_my_love ,欢迎交流思想碰撞。 https://blog.csdn.net/qq_25439417/article/details/83033450

爬虫有时候会因为爬去某些网页速度极慢,影响性能。所有可以设置超时时间。 
timeout单位 秒 
设置超时时间为12,使用try语句。

#coding:utf-8
**urllib2**
超时可以通过 urllib2.urlopen() 的 timeout 参数直接设置。
例如:
#coding:utf-8
import urllib2
try:
    url = "http://www.baidu.com"
    f = urllib2.urlopen(url, timeout=12) #timeout设置超时的时间
    result = f.read()
    print result
except Exception as e:
    print ('a',str(e))

如果要永远等待,只需传入一个None

二、错误与异常 
1、遇到网络问题(如:DNS 查询失败、拒绝连接等)时,Requests 会抛出一个 ConnectionError 异常。 
2、如果 HTTP 请求返回了不成功的状态码, Response.raise_for_status() 会抛出一个 HTTPError 异常。 
3、若请求超时,则抛出一个 Timeout 异常。 
4、若请求超过了设定的最大重定向次数,则会抛出一个 TooManyRedirects 异常。 
5、所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException 。
--------------------- 

这样在爬虫的时候,能较好的避免网页假死。

猜你喜欢

转载自blog.csdn.net/qq_25439417/article/details/83033450