1.urllib的几个相关函数,各个函数的具体功能如案例代码所示:
import urllib.request
# urlretrieve(网址,本地文件的存储地址)直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","E:\\Pythondemo\\Python-test\\PythonLX\\dld.html")
# 清除数据缓冲,减少内存浪费
urllib.request.urlcleanup()
# info-----得到当前爬取相应的情况
file = urllib.request.urlopen("http://read.douban.com/provider/all")
print(file.info())
# getcode----返回网页爬取当期的状态码(200正确状态码 ^200则获取失败)
print("-----------")
print(file.getcode())
# 获取当前访问的网页url,geturl()
print("===========")
print(file.geturl)
案例运行结果: |
备注:本博客如有疑问,欢迎大家在评论区留言-------本博客的博主觉得他就是查找爬虫过程中你想获取的有用信息以及查找错误,实际没个啥可标注的!!!
2.超时设置 案例代码:
# 超时设置
import urllib.request
for i in range(0,100):
try:
file = urllib.request.urlopen("http://yum.iqianyue.com", timeout=0.25)
#不输出len也行,直接file.read()也是OK的
print(len(file.read()))
except Exception as err:
print("出现异常"+str(err))
超时设置的运行结果: |