这两天开始了解和学习爬虫,在学习过程中,有以下几个细节需要记录:
1.由于所看的视频老师使用的是python2版本来编写代码的,而我一直使用的是Python3版本,在这两个版本中,最大的区别的是
urllib这个模块的使用。
在python2中,urllib分为urllib和urllib2两个版本,我们在转码过程中,使用的是urllib这个,其语法为:
kw = urllib.urlencode({"kw":kw})
注意,urllib所接收的对象应该是字典,在构造请求和接受响应的时候,我们使用的是urllib2这个版本,其语法为:
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
在python3中,只有urllib一个版本,但是在导入过程中,语法为:
import urllib.request
而在使用转码时,其语法为:
urllib.parse.quote(string, safe='/', encoding=None, errors=None)
在构造请求和接收响应的时候,其语法为:
import urllib.request
req = urllib.request.Request('http://python.org/')
response = urllib.request.urlopen(req)
the_page = response.read()