- 问题内容:'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte
相关代码:
#科技部数据获取
def get_url(a,b):
for i in range(a,b):
if a == 0:
url = 'http://www.most.gov.cn/tztg/index.htm'
else:
url = 'http://www.most.gov.cn/tztg/index_'+str(i)+'.htm'
return url
def get_page_href(url):
page_respon = requests.get(url).content.decode('utf-8')
page_tree = etree.HTML(page_respon)
page_href = page_tree.xpath('//tr/td/a/@href')
page_href = 'http://www.most.gov.cn/tztg'+page_href
print(page_href)
url = get_url(0,2)
get_page_href(url)
爬虫的时候报了这个错误,网上查了一下,问题出在编码格式上,不是每一个页面的编码格式都是utf-8,所以要确定网页的编码格式再进行解码。
通用的浏览器编码查询方式是:F12打开开发者工具,进入console,键入"document.charset" 即可查看网页的编码方式。