python学习问题总结之UnicodeDecodeError

  1. 问题内容:'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte

相关代码:

#科技部数据获取
def get_url(a,b):
    for i in range(a,b):
        if a == 0:
            url = 'http://www.most.gov.cn/tztg/index.htm'
        else:
            url = 'http://www.most.gov.cn/tztg/index_'+str(i)+'.htm'
    return url

def get_page_href(url):
    page_respon = requests.get(url).content.decode('utf-8')
    page_tree = etree.HTML(page_respon)
    page_href = page_tree.xpath('//tr/td/a/@href')
    page_href = 'http://www.most.gov.cn/tztg'+page_href
    print(page_href)


url = get_url(0,2)
get_page_href(url)

爬虫的时候报了这个错误,网上查了一下,问题出在编码格式上,不是每一个页面的编码格式都是utf-8,所以要确定网页的编码格式再进行解码。

通用的浏览器编码查询方式是:F12打开开发者工具,进入console,键入"document.charset" 即可查看网页的编码方式。

猜你喜欢

转载自blog.csdn.net/qq_34130509/article/details/89202649