python学习问题总结之UnicodeDecodeError - 代码天地

python学习问题总结之UnicodeDecodeError

编程语言 2019-04-11 09:40:51 阅读次数: 0

问题内容：'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte

相关代码：

#科技部数据获取
def get_url(a,b):
    for i in range(a,b):
        if a == 0:
            url = 'http://www.most.gov.cn/tztg/index.htm'
        else:
            url = 'http://www.most.gov.cn/tztg/index_'+str(i)+'.htm'
    return url

def get_page_href(url):
    page_respon = requests.get(url).content.decode('utf-8')
    page_tree = etree.HTML(page_respon)
    page_href = page_tree.xpath('//tr/td/a/@href')
    page_href = 'http://www.most.gov.cn/tztg'+page_href
    print(page_href)


url = get_url(0,2)
get_page_href(url)

爬虫的时候报了这个错误，网上查了一下，问题出在编码格式上，不是每一个页面的编码格式都是utf-8，所以要确定网页的编码格式再进行解码。

通用的浏览器编码查询方式是：F12打开开发者工具，进入console，键入"document.charset" 即可查看网页的编码方式。

猜你喜欢

转载自blog.csdn.net/qq_34130509/article/details/89202649

python学习问题总结之UnicodeDecodeError

Python 编码问题——UnicodeDecodeError（二）

Python 编码问题——UnicodeDecodeError（一）

Python学习笔记之Flask问题总结

PYTHON的一个decode的UnicodeDecodeError问题

解决 python 读取文件乱码问题（UnicodeDecodeError）

Python学习问题总结

Python 学习问题总结

Python学习系列之性能优化问题总结

解决python2.7 UnicodeDecodeError和UnicodeEncodeError问题

Python：让人头痛的UnicodedecodeError编码问题-彻底解决

UnicodeDecodeError:python的常见编码问题简单处理

python问题——UnicodeDecodeError: ‘ascii‘ codec can‘t ......not in range(128)

解决unicodedecodeerror问题

python django UnicodeDecodeError

python的UnicodeDecodeError异常

【Python+selenium】之奇怪问题总结

React Native 学习之问题总结

python学习总结---学习交流群里的问题总结

Python学习中遇到的问题总结

Python学习总结之argparse模块的使用

Python 学习笔记之 03 - 函数总结

Python学习笔记之函数参数总结

python学习之爬虫理论总结

python学习之爬虫项目ScrapyProject总结

Python基础学习之异常操作总结

pathon的转码错误问题 UnicodeDecodeError

Python 安装编码报错 - UnicodeDecodeError

Python读取文件出现UnicodeDecodeError

Python读取内容UnicodeDecodeError错误

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)