当页面编码使用utf-8编码时，如何转换成中文？ - 代码天地

当页面编码使用utf-8编码时，如何转换成中文？

其他 2018-05-07 15:39:05 阅读次数: 13

url = 'http://www.sac.net.cn/'
# 伪装成Mozilla浏览器，解决反爬虫
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
# 生成属性字典
directory = {'User-Agent': user_agent}
# 获取目标网站的HTML页面
response = requests.get(url, headers=directory)
# 对HTML进行解析, .content 属性可以将tag的子节点以列表的方式输出
bs = BeautifulSoup(response.text, 'html.parser')
#print response.text
title = bs.find('title').string
print title

这是一开始的代码，当运行的时候就会出现一堆乱码。类似于这样：<title>è¡ä¸å¨æ-ä¸å½è¯å¸ä¸åä¼</title>

查看了网页之后才知道这是因为网页是使用的utf-8编码的。如果使用的是谷歌浏览器，直接点击F12即可查看。否则直接右键后检查元素或者使用查看网页的源代码。

在网页的源代码的头文件最上面，我们可以看到文本的格式。charset=utf-8

所以在使用爬虫爬取内容时，应该在获取到网页的HTML页面和使用bs4解析页面之间，添加一句response.encoding='utf-8' 目的是告诉编辑器这段文本是以utf8方式编码所以要以utf8方式解码。

添加后编译成功，就会出现想要的页面了。

猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/80156742

当页面编码使用utf-8编码时，如何转换成中文？

字符串转换成UTF-8编码

python在gbk编码转换成utf-8时乱码问题

C# utf-8编码时转换成shift-jis时出现乱码问题的处理

python入门：简单模拟登陆时UTF-8转换成GBK编码

编码encode，表现形式是转换成 bytes，实际转换成gbk或者utf-8

python入门：UTF-8转换成GBK编码

将iso-8859-1编码的字符串转换成utf-8

将中文转换成utf-8的命令

php识别中文编码并自动转换为UTF-8

C#将字符转换成utf8编码 GB321编码转换

使用 idHTTP 获取 UTF-8 编码的中文网页

解决Qt中文乱码以及汉字编码的问题(UTF-8/GBK)——ubuntu环境设置默认是utf-8，文件编码可使用Encodersoft批量转换

\r\n 如何转换成utf-8格式的，在jsp页面中正常显示换行

redis存储中文UTF-8编码

js把2字节unicode编码转换成utf8编码

java 编码转换（GBK>>UTF-8）

MFC UTF-8与Unicode编码转换

utf-8编码转换问题

Java —— UTF-8编码转换

UTF-8编码

utf-8编码等

Python3:UTF-8编码字符串转换中文、Unicode编码

unicode编码和utf-8编码相互转换

Scrapy爬虫框架抓取中文结果为Unicode码，如何转换UTF-8编码的解决办法

python 使用 UTF-8 编码

字符编码知识：Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的？

UTF-8转换成GBK

字符串转换成UTF-8

linux下使用iconv命令转换gbk编码为UTF-8编码

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)