Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢ - 代码天地

Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

其他 2018-07-31 05:11:42 阅读次数: 0

# -*- coding:utf-8 -*-
import requests
import json
import time
import random
from lxml import etree


url = 'https://www.msra.cn/zh-cn/news/features/bma-20170207'
# 伪装成Mozilla浏览器，解决反爬虫
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
# 生成属性字典
headers = {'User-Agent': user_agent}
# 获取目标网站的HTML页面
response = requests.get(url, headers=headers)
# print(response.text)
a = response.content
selector = etree.HTML(a)
print(selector)

这是结果

Connected to pydev debugger (build 181.4445.76)
<Element html at 0x2492bb71248>
å¾®è½¯äºæ´²ç ç©¶é¢
茅娄聳茅隆碌
ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

之前使用python2.7遇到许多这样的编码问题，本以为转战3版本就不会遇见了。今天遇到的这个问题，找了挺久资料，终于找到解决方案：

把 response.content 改成 response.text ，这样问题就解决了。

原理：

resp.text返回的是Unicode型的数据。
resp.content返回的是bytes型也就是二进制的数据

因此如果我们想读取解析文本数据时，使用的是response.text。而想读取解析图片文件，往往使用的就是response.content

猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/81181946

Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

Python3.5+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

Python爬取网页遇到乱码怎么办？

python3.x+requests 爬取网站遇到中文乱码的解决方案

Python爬取数据过来结果是乱码怎么办？两种解决方案

python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！

遇到需要的登录的网站怎么办？学好python，用这3招轻松搞定

python爬取html中文乱码

喜欢抖音上面的音乐怎么办？用Python爬取音乐并分类放置文件夹

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

python3.6 安装Twisted出错怎么办

python3中用django下载文件，中文名乱码怎么办？

python爬虫19 | 爬虫遇到需要的登录的网站怎么办？用这3招轻松搞定！

vscode python文件注释乱码怎么办

python爬虫遇到IP被封的情况，怎么办？

【Python】遇到 from PIL import Image 报错怎么办？

python使用requests和BeautifulSoup爬取网页乱码问题

2021-7-3 爬网页22-爬取某小说保存到txt(python3.6，静态页面，requests.get，去除特定字符串）

python解决Requests中文乱码

爬取的文档突然中文全部乱码 - Python

jsp 中文乱码怎么办？

eclipse中文乱码怎么办

SecurecRT中文乱码怎么办？

Python3.6 爬取网页图片

第46讲：遇到动态页面怎么办？详解渲染页面爬取

Python写个爬虫碰到反爬了，怎么办那就动手破坏它！

python requests 乱码解决

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法

Python requests 爬取qq音乐URL

python requests 简单网页文本爬取

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)