爬虫中遇到的编码问题 - 代码天地

爬虫中遇到的编码问题

其他 2018-12-02 06:21:03 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Totoro1745/article/details/80141753

给大一的小朋友准备了爬虫任务，又准备了一个比较坑的网站，不过终于解决了问题，顺带涨了知识~

爬取过程

爬取数据时发现数据乱码，如图所示
此处输入图片的描述
通过获取文本编码格式,发现text编码格式为iso-8859-1

import requests
w = requests.get("http://58921.com/alltime/2013", timeout=10)
print w.encoding

再返回该网站查看，发现网站header头没有指定编码，如图：
此处输入图片的描述

解决方法

所以针对以上的问题，编码格式的修正方法如下：

# 这样就不乱码
w = requests.get("http://58921.com/alltime/2013", timeout=10)
html = w.content
print html


# 也可以这样做
w = requests.get("http://58921.com/alltime/2013", timeout=10)
w.encoding = 'utf-8'
html = w.text
print html

此处输入图片的描述

小知识

request中输出content和text的区别：

text返回的是Unicode型的数据。
content返回的是bytes型也就是二进制的数据。
也就是说，在使用r.content的时候，已经自带了如下转换

html = bytes(bytearray(html, encoding='utf-8'))

content-type解析

在此链接中有详细说明，可以参考：https://www.cnblogs.com/ajianbeyourself/p/4592798.html

猜你喜欢

转载自blog.csdn.net/Totoro1745/article/details/80141753

爬虫中遇到的编码问题

爬虫遇到的编码问题

爬虫-遇到Unicode编码问题

爬虫过程中遇到的编码解码问题

开发中遇到的编码问题

爬虫学习中遇到的问题

python3中编解码、进制、字节、bytes及爬虫中经常遇到的编码问题的总结

JavaWeb中遇到的字符编码问题

python爬虫中遇到的假死问题

运行python爬虫代码中遇到的问题~

【爬虫】编码问题总结

爬虫编码问题

爬虫遇到的问题1

写爬虫遇到的问题

爬虫遇到的问题i

爬虫遇到乱码问题！

爬虫遇到的小问题

关于在SSM中遇到的一些编码问题

python爬虫中遇到的问题以及解决方法

【爬虫Practice】学习过程中遇到的问题

solr迁移遇到的编码问题

redisson hincrby 遇到的编码问题

python爬虫笔记--编码问题

解决爬虫中文的编码问题

Python网络爬虫遇到的问题

爬虫遇到重定向问题

爬虫遇到几个奇怪问题

PHP编写爬虫遇到的问题

爬虫小问题之以为是编码问题，却是headers中参数问题

关于近期工作中遇到的在java编码过程中存在的开发规范问题总结

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)