RedisCrawlSpider爬虫遇到 `明威把`不能转换为汉字的解决办法 - 代码天地

RedisCrawlSpider爬虫遇到 `明威把`不能转换为汉字的解决办法

其他 2018-11-06 09:18:04 阅读次数: 0

版权声明：未经本人同意不得转载！ https://blog.csdn.net/yanpenggong/article/details/83279404

问题阐述

爬取网页时，正常情况下python3中能直接转化为utf-8，即所谓的汉字能够正常显示。所以即使网页中显示的是这种escape sequence，获取到之后能够显示正常，但是偶尔也不好使，不好使的情况下就会出现以下的charref状态：
明威把

解决方法

In [1]: from html.parser import HTMLParser
In [2]: HTMLParser().unescape("&#x660e;&#x5a01;&#x628a;")
Out[2]: '明威把'

原因解释

HtmlParser，顾名思义，是解析Html的一个工具。python自带的。

一、常用属性和方法介绍

HtmlParser是一个类，在使用时一般继承它然后重载它的方法，来达到解析出需要的数据的目的。

1.常用属性：

lasttag，保存上一个解析的标签名，是字符串。

2.常用方法：

handle_starttag(tag, attrs) ，处理开始标签，比如<div>；这里的attrs获取到的是属性列表，属性以元组的方式展示
　　　　handle_endtag(tag) ，处理结束标签,比如</div>
　　　　handle_startendtag(tag, attrs) ，处理自己结束的标签，如<img />
　　　　handle_data(data) ，处理数据，标签之间的文本
　　　　handle_comment(data) ，处理注释，之间的文本

如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了，第二步应该如何解析HTML呢？

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML

猜你喜欢

转载自blog.csdn.net/yanpenggong/article/details/83279404

RedisCrawlSpider爬虫遇到 `明威把`不能转换为汉字的解决办法

EX-Converter测试用例转换时遇到没有注册类 (异常来自 HRESULT:0x80040154 (REGDB_E_CLASSNOTREG))的解决办法

爬虫中遇到&nsbp的解决办法

keil 5的软件仿真遇到的问题：error 65: access violation at 0x40021000 : no 'read' permission的解决办法

爬虫遇到路径转换的解决方案

Python爬虫遇到URL错误解决办法大全

遇到 npm WARN npm npm does not support Node.js vx.x.x的解决办法

IE浏览器F12调试模式不能使用或报错以及安装程序遇到错误0x80240037的解决办法

【转载】Tomcat 7.0.3x 启动慢并且遇到StackOverflowError的异常的解决办法

公司入域电脑更新遇到 0x8024401c 解决办法

cocos creator 3.x遇到的一些问题和解决办法

爬虫遇到的小问题解决

\x编码转换为汉字

cas3.x单点登录老版本整合spring-boot2.x过程以及遇到的问题解决办法

scrapy爬虫中编写代码的时候遇到Error13的解决办法

爬虫遇到验证码必须要知道的解决办法（干货）

Python爬虫遇到重定向问题解决办法汇总

在使用Python爬虫时遇到解析错误解决办法汇总

在使用Python爬虫时遇到503 Service Unavailable错误解决办法汇总

Python爬虫时遇到SSL证书验证错误解决办法汇总

Python爬虫遇到法语é变成\u00e9

记录爬虫道路上遇到的各种坑01

0x01 初探爬虫

爬虫入门学习笔记 Day 5 + 记录遇到的小问题

scrapy爬虫遇到相对路径问题的解决

爬虫遇到IP访问频率限制的解决方案

python爬虫中遇到的问题以及解决方法

爬虫采集数据遇到验证码怎么解决？

爬虫_技术汇总及遇到问题的解决措施

Python爬虫时遇到连接超时解决方案

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)