BeautifulSoup通过lxml解析页面造成信息丢失的解决方法

其他 2018-07-07 22:44:05 阅读次数: 0

在爬新浪财经的股吧评论的时候，使用第三方解析器lxml时出现了信息丢失的问题：

1 bsObj = BeautifulSoup(page, "lxml")

通过search，发现是通过lxml来解析页面时出现的问题。因此换用另一个解析器：html5lib，此解析器速度较慢，但容错性最好。

1 bsObj = BeautifulSoup(page, "html5lib")

关于各种解析器的介绍可以看一下Beautiful Soup的中文文档

猜你喜欢

转载自www.cnblogs.com/taolusi/p/9278646.html

BeautifulSoup通过lxml解析页面造成信息丢失的解决方法

【Python】在Pycharm中安装爬虫库requests , BeautifulSoup , lxml 的解决方法

关于Python BeautifulSoup 爬取网页信息中文乱码解决方法

SPI造成错误位移的解决方法

Python爬虫解析网页的三种方法，lxml、BeautifulSoup、re案例！

安装tushare时报错：No module named 'lxml'的解决方法

关于导入lxml，出现image not found的解决方法。

Could not find a version that satisfies the requirement lxml解决方法

TextBox TextMode="Password" 不能赋值,页面回滚时数据会丢失的解决方法

Vue中使用vuex在页面刷新之后状态不丢失的解决方法

使用BeautifulSoup解析页面

关于java，js数字计算丢失精度问题解析及解决方法

mfc140.dll丢失的解决方法，解析mfc140.dll这个文件

ZeroMQ之消息丢失解决方法

nginx导致的session丢失的解决方法

ConnectionString密码丢失的解决方法

React中this丢失的解决方法

JLink固件丢失解决方法

mysql 数据丢失更新的解决方法

JavaScript中的this绑定丢失及解决方法

防止数据丢失的解决方法

关于react中this丢失的解决方法

缺少/丢失dll的解决方法汇总

使用BeautifulSoup和lxml解析网页中的元素（一）

Python3 HTML数据解析(lxml/BeautifulSoup/JsonPath)

beautifulsoup 解析html方法

oracl数据表造成死锁，解决方法

php并发对MYSQL造成压力的解决方法

Android中Handler造成内存泄露解决方法

Ubuntu下Chrome造成系统假死的解决方法

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)