BeautifulSoup通过lxml解析页面造成信息丢失的解决方法

在爬新浪财经的股吧评论的时候,使用第三方解析器lxml时出现了信息丢失的问题:

1 bsObj = BeautifulSoup(page, "lxml")

通过search,发现是通过lxml来解析页面时出现的问题。因此换用另一个解析器:html5lib,此解析器速度较慢,但容错性最好。

1 bsObj = BeautifulSoup(page, "html5lib")

关于各种解析器的介绍可以看一下Beautiful Soup的中文文档

猜你喜欢

转载自www.cnblogs.com/taolusi/p/9278646.html