在工作中遇到问题就是用lxml匹配出来,得出的结果是
[<Element div at 0x2d616dd48c8>]
我需要把他格式化出来,然后用lxml的一个方法
from lxml import html
content = html.tostring(content[0])
得出格式化后的结果,是bytes类型,我们需要转str
content = str(content, encoding = "utf-8")
#转str后发现不是中文,我们需要python 再带的库html 转一下就ok
import html
content = html.unescape(content)
就这样轻松格式化出想要的内容了。如有错误请指出,谢谢。