from lxml import etree
text ="""
这里是通过requests库的get方法或post方法获取的信息
"""
html = etree.HTML(text) #传入验证参数text,实例化出来一个html的对象
result = etree.tostring(html)#把HTML类实例化的对象传入进去,调用tostring()方法输出修正后的HTML
代码,但是结果是bytes类型。
print(result.decode('utf-8'))#或 str(result,encoding=‘utf-8’)
直接读取文本文件进行解析
from lxml import etree
html = etree.parse('./test.html',etree.HTMLParser()) #test.html是html文件,etree.HTMLParser(),解析器
result = etree.tostring(html)
print(result.decode('utf-8'))
具体使用;
from lxml import etree
html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li') 选取所有的li节点,是一个列表的形式
print(result)
print(result[0]) #获取一个对象
其中/用于获取直接子节点,//用于获取子孙节点。
文本获取
用xpath中的text()方法获取节点中的文本。
from lxml import etree
html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/text()')#这里解释这句匹配是什么意思,选取当前文档所有属性
class的值等于item-0的li标签里面的文本内容
print(result)
'//li[@class="item-0"]/a/text()' a的文本内容
其实@符号也能获取
from lxml import etree
html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)
通过@href即可获取节点的href属性。注意:此处和属性匹配的方法不同,属性匹配是
中括号加属性后和值来限定某个属性,如【@href=‘kink1.html’】,而@href获取节点的某个属性