版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/c_air_c/article/details/82428944
–爬虫之Xpath使用
准备工具:
Google Chrome
xpath-helper.crx
- 百度网盘链接:https://pan.baidu.com/s/15XqmdvWgxNqC7Cvd_aPuOw
- 密码:ixsh
使用:将xpath-helper.crx
拖放到浏览器chrome://extensions/
下,即可完成安装。Ctrl+Shift+X
快捷键调用
Xpath
语法
xpath helper
插件:帮助我们从elements
中定位数据-
- 选择节点(标签)
/html/head/meta
:能够选中html
下的head
下的meta
标签
//
:能够从任意节点开始选择
//li
:当前节点下的所有的li
标签
@
符号的用途
- 定位具体元素:
//div[@class = '']
a/@href
:选择a
的href
的值
- 定位具体元素:
- 获取文本
/a/text()
:获取a
标签下的文本内容
- 选择节点(标签)
lxml
使用
安装
pip install lxml
使用
from lxml import etree element = etree.HTML("html字符串") element.xpath("规则")