Xpath匹配之避坑指南

其他 2021-03-23 00:44:44 阅读次数: 0

本文总结了一些日常碰到了的xpath的坑，为了避免大家也在同样的地方浪费时间，特广而告之。引用转载请声明出处！

目录

一、Xpath匹配查询工具

二、路径中存在tbody导致匹配为空

三、交错标签的匹配

四、跳过某个序号的标签进行匹配

五、匹配项标签有差异，匹配时个数不一致

六、不定时更新...

一、Xpath匹配查询工具

Chrome上有个插件叫“XPath Helper”，装上后，按“ctrl+shift+x”就可以召唤和关掉，使用很方便，方便调试xpath路径写的是否正确。

二、路径中存在tbody导致匹配为空

当匹配路径中存在tbody时，会匹配到空列表，原因是浏览器对 xpath 进行了 “优化” ，导致从浏览器里直接复制出来的 xpath 放在python中运行匹配不到。例如下面两种情况都是路径中存在tbody：

XXX = XXXX.xpath("//div[@class='tabset']/table[2]/tbody")

XXX = XXXX.xpath("//div[@class='tabset']/table[2]/tbody/tr/td[2]/a/text()")

这时候，只要删掉路径中的“tbody”即可。

三、交错标签的匹配

对于交错的标签，有两种解决办法的思路。（1）可以绕开这个标签，找其他的标签或者属性来匹配。（2）可以把两类分开匹配，a类匹配完了，再匹配b类的，合在一起即可。

四、跳过某个序号的标签进行匹配

比如这里想跳过第一个<tr>标签，可以用到position>1。

XXX.xpath("//tr[position()>1]/td[1]/input/@value").extract()

五、匹配项标签有差异，匹配时个数不一致

有时候，有些网站会给某些条目加上“NEW”，“SALE”等标签，导致网页上同样的表格中的条目对应的标签数量不一致。例如下图中的情况：

这时候要想办法绕开这个多出来的“span”标签。

XX.xpath("tr/td[2]/span/a/@href").extract()
# 绕过span标签
XXXX.xpath("tr/td[2]//a/@href").extract()

六、不定时更新...

整理不易...

猜你喜欢

转载自blog.csdn.net/Ryan_lee9410/article/details/107144213

Xpath匹配之避坑指南

项目开发之避坑小指南

租房避坑指南

thymeleaf避坑指南

WebMvcConfigurationSupport 避坑指南

避坑指南

Python避坑指南

SQL避坑指南之NULL值知多少？

Pytorch安装避坑指南

20190401作业避坑指南

WebMvcConfigurer 与 WebMvcConfigurationSupport避坑指南

alpine使用的避坑指南

Linux Shell “避坑指南”

python入门避坑指南

QLineF的使用及避坑指南

MSELoss详解+避坑指南

Python避坑指南（续）

.NET+PostgreSQL实践与避坑指南

生活用品避坑指南

H5直播避坑指南

转行产品经理，必看的避坑指南！

常见的 SQL 避坑指南！

IT小公司避坑及生存指南

MySQL：left join 避坑指南

常见 SQL 避坑指南

BLE传统广播避坑指南

Serverless 时代前端避坑指南

接口自动化避坑指南

从单体迈向 Serverless 的避坑指南

Go : 使用避坑指南 path 包

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)