一、概况
前两篇我们把网络库Requests大概的用法学了一遍,把网站上的每页数据请求下来是爬虫的第一步,接下来我们就需要把每页上对我们有用数据进行提取。提取数据的方式有很多,比如说正则、xpath、bs4等,我们今天就来学一下xpath的语法。
这是小编准备的python学习资料,加小编python学习群:696541369即可免费获取拉!
二、Xpath
- 什么是xpath?
- XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
- 什么是xml? W3School
- XML 指可扩展标记语言(EXtensible Markup Language)
- XML 是一种标记语言,很类似 HTML
- XML 的设计宗旨是传输数据,而非显示数据
- XML 标签没有被预定义。您需要自行定义标签。
- XML 被设计为具有自我描述性。
- XML 是 W3C 的推荐标准
- XML和 HTML 的区别
三、准备
pip3 install lxml
四、用法
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
案例
我们发现最后打印的值都是一个列表对象,如果想取值就可以遍历列表了。
选取未知节点 XPath 通配符可用来选取未知的 XML 元素。
案例
谓语的一些路径表达式
案例
五、函数
案例
以上是Xpath一些常用用法,如果想了解更多的语法可以参考 W3School
六、浏览器插件
我们可以在浏览器安装一些xpath插件,方便我们进行解析数据。
- Chrome插件 XPath Helper
- Firefox插件 XPath Checker
去浏览器扩展下载这些插件,会在浏览器左上角看到图标,如下
插件
大概使用方法:
使用方法
七、总结
我们把网络库、解析库,接下来我们就可以开始真正的爬虫之旅,后续的文章打算用Requests和Xpath爬取几个网站。