爬虫之Xpath语法学习

1.xpath:是一门在XML和HTML文档中查找信息的语言，可以用来在XML和HTML文档中对元素和属性进行遍历。

在爬虫中需要下载lxml库

2.语法

/ 代表从根节点选取；

// 代表选取所有的孩子

. 选取当前节点

.. 选取当前节点的父节点

元素[@id="值"] 选取“元素”的id等于“值”的元素内容

text（）选择当前标记下的文字内容

@属性名：获取当前元素的该属性

元素.xpath():在该元素下找相应的（比如在指定元素中找A标签而不是在所有的代码中找a标签）

举例：

bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

3.先输入网址，爬取内容，对内容进行解析

4.在Chrome上安装插件XPath Helper，可以输入相关xpath语句进行输出内容，便于调试，减轻爬虫的测试，提高效率

安装差插件：

右上角（如图红圈）---点击更多工具----拓展程序，如图：

找到XPath Helper下载安装，有的版本直接勾选就行

发布了233 篇原创文章 · 获赞 20 · 访问量 3万+

私信关注