1.xpath:是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历。
在爬虫中需要下载lxml库
2.语法
/ 代表从根节点选取;
// 代表选取所有的孩子
. 选取当前节点
.. 选取当前节点的父节点
元素[@id="值"] 选取“元素”的id等于“值”的元素内容
text() 选择当前标记下的文字内容
@属性名:获取当前元素的该属性
元素.xpath():在该元素下找相应的(比如在指定元素中找A标签而不是在所有的代码中找a标签)
举例:
bookstore | 选取 bookstore 元素的所有子节点。 |
/bookstore | 选取根元素 bookstore。 注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! |
bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素。 |
//book | 选取所有 book 子元素,而不管它们在文档中的位置。 |
bookstore//book | 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 |
//@lang | 选取名为 lang 的所有属性。 |
3.先输入网址,爬取内容,对内容进行解析
4.在Chrome上安装插件XPath Helper,可以输入 相关xpath语句进行输出内容,便于调试,减轻爬虫的测试,提高效率
安装差插件:
右上角(如图红圈)---点击更多工具----拓展程序,如图:
找到XPath Helper下载安装,有的版本直接勾选就行