xpath取出某个标签下多个标签的所有文本信息几种方法 - 代码天地

xpath取出某个标签下多个标签的所有文本信息几种方法

其他 2019-01-30 17:00:52 阅读次数: 0

爬虫爬取数据有时候我们需要爬取多个标签的文本内容，或者需要保留标签属性，就要连同标签一起拿下来。你可以写正则，今天我介绍一种用xpath爬取的方法。
下边第一种方法就可以连同HTML标签一起爬下来，后两种能爬取所有文本信息，但没有了标签属性：
①
第一种方法可以取出某个标签内的HTML字符串，包含各种标签属性，输出的结果就是网页正常显示的文章部分的HTML。

 html_content3 = requests.get(details_url).text
    html = etree.HTML(html_content3)
    # content=html.xpath('//div[@class="article-entry"]')[0].xpath('string(.)').strip()#得到其中的所有文本信息，但没有了标签属性。
    # 先取出包含文章主体的标签
    contents = html.xpath('//div[@class="article-entry"]')[0]
    # 取出来的是个element对象，需要给他转换成字符串
    name1 = etree.tostring(contents, method='html')
    # 转成字符串后中文不能正常显示，需要再对其进行解析
    name2 = HTMLParser().unescape(name1.decode())
    content = name2

②

welfare = response.xpath('//div[@class="t1"]').xpath('string(.)').extract()[0]

③

welfare = response.xpath('//div[@class="t1"]//text()').extract()[0]

猜你喜欢

转载自blog.csdn.net/ITcainiaoyizhan/article/details/85848272

xpath取出某个标签下多个标签的所有文本信息几种方法

xpath取出某个标签下多个标签的所有文本信息三种方法

Python——XPath提取某个标签下所有文本

xpath string()标签下所有文本

【xpath】获取某标签下的所有子标签的文本

xpath获取当前标签下的所有文本

利用xpath提取标签下所有文本

python xpath获取一个标签下的所有文本内容（含子标签）

用xpath获取指定标签下的所有text

xpath提取多个标签下的text

如何获取某个定位或者某个标签下的所有元素【WebUI自动化测试】

Xpath提取一个标签里的所有文本

python爬虫练习之爬取豆瓣读书所有标签下的书籍信息

实现多个标签页之间通信的几种方法(sharedworker)

Python 获取网页标签中的全部文本的几种方法

设置标签文本内容的几种方法（js jq）

a标签下载多个文件

xpath提取包含标签的所有文本内容 - xpath常用语法汇总

爬取网站页面所有a标签下的href属性

HTML提取所有div标签下的所有及下子标签的内容

WordPress实现点击标签云中的某一标签，就展示出此标签下的所有文章

xpath 所有子标签text

XPath匹配含有指定文本的标签

阻止a标签的默认行为有哪几种方法

jsoup获取标签下的文本（去除子标签的） jsoup获取标签下的文本（去除子标签的）

wordpress统计某个标签下的文章总数

获取标签下子标签的方法

js往标签下插入标签的方法

JS 给li标签下所有a标签添加点击事件并添加和删除样式

a标签调用js的几种方法

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)