获取标签全部文本的方式 - 代码天地

获取标签全部文本的方式

其他 2018-08-12 05:26:21 阅读次数: 0

1.获取最外层标签，遍历内部所有的子标签，获取标签文本

选择贴吧小说吧中的一个为例链接为 https://tieba.baidu.com/p/5815118868?pn=1

#找到指定类名的div标签 该标签内为贴吧内容和作者的集合体
div_list = response.xpath('//div[@class="l_post l_post_bright j_l_post clearfix  "]')

#遍历内部所有子标签
for div in div_list:
    author = div.xpath('.//div[@class="louzhubiaoshi_wrap"]').extract()
    print(author)

2.正则去掉标签，re.compile.sub()

remove = re.compile('\s')
douhao = re.compile(',')
content = ''
for string in content_list:
    string = re.sub(remove,'',string)
    string = re.sub(douhao,'',string)
    print(string)

3./text()获取标签的文本 //text() 获取标签以及子标签的文本

content_list = div.xpath('.//div[@class="d_post_content j_d_post_content "]//text()').extract()

4.使用xpath('string(.)') ,这种方式来获取所有文本

content = div.xpath('.//div[@class="d_post_content j_d_post_content "]').xpath('string(.)').extract()[0]+'\n'

猜你喜欢

转载自blog.csdn.net/weixin_42660771/article/details/81460143

获取标签全部文本的方式

获取标签内部全部文本的几种方式

获取标签内全部文本的几种方式

Python 获取网页标签中的全部文本的几种方法

jQuery获取兄弟标签的文本

selenium获取标签中的文本

如何让ECharts坐标轴文本标签全部显示？

jsoup获取标签下的文本（去除子标签的） jsoup获取标签下的文本（去除子标签的）

dom节点获取文本的方式

C#/.NET获取网页中全部图片Img标签

JS-内部爬虫-获取网页内全部`img`标签

layUI富文本编辑获取返回来的全部参数

jquery获取非子标签里的文本内容

获取html标签包裹的文本内容

爬虫------获取指定标签内的文本

js通过获取标签文本的方法

html 文本解码 xpath 获取html标签

requests 获取文本标签 HTML 内容

【xpath】获取某标签下的所有子标签的文本

从html文本中获取img标签的src、a标签的href内容

HashMap的三种获取全部key的方式

JavaScript获取标签的六种方式

获取BDC 消息文本的2种方式

Mybatis全部标签

截取a标签，获取a标签href 中的链接，获取，href 中的文本值，替换

selenium 获取不了标签文本的解决方法

获取<a>标签点击事件的当前对象，改变文本值

如何获取textarea标签里面的文本在线等回复

xpath 获取指定标签后的文本内容

java过滤html标签获取纯文本信息

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)