利用xpath爬取贴吧时返回的列表为空的问题解决方法 - 代码天地

利用xpath爬取贴吧时返回的列表为空的问题解决方法

其他 2018-07-06 23:50:30 阅读次数: 0

最近在爬取贴吧过程中发现一个小问题，就是爬取好网页HTML信息后，进一步利用xpath爬取站内需要的链接时，返回结果一直是空列表，代码检查了4、5遍一点问题都没有，但就是返回空列表

class Spider(object):
	
	def extract_url(self,html):

		
		content=etree.HTML(html)
		result=content.xpath('//div[@class="threadlist_title pull_left j_th_tit "]//a[@rel="noreferrer"]/@href')
		print(result)

返回情况如下：

头都大了！！！

然后xpath爬取贴吧里的开头和结尾的一些内容发现都可以成功爬去到，才发现应该是HTML页面的问题导致没办法正常爬取数据。然后试着建了个HTML文档，把取到的HTML页面的源代码保存到里边一看…………

准备爬取的数据全是被注释了的……

知道问题后就好解决了，利用正则把源代码里的注释符修改，起不到注释的作用就好了

class Spider(object):

	def extract_url(self,html):
		html_new=html.replace(r'<!--','"').replace(r'-->','"')
		content=etree.HTML(html_new)
		result=content.xpath('//div[@class="threadlist_title pull_left j_th_tit "]//a[@rel="noreferrer"]/@href')
		print(result)

数据到手，之后愿意怎么发挥就怎么发挥就好了

猜你喜欢

转载自blog.csdn.net/weixin_42255200/article/details/80925328

利用xpath爬取贴吧时返回的列表为空的问题解决方法

关于python使用xpath爬取网页内容返回值为空列表的解决方法

爬贴吧返回链接列表为空

vue爬坑:常见问题解决方法记录汇总贴

springBoot上传文件时MultipartFile报空问题解决方法

爬虫爬取数据时，网页响应码返回404问题的解决方法

PHP5.4以上版本GBK编码下htmlspecialchars输出为空问题解决方法汇总

XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法

爬取贴吧

贴吧爬取

Ubuntu 下安装 Wine问题解决方法指南集合贴

问题解决：爬取京东商品信息返回网址而不显示内容

Mybatis查询数据，返回resultType="map"时，如果数据为空的字段，则该字段省略不显示问题解决方案

如何解决python xpath爬取页面得到空列表（语法都对的情况下）

利用爬虫爬取百度贴吧内容

MyEclipse问题解决方法

SERVICE问题解决方法

问题解决方法记录

SeLinux问题解决方法

Python爬取贴吧内容-南华大学贴吧为例

爬取贴吧页面

爬取贴吧图片

爬取贴吧数据

Python使用xpath爬取数据返回空列表解决方案积累

@ResponseBody 返回乱码问题解决方法之一

bitmapfactory.decodefile一直返回null的问题解决方法

kettle从hive取数乱码-问题解决方法（可下载改写驱动）

利用wkhtmltopdf(thead)将网页导出为pdf方法；以及存在表格图片被分页打断的问题解决方法

xpath定位元素返回列表为空

Pytorch关于GPU利用率不高的问题解决方法

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)