爬虫出现空列表或者长度为0是怎么回事?

 今天来总结一下在爬虫遇到的特殊情况,利用正则或者xpath来匹配提取数据,偶尔会发现可以找到这个对象,却无法提取它的下一阶层的数据,这是怎么一回事?

自己分析结果有以下几种:

(1)自己的匹配写错了,怎么可能,我再三检查,对的不能再对了,排除这种情况,毕竟是本宝宝写的,谁还没有点小自信了。

(2)可能是User-Agent浏览器版本不兼容,遇到这种情况要注意了,先检查一下自己爬取的数据,看看是不是被注释了,这是一种简单反爬技术,哼,这能难倒我?天真!解决办法:1去掉User-Agent2更换IE的User-Agent,可惜我还是没能解决,那么就只能是第三种情况了

第二种情况如下:

<!--要爬取的内容-->

(3)百度个小婊砸,居然把我想要爬取的数据的div隐藏了:

 

在浏览器检查元素,可以清楚的看到自己想要爬取的数据,就在那就在那,看的见摸不着,再看看自己爬下来的数据,居然变成空的了,哼,今天本宝宝铁了心也要爬下来,我直接复制网页源代码还不行吗?

万万想不到啊,道高一尺魔高一丈,跟百度斗,果然我还是嫩啊,网页源代码下载下来居然还是空的,我的心情真是草泥马了,没办法,滋滋滋,再强大的网站也抵挡不了一下誓死要爬取的心,解决如下:

哎,主要自己太菜了,只能将要爬取的内容复制下来,然后提取,这真是一次失败的爬虫经历 !呜呜呜

猜你喜欢

转载自blog.csdn.net/lzz781699880/article/details/81133398