案例爬取(其二):Error:11004、状态码200但是返回None——自己坑自己的步骤

第二步:进行具体正文的提取,此时不止出现前面的代理问题:Error:10060,还时长出现Error:11004,和返回None

简直一脸懵逼,他妈的又全是英文,还不仅python错误,连window的各种错误都出来了!!!!!!!!!!!!!!!!!!!!


在这里插入图片描述

各种查找都没有找到解决方法!!!

各种尝试中发现当我一个一个输入url时,成功了!!!!
但是进行遍历提取时却是状态码200 和返回None!!!

难道要一个一个的自行传递url,一遍一遍的运行,绝对不可能!!!

真香!!一个一个的传递url,最终到第3个,实在受不了,于是开始再次检查。
多方查找,既然状态码200正常,那么就只能是后面的内容有问题了,结果没有发现。

没有办法的我就只能向前找,结果错误竟然在前面,200的状态码,错误竟然在前面!!!

奇怪的问题来了:
在这里插入图片描述
在这里插入图片描述
两个url进行判断为不相等,一开始还以为是数据结构不一致,结果加了str()没有用,加上‘’也没有用。
最后查看txt文档时终于想起来,原来是在写入txt时为了好看,进行了换行,因而提取的url中也会存在换行符!!!

2020年4月28日:
对于个人需求的数据来说,有时觉得爬虫十分鸡肋,因为爬取数据就是希望使用大量数据,但是基本上都会碰到ip限制,但是购买ip就要花钱,相当于就是在买数据,为什么不省下学习时间来直接购买要的数据,价格相差也不大甚至更低,或许收获就是学了知识,但是知识本身就是够用就行并不完全是为了学习而学习。

2020年5月1日:
每次到第40000页后都是没有内容,其header为
{‘Server’: ‘nginx/1.6.0’, ‘Date’: ‘Fri, 01 May 2020 02:02:56 GMT’, ‘Content-Length’: ‘0’, ‘Connection’: ‘close’, ‘Set-Cookie’: ‘JSESSIONID=A5EA74140CEDF8C271412C6D3BC21E30; Domain=.fae.cn; Path=/; HttpOnly’, ‘Content-Language’: ‘en-GB’}

可见’Content-Length’: '0’即没有内容,可能是我爬取有问题?
但是网页中直接跳转尾页时也没有内容,或者网站宣传的100万份裁判文书是假的??????

尾页跳转内容:
在这里插入图片描述

原创文章 62 获赞 29 访问量 7万+

猜你喜欢

转载自blog.csdn.net/python__reported/article/details/105877110