我的爬虫笔记(五)

 状态码不是200解决方案

以他为例子,进行爬取内容

内容出现,至于有什么用,那是以后的事

但是有的时候,会访问错误,就是状态码不是200,是其他值,这时就需要我们进行其他操作了. 

 为了找个状态码不是200的找个半天......

终于,出现了,觉得国外的不容易连接...

首先我们连接失败,肯定是有原因的.

我们输入r.request.headers查看头部信息

这里我们访问网址时,我们的名字叫做"python-requests/2.26.0",所以网站判断我们是爬虫,拒绝我们的访问.

 通过上一篇我们知道.网站就是通过来源审查判断的,上一篇

那么我们以前也学了通过某种方式,来替换我们的头部信息

通过重新创建键值,来替换我们的头部信息,这样就可以访问成功了

此时还可以看一下我们的头部信息

 

看,已经被替换了.至于为什莫换成"Molila/5.0" 还不太清楚,有机会了,换成其他的也试试..

那么现在我们通过text可以获取网页内容了

猜你喜欢

转载自blog.csdn.net/qq_53950686/article/details/119254097