状态码不是200解决方案
以他为例子,进行爬取内容
内容出现,至于有什么用,那是以后的事
但是有的时候,会访问错误,就是状态码不是200,是其他值,这时就需要我们进行其他操作了.
为了找个状态码不是200的找个半天......
终于,出现了,觉得国外的不容易连接...
首先我们连接失败,肯定是有原因的.
我们输入r.request.headers查看头部信息
这里我们访问网址时,我们的名字叫做"python-requests/2.26.0",所以网站判断我们是爬虫,拒绝我们的访问.
通过上一篇我们知道.网站就是通过来源审查判断的,上一篇
那么我们以前也学了通过某种方式,来替换我们的头部信息
通过重新创建键值,来替换我们的头部信息,这样就可以访问成功了
此时还可以看一下我们的头部信息
看,已经被替换了.至于为什莫换成"Molila/5.0" 还不太清楚,有机会了,换成其他的也试试..
那么现在我们通过text可以获取网页内容了