学爬虫的一些小知识(三)

  很多页面是需要登陆之后才可以看到,输入用户名和密码登陆之后,怎么样才能保持登陆的状态。才能访问登陆之后才能看到的页面?通过会话和Cookies可产生这样的效果。他们是用于保持HTTP连接状态的技术。会话在网站的服务器,用了保存用户的会话信息。Cookies在客户端,即浏览器端,有了Cookies,浏览器在下次访问网页时会自动附带上它发送给服务器,服务器通过识别Cookies并鉴定出是哪个用户,后再判断用户是否是登陆状态,然后返回对应的响应。我们可理解为Cookies里面保存了登陆的凭证,在下次请求携带Cookies发送请求而不必重新输入用户名,密码等信息重新登陆。故在爬虫中,有时处理需要登陆才能访问的页面时,我们一般会直接将登陆成功后获取的Cookies放在请求头里面直接请求。而不必重新模拟登陆。

1.会话
在Web中,会话对象用来存储特定用户会话所需的属性及配置信息。所以,当用户在应用程序的Web页之间跳转时,存储在会话对象中的变量将不会丢失
而是在整个用户会话中一直存在下去。当用户请求来自应用程序的Web页时,如果用户没有会话,则Web服务器将自动创建一个会话对象。当会话过期或被放弃后,服务器将终止该会话。
2.Cookies
Cookies指某些网站为了辨别用户身份,进行会话跟踪而存储在用户本地终端上的数据
代理:指代理服务器,为本机和服务器之间搭建了一个桥。本机通过代理服务器像服务器发送请求 ,代理可以访问一些平时不能访问的站点。访问一些单位或团体内部资源:比如教育网内地址段免费代理服务器。可用于对教育网开放的各类FTP下载上传,以及各类资料查询共享服务。提高访问速度,爬虫使用代理就是为了隐藏自身IP,防止自身的IP被封锁。

这些都是我学爬虫做的一些小笔记,内容大多数是参数《pthon3 网络爬虫实战》这本书。这本书编写的很好,很感谢作者,如果有兴趣的同学可以去学学这本书

猜你喜欢

转载自blog.csdn.net/wg5foc08/article/details/88849041