学爬虫的一些小知识(三)

  很多页面是需要登陆之后才可以看到，输入用户名和密码登陆之后，怎么样才能保持登陆的状态。才能访问登陆之后才能看到的页面？通过会话和Cookies可产生这样的效果。他们是用于保持HTTP连接状态的技术。会话在网站的服务器，用了保存用户的会话信息。Cookies在客户端，即浏览器端，有了Cookies，浏览器在下次访问网页时会自动附带上它发送给服务器，服务器通过识别Cookies并鉴定出是哪个用户，后再判断用户是否是登陆状态，然后返回对应的响应。我们可理解为Cookies里面保存了登陆的凭证，在下次请求携带Cookies发送请求而不必重新输入用户名，密码等信息重新登陆。故在爬虫中，有时处理需要登陆才能访问的页面时，我们一般会直接将登陆成功后获取的Cookies放在请求头里面直接请求。而不必重新模拟登陆。

1.会话
在Web中，会话对象用来存储特定用户会话所需的属性及配置信息。所以，当用户在应用程序的Web页之间跳转时，存储在会话对象中的变量将不会丢失
而是在整个用户会话中一直存在下去。当用户请求来自应用程序的Web页时，如果用户没有会话，则Web服务器将自动创建一个会话对象。当会话过期或被放弃后，服务器将终止该会话。
2.Cookies
Cookies指某些网站为了辨别用户身份，进行会话跟踪而存储在用户本地终端上的数据
代理：指代理服务器，为本机和服务器之间搭建了一个桥。本机通过代理服务器像服务器发送请求，代理可以访问一些平时不能访问的站点。访问一些单位或团体内部资源：比如教育网内地址段免费代理服务器。可用于对教育网开放的各类FTP下载上传，以及各类资料查询共享服务。提高访问速度，爬虫使用代理就是为了隐藏自身IP,防止自身的IP被封锁。

这些都是我学爬虫做的一些小笔记，内容大多数是参数《pthon3 网络爬虫实战》这本书。这本书编写的很好，很感谢作者，如果有兴趣的同学可以去学学这本书

学爬虫的一些小知识(三)

猜你喜欢