Cookie总结

Cookie

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

1.Opener

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，传入的参数仅仅是url，data，timeout。

如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

2.Cookielib

cookielib模块的主要作用是提供可存储cookie的对象，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

Python3中，cookielib改成 http.cookiejar，方法里也需改成 http.cookiejar

1）获取Cookie保存到变量

    Python代码  
  
import urllib.request  
import http.cookiejar  
#声明一个CookieJar对象实例来保存cookie  
cookie = http.cookiejar.CookieJar()  
#利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器  
handler=urllib.request.HTTPCookieProcessor(cookie)  
#通过handler来构建opener  
opener = urllib.request.build_opener(handler)  
#此处的open方法同urllib.request的urlopen方法，也可以传入request  
response = opener.open('http://www.baidu.com')  
for item in cookie:  
    print('Name = '+item.name)  
    print('Value = '+item.value)  

结果：

    Java代码  
  
Name = BAIDUID  
Value = B07B663B645729F11F659C02AAE65B4C:FG=1  
Name = BAIDUPSID  
Value = B07B663B645729F11F659C02AAE65B4C  
Name = H_PS_PSSID  
Value = 12527_11076_1438_10633  
Name = BDSVRTM  
Value = 0  
Name = BD_HOME  
Value = 0  

2）保存Cookie到文件

在上面的方法中，我们将cookie保存到了cookie这个变量中，如果我们想将cookie保存到文件中该怎么做呢？这时，我们就要用到FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

    Python代码  
  
import http.cookiejar  
import urllib.request  
   
#设置保存cookie的文件，同级目录下的cookie.txt  
filename = 'cookie.txt'  
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件  
cookie = http.cookiejar.MozillaCookieJar(filename)  
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器  
handler = urllib.request.HTTPCookieProcessor(cookie)  
#通过handler来构建opener  
opener = urllib.request.build_opener(handler)  
#创建一个请求，原理同urllib2的urlopen  
response = opener.open("http://www.baidu.com")  
#保存cookie到文件  
cookie.save(ignore_discard=True, ignore_expires=True)  

3）从文件中获取Cookie并访问

那么我们已经做到把Cookie保存到文件中了，如果以后想使用，可以利用下面的方法来读取cookie并访问网站

    Python代码  
  
import http.cookiejar  
import urllib.request  
   
#创建MozillaCookieJar实例对象  
cookie = http.cookiejar.MozillaCookieJar()  
#从文件中读取cookie内容到变量  
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)  
#创建请求的request  
req = urllib.request.Request("http://www.baidu.com")  
#利用urllib2的build_opener方法创建一个opener  
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))  
response = opener.open(req)  
print(response.read())  

如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie，那么我们提取出这个cookie文件内容，就可以用以上方法模拟这个人的账号登录百度

例子：

创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。

如登录之后才能查看的成绩查询呀，本学期课表呀等等网址，模拟登录就这么实现啦

    Python代码  
  
import urllib  
import urllib2  
import cookielib  
   
filename = 'cookie.txt'  
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件  
cookie = cookielib.MozillaCookieJar(filename)  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
postdata = urllib.urlencode({  
            'stuid':'201200131012',  
            'pwd':'23342321'  
        })  
#登录教务系统的URL  
loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'  
#模拟登录，并把cookie保存到变量  
result = opener.open(loginUrl,postdata)  
#保存cookie到cookie.txt中  
cookie.save(ignore_discard=True, ignore_expires=True)  
#利用cookie请求访问另一个网址，此网址是成绩查询网址  
gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'  
#请求访问成绩查询网址  
result = opener.open(gradeUrl)  
print result.read()  

===========================================================================================

使用Cookie模拟登录——获取电子书下载链接

(登录后获取cookie，然后将cookie放入header中传入请求)

我们尝试使用以下登录之后的Cookie：

使用Cookie有两种方式:

1、直接将Cookie写在header头部

# coding=utf-8
import requests
from bs4 import BeautifulSoup

#登录后cookie
cookie = '''cisession=19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60;CNZZDATA1000201968=1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031;Hm_lvt_f805f7762a9a237a0deac37015e9f6d9=1482722012,1483926313;Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9=1483926368'''

header = {    
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',    
'Connection': 'keep-alive',       
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',  
'Cookie': cookie}

url = 'https://kankandou.com/book/view/22353.html'
wbdata = requests.get(url,headers=header).text
soup = BeautifulSoup(wbdata,'lxml')
print(soup)

2、使用requests插入Cookie

# coding=utf-8
import requests
from bs4 import BeautifulSoup

#登录后cookie
cookie = {
"cisession":"19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60",          
"CNZZDATA100020196":"1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031",          
"Hm_lvt_f805f7762a9a237a0deac37015e9f6d9":"1482722012,1483926313",          
"Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9":"1483926368"
}

url = 'https://kankandou.com/book/view/22353.html'
wbdata = requests.get(url,cookies=cookie).text
soup = BeautifulSoup(wbdata,'lxml')
print(soup)

。。。

猜你喜欢