潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记） - 代码天地

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）

其他 2018-09-15 09:16:02 阅读次数: 0

# -*- coding: utf-8 -*-
# 斌彬电脑
# @Time : 2018/9/15 0015 4:52

#cookie 是服务器发给浏览器的特殊信息
# 可以理解为一个临时通行证
# 以 json 形式存放
# name:   cookie 的名称
# value:  coikie 的值
# domain:  可以使用此 cookie 的域名
# path:  可以使用此 cookie 的页面路径
# expires/Max-Age : cookie 的超时时间  默认是 session ，当浏览器关闭时失效
# secure :  设置是否只能通过 https 来传递此条 cookie


#  豆瓣登录
# 抓包 按F12，在输入账号，密码框中输入相应值后，点登录，
#  找到 302 页面跳转，这时所需要的数据就在这里 login

import requests
from lxml import etree


class DoubanSpider():
    def __init__(self,us,ps):
        self.session = requests.session()
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'}
        self.login_url = 'https://accounts.douban.com/login'
        self.us = us
        self.ps = ps

    def start_res(self):
        data = {
            'source': 'movie',
            'redir': 'https: // movie.douban.com / top250',
            'form_email': self.us,
            'form_password':self.ps,
            'login': '登录'
        }

        data2 = {
            'source': 'movie',
            'redir': 'https: // movie.douban.com / top250',
            'form_email': self.us,
            'form_password': self.ps,
            # ‘captcha - solution: input('--->>')
            # captcha - id: PwPK7lqB1EZNJMqYIkvzhVlM:en
            # login: 登录
        }
        res = self.session.post(self.login_url, data=data, headers = self.headers).content.decode()
        self.login_res(res)

    # 登录成功后获取页面内容
    def login_res(self,res):
        html = etree.HTML(res)
        # 如果登录成功，r 列表中有值，否则为空列表
        r = html.xpath( '//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()' )
        if r ==[]:
            print('登录失败')
        else:print('登录成功,当前账号为：%s' %r[0])

　　

当要输入验证码时，要提交的值为data2，

其中 captcha - solution 的值为验证码

captcha - id 在页面源码中 ctrl + f 搜索

用 xpath 找到节点，可取其值

猜你喜欢

转载自www.cnblogs.com/gdwz922/p/9649784.html

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）

潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)

潭州课堂25班：Ph201805201 爬虫高级第十三课代理池爬虫检测部分 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第十二课点触验证码二 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫基础第十一课点触验证码 (课堂笔记）

潭州课堂25班：Ph201805201 第十三课文件 (课堂笔记)

潭州课堂25班：Ph201805201 并发（通信）第十三课 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第十二课 Scrapy-redis分布项目实战 (课堂笔记)

潭州课堂25班：Ph201805201 django 项目第十三课短信验证码后台的实现 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）

c潭州课堂25班：Ph201805201 MySQL第三课 (课堂笔记)

潭州课堂25班：Ph201805201 redis第三课 (课堂笔记)

潭州课堂25班：Ph201805201 第十六课正则 (课堂笔记)

潭州课堂25班：Ph201805201 并发（进程，线程）二第十二课 (课堂笔记

潭州课堂25班：Ph201805201 并发（协程）第十五课 (课堂笔记)

潭州课堂25班：Ph201805201 并发（进程，线程）第十一课 (课堂笔记)

潭州课堂25班：Ph201805201 django 项目第十八课前台注解 (课堂笔记）

潭州课堂25班：Ph201805201 django 项目第二十三课文章主页 (课堂笔记）

潭州课堂25班：Ph201805201 django 项目第三十三课后台文章标签功能实现(课堂笔记）

潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第七课 Python与常见加密方式 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第二课 fidder (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第六课选择器 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第十四课 js破解 (课堂笔记）

潭州课堂25班：Ph201805201 第三课：序列类型的方法 (课堂笔记)

潭州课堂25班：Ph201805201 WEB 之页面编写第三课 (课堂笔记)

潭州课堂25班：Ph201805201 tornado 项目第三课项目图片上传，展示（课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第一课 pyspider框架 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）

潭州课堂25班：Ph201805201 第七课：函数基础和函数参数 (课堂笔记)

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)