scrapy 中间件 - 代码天地

scrapy 中间件

其他 2018-05-22 15:06:40 阅读次数: 2

一、中间件的分类

　　scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种

1.爬虫中间件Spider Middleware

主要功能是在爬虫运行过程中进行一些处理.

　　2.下载器中间件Downloader Middleware

主要功能在请求到网页后,页面被下载时进行一些处理.

二、使用

1.Spider Middleware有以下几个函数被管理:

- process_spider_input 接收一个response对象并处理,

位置是Downloader-->process_spider_input-->Spiders(Downloader和Spiders是scrapy官方结构图中的组件)

- process_spider_exception spider出现的异常时被调用

- process_spider_output 当Spider处理response返回result时,该方法被调用

- process_start_requests 当spider发出请求时,被调用

　　位置是Spiders-->process_start_requests-->Scrapy Engine(Scrapy Engine是scrapy官方结构图中的组件)

　 2.Downloader Middleware有以下几个函数被管理

　　 - process_request request通过下载中间件时，该方法被调用

　　 - process_response 下载结果经过中间件时被此方法处理

　　 - process_exception 下载过程中出现异常时被调用

编写中间件时,需要思考要实现的功能最适合在那个过程处理,就编写哪个方法.

中间件可以用来处理请求,处理结果或者结合信号协调一些方法的使用等.也可以在原有的爬虫上添加适应项目的其他功能,这一点在扩展中编写也可以达到目的,实际上扩展更加去耦合化,推荐使用扩展.

三.常用功能

downloader middleware中常用功能：

1) 添加User-Agent

2) 添加Proxy

3) 动态网页使用无头浏览器处理

猜你喜欢

转载自www.cnblogs.com/zenan/p/9072065.html

scrapy 中间件

scrapy中间件

Scrapy的中间件

scrapy之中间件

爬虫 - Scrapy中间件

Scrapy中间件应用

scrapy中间件的简介

scrapy中间件的应用

爬虫-scrapy的中间件

Scrapy框架-中间件

09 scrapy中间件

Scrapy的中间件（一）

scrapy框架的中间件

Scrapy之下载中间件与爬虫中间件

scrapy 爬虫中间件 httperror中间件

scrapy下载中间件源码浅析

Scrapy-下载中间件

(10).scrapy配置下载中间件

爬虫 - scrapy之中间件

Scrapy代理和中间件

爬虫（十四）：scrapy下载中间件

scrapy-下载器中间件

scrapy 下载中间件总结

彻底搞懂Scrapy的中间件（二）

彻底搞懂Scrapy的中间件（三）

scrapy Downloader Middlewares 中间件

三十二、scrapy中间件的使用

scrapy框架中间件配置代理

彻底搞懂Scrapy的中间件（一）

scrapy3 中间件的使用

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)