从源码开始学习Scrapy系列06-fetch指令 - 代码天地

从源码开始学习Scrapy系列06-fetch指令

其他 2018-05-19 18:11:17 阅读次数: 1

前言

fetch指令是通过scrapy下载器对给定的一个url进行抓取，并将抓取结果进行输出

代码调试

进入fetch模块的run方法

参数校验，如果参数不是1个或者不是标准的url格式，则抛出用法错误：

if len(args) != 1 or not is_url(args[0]):
    raise UsageError()

def is_url(text):
    return text.partition("://")[0] in ('file', 'http', 'https'）

定义输出回调函数：

cb = lambda x: self._print_response(x, opts)

初始化request对象：

request = Request(args[0], callback=cb, dont_filter=True)

如果选项中没有no-redirect选项，即不进行转发，则可处理的状态列表中包含除了300到400的所有状态码：

if not opts.no_redirect:
    request.meta['handle_httpstatus_list'] = SequenceExclude(range(300, 400))

否则全部可以包含，需要转发的请求有请求包自动完成：

扫描二维码关注公众号，回复： 937796 查看本文章

request.meta['handle_httpstatus_all'] = True

初始化赋值为自带简易爬虫：

spidercls = DefaultSpider

初始化爬虫加载器：

spider_loader = self.crawler_process.spider_loader

如果给定了爬虫选项，则根据给定的爬虫进行爬取，否则根据request url来查找匹配爬虫：

if opts.spider:
    spidercls = spider_loader.load(opts.spider)
else:
    spidercls = spidercls_for_request(spider_loader, request, spidercls)

使用上述判定的爬虫对给定的url进行抓取，只需要传递start_requests即可：

self.crawler_process.crawl(spidercls, start_requests=lambda: [request])

爬虫开启：

self.crawler_process.start()

到这里就结束了，最后俩步骤是调度的核心，我们也不做细讲，后面会具体谈到。

猜你喜欢

转载自blog.csdn.net/wang1472jian1110/article/details/80361292

从源码开始学习Scrapy系列06-fetch指令

从源码开始学习Scrapy系列07-genspider指令

从源码开始学习Scrapy系列05-edit指令

从源码开始学习Scrapy系列04-check指令

从源码开始学习Scrapy系列08-list指令

从源码开始学习Scrapy系列03-bench指令及指令运行机制

从源码开始学习Scrapy系列01-源码整理/分割/文档编译

从源码开始学习Scrapy系列02-从命令行开启项目入口

爬虫Scrapy指令学习

Git学习06-----pull, fetch区别

从零开始分析scrapy源码(一）

fetch源码

Scrapy学习笔记（二）——Scrapy项目创建和常用指令

IMAP的fetch指令的讲解

开始学习Java源码

Spring 源码学习 06：AnnotatedBeanDefinitionReader

Flink系列03: FlinkCEP从源码开始学习-PatternStream与执行模式匹配 - 附代码案例

Flink系列02: FlinkCEP从源码开始学习（个体模式与模式组）

Flink系列01: FlinkCEP从源码开始学习（定义与基本概念）

爬虫 Scrapy 学习系列之一：Tutorial

JS学习系列 06 – 变量对象

游标fetch源码分析

java.security 源码学习06 PrivilegedAction

Zookeeper源码学习系列

scrapy学习第1篇：从阅读scrapy官方文档开始学习

python Scrapy 从零开始学习笔记（一）

2019/06/28（1）开始学习C#

【spring源码系列-06】refresh中obtainFreshBeanFactory方法的执行流程

Vue学习系列 -- 自定义指令

Vue学习系列(三)——基本指令

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)