从源码开始学习Scrapy系列07-genspider指令 - 代码天地

从源码开始学习Scrapy系列07-genspider指令

其他 2018-05-19 18:11:17 阅读次数: 3

前言

genspider用于生成爬虫，与startproject不同的是，它只是生成爬虫模块文件，而startproject是生成整个scrapy项目。默认使用base模板，使用-l参数可以查看可用的所有模板

Available templates:
basic
crawl
csvfeed

xmlfeed

代码调试

进入genspider模块的run方法

获取爬虫名字，目标域名，并生成模块名

name, domain = args[0:2]
module = sanitize_module_name(name)

模块名校验，不能和BOT_NAME的值一样

if self.settings.get('BOT_NAME') == module:
    print("Cannot create a spider with the same name as your project")
    return

判断该name的spider是否存在，如果存在并且没有--force选项，则提示已经存在并退出

try:
    spidercls = self.crawler_process.spider_loader.load(name)
except KeyError:
    pass
else:
    # if spider already exists and not --force then halt
    if not opts.force:
        print("Spider %r already exists in module:" % name)
        print("  %s" % spidercls.__module__)
        return

获取模板文件

template_file = self._find_template(opts.template)

初始化爬虫模块，生成代码

self._genspider(module, name, domain, opts.template, template_file)

到这里基本就结束了，GG

猜你喜欢

转载自blog.csdn.net/wang1472jian1110/article/details/80364426

从源码开始学习Scrapy系列07-genspider指令

从源码开始学习Scrapy系列06-fetch指令

从源码开始学习Scrapy系列05-edit指令

从源码开始学习Scrapy系列04-check指令

从源码开始学习Scrapy系列08-list指令

从源码开始学习Scrapy系列03-bench指令及指令运行机制

从源码开始学习Scrapy系列01-源码整理/分割/文档编译

scrapy命令：scrapy genspider详解转

从源码开始学习Scrapy系列02-从命令行开启项目入口

爬虫Scrapy指令学习

从零开始分析scrapy源码(一）

【python】——爬虫07scrapy学习记录

Scrapy学习笔记（二）——Scrapy项目创建和常用指令

Spring 源码学习 07：ClassPathBeanDefinitionScanner

开始学习Java源码

Flink系列03: FlinkCEP从源码开始学习-PatternStream与执行模式匹配 - 附代码案例

Flink系列02: FlinkCEP从源码开始学习（个体模式与模式组）

Flink系列01: FlinkCEP从源码开始学习（定义与基本概念）

爬虫 Scrapy 学习系列之一：Tutorial

Zookeeper源码学习系列

scrapy学习第1篇：从阅读scrapy官方文档开始学习

python Scrapy 从零开始学习笔记（一）

从头开始的Java学习Day07

Vue学习系列 -- 自定义指令

Vue学习系列(三)——基本指令

爬虫进阶开始-scrapy

从0开始装Scrapy

从0开始学习 GitHub 系列汇总笔记

Java从0开始学习系列之路(5)

Java从0开始学习系列之路(4)

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)