scrapy--crawSpider - 代码天地

scrapy--crawSpider

其他 2018-07-12 02:57:53 阅读次数: 0

1.创建CrawlSpider

打开terminal 输入 scrapy genspider -t crawl xxx xxx.com

2.与一般的spider多了两件东西:一般我们需要自己做url的请求链接，这里的LinkExtractor回去匹配所有符合的正则表达

3.原理

from scrapy.linkextractor import Linkextractor

link_list = LinkExtractor(allow=("start=\d+")) :"start=\d+"是指链接的正则匹配规则

会去匹配响应文件：link_list.extract_links(response)

4.使用

link_etractor = LinkExtractor(allow=("start=\d+"))

#获得列表中的链接，依次发送请求，并且继续跟进，调用指定的回调函数

Rules =[link_etractor, -----link操作对象,call_back = ------指定回调函数,follow= ------是否进行深入爬取 ]

(需要注意的是，这里的回调处理函数，需要自己专门写一个处理函数，不能采用原来的默认的处理函数)

猜你喜欢

转载自blog.csdn.net/huangmengfeng/article/details/80023680

scrapy--crawSpider

Scrapy之crawSpider和BaseSpider的区别

scrapy之Crawspider 腾讯招聘实战案例

python爬虫之Scrapy框架（CrawSpider）

CrawSpider爬取腾讯招聘信息

scrapy

Scrapy终端（Scrapy shell）

scrapy程序（scrapy）

scrapy的xpath，scrapy shell

scrapy 初识 scrapy框架

scrapy的使用-scrapy shell

Scrapy框架 Scrapy框架

Scrapy：Scrapy shell

scrapy 命令

Scrapy Shell

anjuke scrapy

Scrapy 框架

Scrapy安装

scrapy框架

scrapy代理

Scrapy 笔记

scrapy的helloworld

安装Scrapy

scrapy elasticsearch

scrapy install

scrapy 相关

scrapy笔记

scrapy 碎片

scrapy tbody

Scrapy的安装

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)