crawlspider抽屉爬取实例+分布 - 代码天地

crawlspider抽屉爬取实例+分布

其他 2019-03-10 16:54:41 阅读次数: 0

创建项目 scrapy startproject choutiPro

创建爬虫文件 scrapy genspider -t crawl chouti www.xxx.com

进入pycharm 培训setting文件

配置UA 和robotstxt 配置

ROBOTSTXT_OBEY = False

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

爬虫代码 抽屉式120页码的数据实现爬取

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

#连接提取器：可以在起始的url对应的页面源码中提取指定符合要求的连接
#allow参数值表示的是一个正则表达式规则
Link = LinkExtractor(allow=r'/r/scoff/hot/\d+')
rules = (
#实例化了一个规则解析器对象
#follow True,会作用到没有个页码的中进行提取，这可以一直提取到页码所有页码链接
#同时调度去会给我们自动去重操作
Rule(Link, callback='parse_item', follow=True),
)

def parse_item(self, response):
#这里打印页码链接，可以进行详细解析每一个页码中数据
print(response)

猜你喜欢

转载自www.cnblogs.com/michael2018/p/10505751.html

crawlspider抽屉爬取实例+分布

CrawlSpider爬取拉钩

抽屉爬取

crawlSpider全站爬取分布式增量式爬取

使用CrawlSpider 自动爬取网页

【Scrapy框架之CrawlSpider全站爬取】

CrawlSpider爬取读书网

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

爬取抽屉热搜榜文章

Python爬虫：爬取抽屉网

Scrapy框架——CrawlSpider爬取某招聘信息网站

scrapy进阶（CrawlSpider爬虫__爬取整站小说）

使用scrapy中crawlspider爬取csdn文章

scrapy框架基于CrawlSpider的全站数据爬取

利用Crawlspider爬取腾讯招聘数据(全站，深度)

使用scrapy-crawlSpider 爬取tencent 招聘

scrapy爬取微信小程序社区教程（crawlspider）

Scrapy框架——CrawlSpider爬取某热线网站

Scrapy 爬取腾讯招聘（CrawlSpider 了解与使用）

scrapy实践一（CrawlSpider爬取图片并存储）

scrapy笔记二（CrawlSpider爬取图片并存储）

爬虫 requests模块的其他用法抽屉网线程池回调爬取+保存实例

爬取股票实例

爬取淘宝实例

python爬取实例

python爬虫——爬取抽屉新热榜

scrapy实例 ----- 爬取小说

Scrapy 爬取图片实例

Python爬取小说实例

scrapy爬取小说实例

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)