scrapy rule follow的理解和应用 - 代码天地

scrapy rule follow的理解和应用

其他 2018-12-22 19:09:10 阅读次数: 0

follow 是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback 为None,follow 默认设置为 True ，添加回调函数callback后为 False,不跟踪

一句话解释:follow可以理解为回调自己的回调函数

举个例子,如百度百科,从任意一个词条入手,抓取词条中的超链接来跳转,rule会对超链接发起requests请求,如follow为True,scrapy会在返回的response中验证是否还有符合规则的条目,继续跳转发起请求抓取,周而复始,如下图

代码实现:

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders.crawl import Rule, CrawlSpider


class BaiDuSpider(CrawlSpider):
    name = "baidu_spider"
    start_urls = ['https://baike.baidu.com/item/Python/407313?fr=aladdin']

    '''获取url'''
    rules = (
        Rule(LinkExtractor(restrict_xpaths='//*[@class="para"]//a')),
    )

    print(rules)

ps: 爬取百度百科时需要在setting中设置不遵守robots规则: ROBOTSTXT_OBEY = False

猜你喜欢

转载自blog.csdn.net/qq_18525247/article/details/82743614

scrapy rule follow的理解和应用

scrapy--Rule()与LinkExtractor()函数理解

scrapy 关于 rule, 关于多页

scrapy 使用rule LinkExtractor提取链接

爬虫入门之Scrapy框架基础rule与LinkExtractors(十一)

python3 scrapy 进阶（一）Rule ， Link Extractors 的使用

Scrapy CrawlSpider中Rule中写allow的问题！

Scrapy中scrapy.Request和response.follow的区别

scrapy框架scrapy.Reqest和response.follow的区别

正则sub应用 any-rule插件

Scrapy之奇葩坑你爹:TypeError: 'Rule' object is not iterable

scrapy的应用

使用 WebSphere ILOG JRules 开发保险应用系统【六】——同步BOM、Rule项目到teamserver，并部署Rule到bres上

app.add_url_rule 和 app.route

linux中路由策略rule和路由表table

Scrapy——理解HTML和XPath

sonar rule

Lumen rule

AD rule

Python的Scrapy的学习和应用

scrapy初始和简单应用

对Scrapy框架的理解

爬虫scrapy的结构理解

scrapy框架的理解

scrapy 安装及应用

Hbase在Scrapy中的应用

scrapy中selenium的应用

selenium在scrapy中的应用

scrapy 【meta】的高级应用

Scrapy框架的应用

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)