如何在scrapy中进行翻页，构造一个伪地址请求，在下载中间件中触发翻页效果

其他 2019-03-12 09:21:04 阅读次数: 0

在爬虫中
#造一个假的url,判断url能不能传过去
yield Request(url=“pseudo://next”,callback=self.parse,dont_filter=True)
#在middlewares.py中
def init(self):
self.browser = webdriver.Chrome(executable_path="/cdrom/chromedriver")

def process_request(self,request,spider):
    #判断一下是否能打印出来url,这个就是判断这个url怎么传过来的,打印出来的应该是starts_url
    # print('下载url是',request.url)
    if request.url.endswith("next"):
        # 先滚动到最后然后再抓取
        self.browser.execute_script("window.scrollTo(0,document.body.scrollHeight - 100)")
        next_elements = self.browser.find_elements_by_css_selector("div.soupager > button.soupager__btn")
        next_elements[1].click()
        time.sleep(2)
    else:
        self.browser.get(request.url)
        time.sleep(10)

    #这个是把ajax当中的page_source用模拟浏览器爬取出来,传到前面的response.text
    return HtmlResponse(url=self.browser.current_url,body=self.browser.page_source,encoding='utf-8',request=request)

猜你喜欢

转载自blog.csdn.net/weixin_44274975/article/details/88389570

如何在scrapy中进行翻页，构造一个伪地址请求，在下载中间件中触发翻页效果

scrapy中如何使用中间件进行模拟

scrapy中的下载器中间件

在scrapy框架下爬虫中如何实现翻页请求

scrapy发送翻页请求

十二、scrapy中实现翻页请求

如何设计一个消息中间件？消息中间件的总体架构

如何开发一个框架或中间件

Scrapy的中间件（一）

Scrapy中的翻页

Scrapy之下载中间件中的代理中间件HttpProxyMiddleware

Scrapy之下载中间件与爬虫中间件

写一个scrapy中间件--ip代理池

scrapy下载中间件源码浅析

Scrapy-下载中间件

(10).scrapy配置下载中间件

爬虫（十四）：scrapy下载中间件

scrapy-下载器中间件

scrapy 下载中间件总结

scrapy框架之下载中间件

scrapy 下载器中间件

scrapy专题（二）：下载中间件

vue3+js 如何做一个跳转路由的时候移动端有翻页效果

Django 中间件、只给某一个请求去除csrf验证

基于Laravel封装一个强大的请求响应日志记录中间件

scrapy框架【下载中间件】 scrapy框架之下载中间件

scrapy 中间件

scrapy中间件

Scrapy的中间件

SAP CRM中间件下载equipment时遇到的一个错误

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)