middlewares.py

其他 2019-09-09 16:58:07 阅读次数: 0

1.数据需要selenium解析后才能呈现

# middlewares.py
from scrapy import signals
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time


class ChromedriverMiddleware(object):
    def process_request(self, request, spider):
        chrome_options = Options()
        chrome_options.add_argument('--headless')  # 使用无头谷歌浏览器模式
        chrome_options.add_argument('--disable-gpu')
        chrome_options.add_argument('--no-sandbox')
        # 指定谷歌浏览器路径
        self.driver = webdriver.Chrome(chrome_options=chrome_options,
                                       executable_path='/root/zx/spider/driver/chromedriver')
        if request.url != 'https://www.aqistudy.cn/historydata/':
            self.driver.get(request.url)
            time.sleep(1)
            html = self.driver.page_source
            self.driver.quit()
            return scrapy.http.HtmlResponse(url=request.url, body=html.encode('utf-8'), encoding='utf-8',
                                            request=request)


# setting.py
DOWNLOADER_MIDDLEWARES = {
    'driver.middlewares.ChromedriverMiddleware': 543,
}

猜你喜欢

转载自www.cnblogs.com/yoyo1216/p/11492646.html

middlewares.py

Scrapy框架: middlewares.py设置

scrapy里面中间件 middlewares.py的使用

scrapy在middlewares.py中添加随机user-agent

在middlewares.py文件里添加代理ip

Scrapy_middlewares.py

Scrapy框架----- Downloader Middlewares

scrapy-middlewares

浅谈aiohttp和middlewares

Python:Downloader Middlewares

Scrapy 框架实战--Request/Response、Mongodb、Middlewares

Scrapy框架----09Downloader Middlewares

scrapy--middlewares 优先级问题

python之scrapy(四)downloader middlewares的用法

scrapy Downloader Middlewares 中间件

Understanding and Creating OWIN Middlewares - Part 1

Downloader Middlewares反反爬虫【学习笔记04】

说一下 Django， MIDDLEWARES 中间件的作用？

python爬虫人门（十）Scrapy框架之Downloader Middlewares

[Py] Py 环境

20、廖雪峰Python实战Day5之Middlewares 【翻译】模块inspect — Inspect live objects

python爬虫十二：middlewares的使用，爬取糗事百科

python3 scrapy 使用PhantomJS作为middlewares爬取动态加载的数据

[py]编码

py 函数

thrift py

py 5.11

py 5.9

py 5.18

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)