scrapy中遇到的ValueError: Missing scheme in request url:问题解决 - 代码天地

scrapy中遇到的ValueError: Missing scheme in request url:问题解决

其他 2020-02-11 11:10:46 阅读次数: 0

昨天在爬寻医问药网站的时候出现了一个没有遇到过的问题：
在这里插入图片描述

ValueError: Missing scheme in request url:

查了百度，bings都没能解决，归纳起来网上的解决办法围绕的都是图片路径等详细问题，归根结底就是url并不完整，可以单纯地通过：

url = "http"+response.xpath("....")[0]

这样的方式解决。

解决办法

然鹅，我的代码在前面几步都是能完整输出新的url值的，意味着url足够完整，所以不是上述问题。
最后发现有些大神们的代码会在request的括号后面多加一句

dont_filter=Ture

问题就被完美解决了！

原因分析

查了一下，scrapy会对request的URL去重(RFPDupeFilter)，加上dont_filter则告诉它这个URL不参与去重。
两种方法能够使 requests 不被过滤:

在 allowed_domains 中加入 url
在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True

意思就是，scrapy可能会处于一些原因把没有问题的url过滤掉，我们只有加上这样的命令才能防止丢失。

发布了22 篇原创文章 · 获赞 18 · 访问量 7182

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43525427/article/details/102625364

scrapy中遇到的ValueError: Missing scheme in request url:问题解决

问题解决：raise ValueError('Missing scheme in request url: %s' % self._url) ValueError: Missing schem

解决 ValueError: Missing scheme in request url: h

ValueError: Missing scheme in request url: xxxxxx

Missing scheme in request url: h

ValueError('Missing scheme in request url :%s'%self._url')

爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法

scrapy 错误：Missing scheme in request url: %s' % self._url

scrapy错误记录:Missing scheme in request url: h

go mod download: invalid proxy URL missing scheme: on

Required request body is missing问题解决（RestFul接口编写）

myeclipse中is missing required source folder问题解决

解决Required request body is missing 错误

Required request body is missing 错误解决

解决 Required request body is missing的错误

Servlet中response、request乱码问题解决

Jsp request和URL中文乱码问题解决

url scheme

网页打开Android app ERR_UNKNOWN_URL_SCHEME 问题解决

已解决TypeError: __init__() missing 1 required positional argument: ‘scheme‘

no scheme问题

Required request body is missing

Maven的Missing artifact问题解决

missing semicolon报错问题解决

"code": 400, "msg": "Required request body is missing 错误解决

打印$_SERVER['REQUEST_SCHEME']为空

web开发(二) Servlet中response、request乱码问题解决

Java Web(二) Servlet中response、request乱码问题解决

Python中self的用法详解，或者总是提示：TypeError: add() missing 1 required positional argument: 'self'的问题解决

Required request body is missing错误

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)