《python3网络爬虫开发实战》13.8笔记——记自己学习的困惑 - 代码天地

《python3网络爬虫开发实战》13.8笔记——记自己学习的困惑

其他 2020-04-13 11:48:03 阅读次数: 0

《python3网络爬虫开发实战》13.8为scrapy对接selenium

复制书中的源码无法爬取；由于淘宝需要会员登录后才能使用，不想麻烦的登录。
爬取页面
在这里插入图片描述
失败原因：

因而选取的爬取对象是知乎：
问题一：phantomjs在界面会存在警告"UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead"，因为selenium新版本不在支持phantomjs;
解决方法：降版本安装或者换成Chrome or Firefox的无界面；selenium需要降至selenium2.48.0。参见博主本是少年的《Selenium support for PhantomJS has been deprecated解决方案》

问题二：由于xpath可以在浏览器中复制，比较懒的我就使用了xpath选择器，如下：
在这里插入图片描述
这里的问题在于如果在/div的前面没有一点即./div的话就会导致。xpath跨越遍历的topic进入topics里面寻找节点，这个问题整整困扰了我一天，虽然崔大神的书中确实介绍了这个，但是我在例子中练习的时候返回空值，毕竟是18年的还以为有什么问题就没有在意这一点，结果在这里卡住了整整一天。

问题三：使用phantonjs会存在无法下翻（知乎下滑出现新内容），界面似乎不加载js,和在ternimal中点击url打开的explore一样，只有前面几个，无法下滑；因而使用chrome较好。但是chrome的无界面浏览参数存在变化。
网上的scrapy+selenium+chrome的技术路线中用chrome传参为options 但是这个参数会报错
在这里插入图片描述
原因为这个参数已经改变了，变成chrome_options,如下：

出现下图基本成功
在这里插入图片描述

[1]https://blog.csdn.net/qq_43055565/article/details/99345542?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158537770419725256732602%2522%252C%2522scm%2522%253A%252220140713.130056874…%2522%257D&request_id=158537770419725256732602&biz_id=0&utm_source=distribute.pc_search_result.none-task

python__reported

发布了22 篇原创文章 · 获赞 25 · 访问量 3293

私信关注

猜你喜欢

转载自blog.csdn.net/python__reported/article/details/105161020

《python3网络爬虫开发实战》13.8笔记——记自己学习的困惑

《python3网络爬虫开发实战》学习笔记：pc与安卓代理证书都安装好但是无法监听——记自己的踩坑路径

《python3网络爬虫开发实战》学习笔记：scrapy下载图片失败：WARNING: Dropped: IMAGE Downloaded Failed（记拼写错误））

《python3网络爬虫开发实战》学习笔记：：selenium——xpath：Unable to locate element

《python3网络爬虫开发实战》学习笔记：pyspider all报错的解决

《python3网络爬虫开发实战》学习笔记：splash无法进入

《python3网络爬虫开发实战》学习笔记：docker toolbox安装的坑

python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬猫眼电影排名

《python3网络爬虫开发实战》--Scrapy

《Python3网络爬虫开发实战》教程

Python3网络爬虫开发实战

python3网络爬虫开发实战pdf

python3网络爬虫开发实战学习笔记(一)--------python正则表达式re模块

《python3网络爬虫开发实战》学习笔记：pyspider报错Exception: HTTP 599: SSL certificate problem...

urllib库的学习总结（python3网络爬虫开发实战项目）

selenium学习〈Python3网络爬虫开发实战〉

《Python3网络爬虫开发实战》-安装Python爬虫库

《Python3网络爬虫开发实战》读书笔记3（第4章：解析库的使用Xpath）

[Python3网络爬虫开发实战] 1.1-Python3的安装

《崔庆才Python3网络爬虫开发实战教程》学习笔记（3）：抓取猫眼电影榜单TOP100电影，并存入Excel表格

Python3网络爬虫实战-30、PyQuery

Python3网络爬虫开发实战——第1章开发环境

【Python3网络爬虫开发实战】 1-开发环境配置

Python3网络爬虫开发实战——第3章基本库的使用

崔庆才《Python3网络爬虫开发实战教程》的学习笔记系列第一章基本库的使用

《崔庆才Python3网络爬虫开发实战教程》学习笔记（4）：解析库Xpath的使用方法总结

《Python3网络爬虫开发实战》抽奖赠书活动

【转】《Python3网络爬虫开发实战》崔庆才 PDF 收藏

Python3网络爬虫开发实战] 5.3.2-Redis存储

[Python3网络爬虫开发实战] 1.2.4-GeckoDriver的安装

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)