爬虫复习与拓展2 - 代码天地

爬虫复习与拓展2

企业开发 2023-06-05 14:26:05 阅读次数: 0

1.针对网站结构复杂，js动态加载采用selenium是非常方便的。

selenium-python中文文档 (python-selenium-zh.readthedocs.io)https://python-selenium-zh.readthedocs.io/zh_CN/latest/1.%E5%AE%89%E8%A3%85/缺点：爬取速度慢，针对大量数据集不适合爬取。

完善方法：可以考虑采用多线程和多进程来加快速度。

可以采用不加载一些元素来加快速度比如css等。

2.如果你想用几行代码就能搞定一个爬取任务那么requests-html是非常不错的。

requests-HTML v0.3.4 documentation (python-requests.org)https://docs.python-requests.org/projects/requests-html/en/latest/缺点：有时候东西爬下来不全

完善：大佬可以尝试改变它的源码来解决这个功能。

3.最经典的方法：request和beatuiful-soup来复杂请求和解析。

缺点：复杂的js动态加载数据是不能处理的。

完善：mechanize是另一种爬虫框架是可以加载JS的。

4.最老的方法:urllib3----上世纪的东西，对于学习有用。

5.构建一个结构性的强大爬虫可以用scrapy来构建

Scrapy 2.5.0 文档 (osgeo.cn)https://www.osgeo.cn/scrapy/intro/examples.html

缺点：但是对于稍微复杂一点的页面它就不得行了。

6.可视化的爬虫软件：Portia PySpider

pyspider使用教程 - 腾讯云开发者社区-腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1809106 pyspider的安装过程中的那些坑_kalihttps://blog.csdn.net/CSDN__CPP/article/details/110007755

7.要求速度很快可以用cola和Crawley

8.其他的还有专门用来爬取特定内容的框架比如爬取文章图片等。

猜你喜欢

转载自blog.csdn.net/m0_56022510/article/details/128653832

爬虫复习与拓展2

爬虫流程复习2

C++复习：对C的拓展

复习打卡--0807数据类型拓展

爬虫复习笔记

复习2

继爬虫项目三的拓展--mysql

拓展python爬虫（爬取图片）

论一只爬虫的自我修养2：实战+习题复习

python拓展2 collections模块

爬虫的复习手册

第15关. 复习爬虫

python拓展1 week1-week5复习回顾

爬虫2

爬虫(2)

爬虫 2

拓展

拓展φ

开始复习2

复习题-----2

商城在线复习2

day2复习

os复习2

scala复习2

java复习纲要(2)

oracle复习及作业2

英语复习系统【2】

kafka复习(2)

TCP复习2

spark复习笔记(2)

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)