（三）爬虫小结 - 代码天地

（三）爬虫小结

其他 2020-03-17 10:34:28 阅读次数: 0

有时候我们需要收集一些网络上的公开信息，但手工收集显得我们太low了。作为一名软件工程的学子，当然是要用代码来爬取信息。这时候，我们往往就需要爬虫技术了。

准备工作

学习python3基本语法
安装requests、BeautifulSoup或selenium
了解http和html

特点
- selenium
1. 万能的爬虫。因为selenium本身就是打开一个浏览器，所以所有看得到的内容都可以爬取
2. 浏览器测试自动化工具。很容易完成鼠标点击，翻页等动作
3. 易于调试。我们的每步操作都可以显示出来，降低debug难度
4. 常常需要使用xpath来定位元素（可通过浏览器中“审查元素”选中元素再查找xpath）
5. 缺点是一次只能加载一个页面，无法异步渲染页面，也就限制了selenium爬虫的抓取效率
- requests
1. 速度快
2. 常常需要使用BeautifulSoup来定位元素
3. 缺点是无法爬取网页中动态渲染的内容
文档地址

selenium中文文档
 xpath教程
 requests中文文档
 BeautifulSoup中文文档

叫我彪哥呀

发布了45 篇原创文章 · 获赞 14 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_34438779/article/details/103584675

（三）爬虫小结

爬虫——小结

爬虫小结

爬虫-------高性能爬虫小结

小结三

python 爬虫小结2

python 爬虫小结1

爬虫之 requests小结

爬虫------selenium小结

爬虫实习小结

python爬虫小结1

爬虫------爬虫基础知识小结

爬虫抓网页知识小结

python爬虫学习小结（1）

python爬虫个人小结

爬虫（三）

爬虫------- 爬虫课程爬虫基础知识小结

android UI小结(三)

笔记小结（三）

MySQL 小结（三）

python学习小结（三）

Servlet小结（三）

mysql基础小结三

工作小结三

假期练习小结三

Swift 基础小结三

面试小结（三）

纯golang爬虫实战－（五－小结篇）

Python爬虫：HTML网页解析方法小结

爬虫-----请求的发送方法----爬虫基础知识小结

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)