有时候我们需要收集一些网络上的公开信息 ,但手工收集显得我们太low了。作为一名软件工程的学子,当然是要用代码来爬取信息。这时候,我们往往就需要爬虫技术了。
- 准备工作
-
学习python3基本语法
-
安装requests、BeautifulSoup或selenium
-
了解http和html
-
特点
- selenium
- 万能的爬虫。因为selenium本身就是打开一个浏览器,所以所有看得到的内容都可以爬取
- 浏览器测试自动化工具。很容易完成鼠标点击,翻页等动作
- 易于调试。我们的每步操作都可以显示出来,降低debug难度
- 常常需要使用xpath来定位元素(可通过浏览器中“审查元素”选中元素再查找xpath)
- 缺点是一次只能加载一个页面,无法异步渲染页面,也就限制了selenium爬虫的抓取效率
- requests
- 速度快
- 常常需要使用BeautifulSoup来定位元素
- 缺点是无法爬取网页中动态渲染的内容
-
文档地址