Python_爬虫 - 代码天地

Python_爬虫

其他 2019-02-23 17:50:18 阅读次数: 0

1.什么是爬虫?
就是在互联网上一直爬行的蜘蛛，如果遇到需要的资源，那么它就会抓取下来(html内容)；
模拟浏览器快速访问页面的内容。

2.浏览网页的过程中发生了什么?

浏览器输入 http://www.baidu.com/bbs

1). 根据配置的DNS获取www.baidu.com对应的主机IP；
2). 根据端口号知道跟服务器的那个软件进行交互；
3). 百度的服务器接收客户端请求；
4). 给客户端主机一个响应(html内容) ----- html，css，js；
5). 浏览器根据html内容解释执行，展示出华丽的页面；

3.两个重要模块：

BeautifulSoup 库：一款优秀的HTML/XML解析库，采用来做爬虫，不用考虑编码，还有中日韩文的文档，其社区活跃度之高，可见一斑。
[注] 这个在解析的时候需要一个解析器，在文档中可以看到，推荐lxml

下表列出了主要的解析器：在这里插入图片描述

推荐使用lxml作为解析器，因为效率更高。
在Python2.7.3之前的版本和Python3中3.2.2之前的版本，必须安装lxml或html5lib，因为那些Python版本的标准库中内置的HTML解析方法不够稳定。
提示：如果一段HTML或XML文档格式不正确的话，那么在不同的解析器中返回的结果可能是不一样的。

Requests 库：一款比较好用的HTTP库，当然python自带有urllib以及urllib2等库，但用起来是绝对没有这款舒服的。

猜你喜欢

转载自blog.csdn.net/King15229085063/article/details/87598135

Python_爬虫

python_爬虫_requests

python_爬虫_学习

python_爬虫（爬图片）

python_爬虫异常处理

python_爬虫（初入门）

爬虫+Python_抻透

Python_爬虫小实例

python_爬虫_数据提取

Python_爬虫_request+urllib+xpath

python_爬虫_Selenium_Error

python_爬虫今日头条

Python_爬虫_数据解析回顾

Python_爬虫_requests小实战

【Python_爬虫】地图POI（待完成）

python_爬虫_Charles手机证书安装问题

python_爬虫_使用终端运行爬报错：No such file or directory

python_爬虫_multiprocessing.dummy以及multiprocessing

python_爬虫_微信公众号抓取

python_爬虫_scrapy_爬取360图片实例

Python_爬虫_xpath/bs4/re小实战

python_爬虫爬取高德地理编码

Python_爬虫_喜马拉雅音频

python_

python_爬虫_爬取7*24小时财经新闻

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

python_爬虫 Scrapy 安装报错一整套处理流程

python_爬虫爬取库房无忧网的库房数量

python_爬虫爬取库房无忧网的库房数据

python_爬虫爬取高德地图公交线路_赠高德地图key

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)