Python爬虫基础

编程语言 2018-05-10 06:15:58 阅读次数: 3

摘要： Python爬虫基础

前言

Python非常适合用来开发网页爬虫，理由如下：
1、抓取网页本身的接口
相比与其他静态编程语言，如Java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

2、网页抓取后的处理
抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。如果你想学习Python可以来这个群，首先是四七二，中间是三零九，最后是二六一，里面有大量的学习资料可以下载。

Life is short, you need python.

PS：python2.x和python3.x有很大不同，本文只讨论python3.x的爬虫实现方法。

爬虫架构

架构组成

URL管理器：管理待爬取的url集合和已爬取的url集合，传送待爬取的url给网页下载器。
网页下载器（urllib）：爬取url对应的网页，存储成字符串，传送给网页解析器。
网页解析器（BeautifulSoup）：解析出有价值的数据，存储下来，同时补充url到URL管理器。

运行流程

URL管理器

基本功能

存储方式

1、内存（python内存）
待爬取url集合：set()
已爬取url集合：set()

2、关系数据库（MySQL）
urls(url, is_crawled)

3、缓存（Redis）
待爬取url集合：set
已爬取url集合：set

大型互联网公司，由于缓存数据库的高性能，一般把url存储在缓存数据库中。小型公司，一般把url存储在内存中，如果想要永久存储，则存储到关系数据库中。如果你想学习Python可以来这个群，首先是四七二，中间是三零九，最后是二六一，里面有大量的学习资料可以下载。

网页下载器（urllib）

将url对应的网页下载到本地，存储成一个文件或字符串。

猜你喜欢

转载自3554661963.iteye.com/blog/2381693

Python爬虫基础

Python爬虫基础与技巧

python爬虫scrapy基础

python爬虫基础了解

Python爬虫基础(一）

python爬虫基础测试

Python爬虫-Scrapy基础

Python爬虫基础策略

Python -- 基础爬虫

python爬虫---mongodb基础

python 爬虫基础

Python爬虫 —— 基础

python爬虫基础（一）

爬虫基础--python

Python 爬虫基础Selenium

python爬虫基础（1）

Python--爬虫基础

python爬虫基础概念

Python 爬虫基础部分

python爬虫基础 - XPATH

python-爬虫基础

Python爬虫基础入门

爬虫基础入门— — Python

Python之爬虫基础

Python爬虫基础01

Python爬虫入门之爬虫基础了解

Python爬虫入门：爬虫基础了解

python | 爬虫笔记（二）- 爬虫基础

python爬虫笔记（二）爬虫基础

Python爬虫实战 | (1) 爬虫基础

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)