Spider-爬虫介绍 - 代码天地

Spider-爬虫介绍

其他 2018-06-17 15:52:50 阅读次数: 2

零、爬虫准备工作

参考资料
- 《python网络数据采集》-- 图灵工业出版
- 《精通Python爬虫框架Scrapy》 -- 人民邮电出版社
- 【Scrapy官方教程】（http://scrapy-chs.readthedocs.io/zh_CN/0.24/into/tutorial.html）
- 【Python3网络爬虫】（http://blog.csdn.net/c406495762/article/details/72858983）
前端知识
- url
- http协议
- web前端（html，css，js）
- re，xpath
- xml

一、爬虫简介

爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
两大特征
- 能按作者要求下载数据或者内容
- 能自动在网络上流窜
三大步骤：
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步内容
爬虫分类
- 通用爬虫
- 专用爬虫（聚焦爬虫）
Python网络包简介
- Python2.x：urllib，urllib2，urllib3，httplib，httplib2，requests
- Python3.x：urllib，urllib3，httplib2，requests
- python2：urllib和urllib2配合使用，或者requests
- python3：urllib，requests

二、urllib

包含模块
- urllib.request：打开和读取ruls
- urllib.error：包含urllib.request产生的常见错误，使用try捕捉
- urllib.parse：包含即系url的方法
- urllib.robotparse：解析robots.txt文件

猜你喜欢

转载自www.cnblogs.com/Black-rainbow/p/9192953.html

Spider-爬虫介绍

Spider-聚焦爬虫与通用爬虫的区别

spider-页面解析-XML

爬虫 -Spider扩展介绍

spider-页面解析-CSS-BeautifulSoup4

Spider 爬虫

爬虫原理详解spider

【spider】爬虫分析

Web Spider - 爬虫

Java网络爬虫Spider

Spider爬虫个人练习

PHP Spider爬虫

JAVA 爬虫 WebCrawler Spider Bot

net spider（python 网络爬虫）

Spider爬虫框架之Selectors

爬虫框架Scrapy的组件spider

spider 02爬虫requests库

CrawlSpider（规则爬虫）和Spider版爬虫

网络爬虫（Spider）Java实现原理（转载）

转网络爬虫（Spider）Java实现原理

python 爬虫(三) spider类详解

Spider爬虫框架之Spiders模块

Spider学习笔记（六）:爬虫部署

django+spider简易爬虫搭建

爬虫Spider--爬取贴吧

scrapy爬虫框架多个spider指定pipeline

Redisspider的爬虫和scrapy.spider的区别

Scrapy 学习笔记 - 爬虫类 Spider

学习爬虫1之python学习spider

MeBook-Spider（我的小书屋爬虫）

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)