Python爬虫教程-01-爬虫介绍

其他 2018-08-07 01:06:16 阅读次数: 0

Spider-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所有对应变能力有些要求

爬虫准备工作

参考资料
精通Python爬虫框架Scrapy，人民邮电出版社

基础知识

url, http
web前端，html，css，js
ajax
re，xpath
xml

python 爬虫简介

爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
两大特征
- 能按照作者要求下载数据
- 能自动在网络上流窜
三大步骤
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步操作
爬虫分类
- 通用爬虫：
  不分类，比如百度搜索引擎，我们通过百度输入数据，获取百度爬虫从各种网站爬到的数据
- 专用爬虫（聚焦爬虫）：
  就是我们介绍的，关于某一类的数据，比如说，需要爬智联招聘网站，某地区的招聘信息
Python网络包简介
- Python2.*：urllib, urllib2, urllib3, httplib, httplib2, requests
- Python3.*：urllib, urllib3, httplib2, requests
- Python2：urllib, urllib2配合使用，或者requests
- Python3：urllib，requests

- 本笔记学习于图灵学院python全栈课程
- 本笔记不允许任何个人和组织转载

猜你喜欢

转载自blog.csdn.net/qq_40147863/article/details/81429728

Python爬虫教程-01-爬虫介绍

01-小悦为什么写 Python 爬虫教程

01-为什么要学爬虫-python小白爬虫入门教程

PYTHON 基础01-爬虫初探

01-什么是网络爬虫

实用爬虫-01-检测爬虫的 IP

Python爬虫01-基本原理

python爬虫01-使用urllib爬取网页

（爬虫）Python爬虫01

爬虫01-一个简单的爬虫

[Java爬虫-WebMagic]-01-初识爬虫框架WebMagic

爬虫01-爬虫基本原理讲解

Python爬虫教程-34-分布式爬虫介绍

Python爬虫教程-30-Scrapy 爬虫框架介绍

fiddler使用教程01-面板介绍

python爬虫01-爬取静态页面（百度贴吧）

【Python爬虫】01

Python 爬虫01

python爬虫学习01

python爬虫Day 01

【python】——爬虫01 概述

Python爬虫基础01

爬虫01-人人网模拟登陆

2020/03/28 01-爬虫概述、Robots协议

爬虫01-爬取约会吧图片

01-探寻 JavaScript 反爬虫的根本原因

【Python爬虫】01_爬虫简介

python爬虫精选01集（初识爬虫）

Python（爬虫时代）——爬虫开发01

Python爬虫介绍

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)