python爬虫介绍1

其他 2018-10-13 23:14:02 阅读次数: 0

主要内容

http简介
html/xml/jason简介
mysql/apache
爬虫框架
robots规范与爬虫原则

python做爬虫特点
上手容易！！！
免费开源，使用不受限制。
解释执行，跨平台不受限制。
面向对象
框架和库支持丰富，有大量的历史积累。

http简介

HTTP = HyperText Transfer Protocol
URI = Uniform Resource Identifier
URL = Uniform Resource Locator
URI和URL的区别：URI强调的是资源，而URL强调的是资源的位置。

常用请求类型

OPTIONS: 返回服务器针对特定资源所支持的http请求方法。不实现也OK
HEAD:向服务器索要与get请求相一致的响应，只不过响应体将不会被返回。检查文件在不在
PUT: 向指定资源位置上传其最新内容；
DELETE: 请求服务器删除指定URI所标识的资源
PATCH: 用来将局部修改应用于某一资源
GET: 向特定资源发出请求
POST: 向指定资源提交数据进行处理请求
基本就用post get

常见状态码

200/OK：请求成功
201/Created: 请求已被实现，且一个新资源已根据请求被建立，URI跟随Location头信息返回
202/Accepted: 服务器已接受请求，但尚未处理
400/Bad Request: 请求无法被服务器理解
401/Unauthorized: 当前请求需要用户验证
403/Forbidden: 服务器已理解请求，但拒绝执行。
404/Not Found

html/xml/json

HTML (Hypertext Markup Language)

HTML不是编程语言，而是一种标记语言。即HTML使用标记标签来描述网页。
标签和元素
DOM文档模型
大数组

文本<body>
    - 段落1 <p>...<\p> 
        - 列表 <ul>...<\ul>
        - 文本
        - 图片<imgsrc ...>...
    - 段落2

XML

树结构
描述文本

ROOT
- E1
    -G1
    -G2
- E2
- E3

<node >

Json (JavaScript Object Notation)

推荐教程：Json
语法类似XML，但是更小、更快、更容易解析。对JavaScript特别友好。

爬虫工作流程

将种子URL放入队列
从队列中获取URL，抓取内容。
解析抓取内容，将需要进一步抓取的URL放入工作队列，存储解析后的内容

抓取策略

深度优先
广度优先
PageRank
大站优先策略

猜你喜欢

转载自blog.csdn.net/JessePinkmen/article/details/82732227

python爬虫介绍1

python爬虫框架——scrapy（1）scrapy爬虫框架介绍

爬虫开发.1爬虫介绍

1、关于python爬虫的基础介绍和学习

Python爬虫介绍

Python 爬虫介绍

python爬虫介绍2

python爬虫---XPath介绍

python 网络爬虫介绍

python爬虫的基本介绍

python爬虫1 - 爬虫概要

爬虫(1）、requests模块介绍

Python爬虫从入门到精通(1): 爬虫原理, urllib库介绍及5个适合新手练手的爬虫

Python爬虫教程-01-爬虫介绍

python爬虫学习笔记(一)-爬虫介绍

python 爬虫小结1

Python 爬虫笔记1

Python 爬虫之路(1)

Python——爬虫学习1

【Python】爬虫-1

python—网络爬虫（1）

python 爬虫学习1

Python爬虫1

python爬虫入门（1）

python爬虫_1

Python爬虫闯关-1

python爬虫1 简介

Python爬虫-Selenium（1）

Python:关于爬虫(1)

Python爬虫-速度（1）

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)