scrapy框架 - 入门使用（一）

编程语言 2018-12-12 17:59:48 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/apollo_miracle/article/details/84960657

目标

掌握如何创建项目
掌握如何创建爬虫
熟悉创建项目后每个文件的作用
掌握pipeline的使用
掌握scrapy中logging的使用

1 scrapy项目实现流程

创建一个scrapy项目：scrapy startproject mySpider
生成一个爬虫：scrapy genspider itcast "itcast.cn
提取数据：完善spider，使用xpath等方法
保存数据：pipeline中保存数据

2 创建scrapy项目

下面以抓取传智师资库来学习scrapy的入门使用：http://www.itcast.cn/channel/teacher.shtml

命令：scrapy startproject +<项目名字>

示例：scrapy startproject myspider

生成的目录和文件结果如下：

3 创建爬虫

命令：scrapy genspider +<爬虫名字> + <允许爬取的域名>

示例：scrapy genspider itcast itcast.cn

生成的目录和文件结果如下：

4 完善spider

完善spider即通过方法进行数据的提取等操作

注意：

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
spider中的parse方法必须有
需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制
启动爬虫的时候注意启动的位置，是在项目路径下启动

5 数据传递到pipeline

为什么要使用yield？

让整个函数变成一个生成器，有什么好处呢？
遍历这个函数的返回值的时候，挨个把数据读到内存，不会造成内存的瞬间占用过高
python3中的range和python2中的xrange同理

注意：

yield能够传递的对象只能是：BaseItem,Request,dict,None

6 完善pipeline

完善pipeline代码后，需要在setting中设置重启

pipeline在settings中能够开启多个，为什么需要开启多个？

不同的pipeline可以处理不同爬虫的数据
不同的pipeline能够进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存

pipeline使用注意点

使用之前需要在settings中开启
pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过
有多个pipeline的时候，process_item的方法必须return item,否则后一个pipeline取到的数据为None值
pipeline中process_item的方法必须有，否则item没有办法接受和处理
process_item方法接受item和spider，其中spider表示当前传递item过来的spider

7 输出日志LOG的设置

为了让我们自己希望输出到终端的内容能容易看一些，我们可以在setting中设置log级别

在setting中添加一行（全部大写）：LOG_LEVEL = "WARNING”

默认终端显示的是debug级别的log信息

猜你喜欢

转载自blog.csdn.net/apollo_miracle/article/details/84960657

scrapy框架 - 入门使用（一）

scrapy框架的入门使用

玩转 Scrapy 框架 (一)：Scrapy 框架介绍及使用入门

Python爬虫框架Scrapy入门（一）Scrapy安装及基本使用

Scrapy框架（一）——初始Scrapy

Scrapy框架-scrapy框架快速入门

爬虫框架scrapy入门（一）

Scrapy框架学习 - Scrapy框架的安装与使用

scrapy 框架入门

Scrapy 框架介绍及入门

Scrapy框架入门

scrapy爬虫框架（一）：scrapy框架简介

Scrapy框架学习（一）Scrapy框架介绍

Scrapy框架的初步使用

Scrapy框架的安装及使用

Scrapy框架基础使用

scrapy框架的基本使用

scrapy框架-post使用

scrapy框架使用教程

scrapy框架的使用

scrapy框架的简单使用

Scrapy框架使用代理

scrapy 框架基本使用

Scrapy 框架的使用

scrapy框架基本使用

爬虫框架Scrapy 的使用

Scrapy爬虫框架的使用

Scrapy框架解析,使用

Scrapy（一）框架

一爬虫框架(scrapy)

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)