爬虫框架Scrapy 之(一) --- scrapy初识 - 代码天地

爬虫框架Scrapy 之(一) --- scrapy初识

其他 2019-04-26 20:31:20 阅读次数: 0

Scrapy框架简介

scrapy是基于Twisted的一个第三方爬虫框架，许多功能已经被封装好，方便提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。

Scrapy 的组成部分： 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道（item和pipeline）

　　以上五部分只需要关注爬虫和管道即可

spiders：蜘蛛或爬虫，分析网页的地方，主要的代码写在这里
管道：包括item和pipeline，用于处理数据
引擎：用来处理整个系统的数据流，触发各种事务（框架的核心）
下载器：用于下载网页内容，并且返回给蜘蛛（下载器基于Twisted的高效异步模型）
调度器：用来接收引擎发过来的请求，压入队列中等处理任务

Scrapy框架安装

Mac安装步骤

安装依赖库Twisted。打开终端 pip install twisted
安装其框架Scrapy。 pip install scrapy

wid安装步骤

在线安装和Mac相同, pip install twisted
离线安装需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本，然后想下载好的文件拖到 pip install 后面
安装其框架和Mac相同
安装 pip install pywin32

Scrapy工程创建

工程创建：

首先在终端 cd到存放的目录下
创建项目： scrapy startproject 项目名。
然后在pycharm中打开此项目(空工程)
创建爬虫： scrapy genspider 爬虫名域名
运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

工程配置运行：

根据需求编写item
在spiders里面解析数据
在管道中处理解析完的数据

猜你喜欢

转载自www.cnblogs.com/TMMM/p/10774254.html

爬虫框架Scrapy 之(一) --- scrapy初识

爬虫框架之Scrapy

爬虫之 scrapy框架

爬虫框架之——Scrapy

爬虫之scrapy框架

爬虫框架之Scrapy(一)

一爬虫框架(scrapy)

scrapy爬虫框架(一)

Scrapy爬虫框架初识

scrapy爬虫框架（一）：scrapy框架简介

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

爬虫框架Scrapy 之(二) --- scrapy文件

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例

爬虫框架之scrapy 爬虫框架之Scrapy

Python之Scrapy爬虫框架

scrapy爬虫框架之ImagePipeline

爬虫scrapy框架之CrawlSpider

Python之scrapy框架爬虫

5 爬虫之scrapy框架

爬虫系列之Scrapy框架

scrapy框架之定时爬虫

爬虫之Scrapy框架介绍

python爬虫之Scrapy框架

爬虫框架之Scrapy（二）

爬虫之 scrapy 框架总结

爬虫之scrapy框架（二）

Python 爬虫之scrapy 框架

四: scrapy爬虫框架 5、爬虫系列之scrapy框架

Python 爬虫（一）scrapy框架

爬虫框架Scrapy学习（一）

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)