Scrapy 快速一览
Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架,可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。
尽管 Scrapy 最初是为网页元素抓取而设计的,但是它也能通过使用Apis来提取数据,比如亚马逊的服务接口,或者就一个通用的目的,网页元素抓取。
一个蜘蛛的例子
为了向您展示 Scrapy
带来了什么,我们将向您展示一个 Scrapy Spider
示例,使用最简单的方式运行蜘蛛。
下面是一个爬虫的代码,它从网站 http://quotes.toscrape.com 爬取名言,遵循分页:
# 导入scrapy库
import scrapy
# 创建一个蜘蛛类
# 这在以后,会在创建爬虫项目后,自动生成
# 该类默认继承scrapy中的Spider类
class QuotesSpider(scrapy.Spider):
# 定义蜘蛛名,这个在后期,你使用命令行创建的时候,
# 和你使用命令行中的名称保持一致,当然你也可以选择不一致
name = 'quotes'
# 定义爬取的url,它是一个列表
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]
# 回调函数,对继承类的重写
# 这个response相应,是你请求的url的响应结果</