# -*- coding: utf-8 -*-
# spider类定义如何爬取某些网站
# 实际上是默认调用request方法
import scrapy
from quotetutorial.items import QuoteItem
class QuotesSpider(scrapy.Spider):
name = 'quotes'
# # name:必须存在,用来标识spider
allowed_domains = ['quotes.toscrape.com']
# allowed_domains:可以不存在,包含允许爬取的域名列表,
# 简单说就是每次生成request的时候去看url是否去匹配这个域名,匹配成功就允许爬取
start_urls = ['http://quotes.toscrape.com/']
# start_urls :当没有指定特定的url时候,spider将从这个列表中开始爬取
# custom_settings :对框架中的内容进行覆盖,比如我想覆盖setting中的headers的内容\
# ,那么只要将header的内容写入custom_settings中,然后改变headers的值即可,
# 当程序再次运行时会覆盖以前setting的headers值,而运行你修改之后的内容
# from_crawler: 通过构建from_crawler()方法的设置,来得到全局变量的设置.
def parse(self, response):
# parse方法生成request或者item,生成item就返回
quotes = response.css('.quote')
for quote in quotes: # 操作类似于迭代查询
item = QuoteItem()
text = quote.css('.text::text').extract_first()
# 使用extract()方法,得到里面的文本内容
# 之前xpath中我们获取元素是通过.entry-header h1::text,
# 如果是属性则用.entry-header a::attr(href)
# pass # 自动调用pass方法对url进行解析
author = quote.css('.author::text').extract_first()
# 使用extract_first()得到第一个
tags = quote.css('.tags::text').extract()
# 区别在于标签是否有一个内容,如果不是一个则用extract()
# extract()返回的是列表类型
#extract_first()返回的是字符串类型
# 可以用控制台命令进行shell操作:进入命令行模式进行操作
item['text'] = text #给item赋值,实例化
item['author'] = author
item['text'] = tags
yield item
next = response.css('.paper .next a::attr(href)').extract_first()
url = response.urljoin(next)
yield scrapy.Request(url=url,callback=self.parse,dont_filter=True)
# yield request生成下一个request
# parse的作用自己回调自己
#dont_filter防止自动过滤掉第二页
# 数据的保存:“命令行模式:scrapy crawl quote -o quotes.json
# scrapy crawl quote -o quotes.jl 保存成1行
# scrapy crawl quote -o quotes.csv 保存为csv格式的数据
# log(message[,level,component])
# 进行日志的输出
scrapy简单知识点分析
猜你喜欢
转载自blog.csdn.net/qq_40605167/article/details/81389803
今日推荐
周排行