scrapy 基于终端指令的持久化处理 - 代码天地

scrapy 基于终端指令的持久化处理

其他 2020-07-27 11:48:21 阅读次数: 0

爬取糗事百科首页，把标题和作者写入到本地文件

创建糗事百科爬虫
scrapy genspider qiushi https://www.qiushibaike.com/

qiushi.py代码

import scrapy


class QiushiSpider(scrapy.Spider):
    name = 'qiushi'
    # allowed_domains = ['www.web.com']
    start_urls = ['https://www.qiushibaike.com/']

    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div/div[2]/div/ul/li')
        ls = []
        for li in li_list:
            title = li.xpath('./div/a/text()')[0].extract()
            author = li.xpath('./div/div/a/span/text()')[0].extract()

            data = {
                "作者": author,
                "标题": title
            }
            ls.append(data)
        # 返回的对象要求是可迭代对象
        return ls

持久化命令
scrapy crawl qiushi -o qiushi.josn
scrapy crawl qiushi -o qiushi.csv
scrapy crawl qiushi -o qiushi.xml

猜你喜欢

转载自www.cnblogs.com/bibicode/p/13384537.html

scrapy 基于终端指令的持久化处理

Scrapy终端（Scrapy shell）

scrapy持久化存储

scrapy的持久化相关

Scrapy持久化

scrapy的pipeline（持久化）

Scrapy 持久化

Scrapy的 Shell终端

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

爬虫Scrapy指令学习

scrapy 基于管道的持久化存储操作

基于Scrapy实现Scrapy_plus框架

python scrapy cookies 处理

scrapy 429 处理

scrapy之持久化存储

scrapy相关-数据持久化

scrapy

基于 Python 的 Scrapy 爬虫入门：图片处理

Scrapy学习笔记（二）——Scrapy项目创建和常用指令

基于Scrapy的B站爬虫

基于Scrapy的CSDN爬取

基于Scrapy框架的简单爬虫

Spider-scrapy日志处理

scrapy下载大文件处理

基于Scrapy_redis部署scrapy分布式爬虫

基于scrapy_redis部署的scrapy分布式爬虫

scrapy专题（十三）：scrapy 处理验证码

day103-scrapy-scrapy 介绍、 scrapy安装、创建运行、目录介绍、settings介绍、爬取抽屉新闻、scrapy的数据解析（重点）、scrapy的持久化存储（重点）

Scrapy 框架（二）数据的持久化

爬虫--Scrapy-持久化存储操作

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)