文章目录

01-scrapy框架介绍

scrapy入门
创建项目
启动爬虫

02-scrapy-pipline、item、shell

pipline
03构造请求和腾讯爬虫
item
scrapy shell
07-scrapy-分布式

03-scrapy的一些坑

01-scrapy框架介绍

scrapy入门

在这里插入图片描述

创建项目

在这里插入图片描述

启动爬虫

在这里插入图片描述
可以设置日志等级

extract_first()

在这里插入图片描述

02-scrapy-pipline、item、shell

pipline

在这里插入图片描述

03构造请求和腾讯爬虫

在这里插入图片描述

item

在这里插入图片描述

scrapy shell

在这里插入图片描述

07-scrapy-分布式

在这里插入图片描述

03-scrapy的一些坑

以爬取当当为例，以即使没有scrapy.cfg文件，亦可以启动，但似乎没有加载settings.py的文件，一脸懵逼，redis的信息也没有

PYTHONPATH=$(pwd) python3 -m scrapy runspider spiders/dd_book.py
lpush dd_book http://category.dangdang.com/?ref=www-0-C

.
├── dangdang_book
│   ├── __pycache__
│   │   ├── middlewares.cpython-37.pyc
│   │   └── settings.cpython-37.pyc
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       ├── __pycache__
│       │   ├── __init__.cpython-37.pyc
│       │   └── dd_book.cpython-37.pyc
│       └── dd_book.py
└── scrapy.cfg

4 directories, 11 files

在根目录中，自己手动加上scrapy.cfg文件后（原始文件应该就有），启动

PYTHONPATH=$(pwd) python3 -m scrapy crawl dd_book
lpush dd_book http://category.dangdang.com/?ref=www-0-C

在这里插入图片描述

对scrapy爬虫的认识

文章目录

01-scrapy框架介绍

scrapy入门

创建项目

启动爬虫

02-scrapy-pipline、item、shell

pipline

03构造请求和腾讯爬虫

item

scrapy shell

07-scrapy-分布式

03-scrapy的一些坑

猜你喜欢