对scrapy爬虫的认识

01-scrapy框架介绍

scrapy入门

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

创建项目

在这里插入图片描述

启动爬虫

在这里插入图片描述
可以设置日志等级
在这里插入图片描述

extract_first()

在这里插入图片描述

02-scrapy-pipline、item、shell

pipline

在这里插入图片描述

03构造请求和腾讯爬虫

在这里插入图片描述

item

在这里插入图片描述

scrapy shell

在这里插入图片描述

07-scrapy-分布式

在这里插入图片描述

在这里插入图片描述

03-scrapy的一些坑

以爬取当当为例,以即使没有scrapy.cfg文件,亦可以启动,但似乎没有加载settings.py的文件,一脸懵逼,redis的信息也没有

PYTHONPATH=$(pwd) python3 -m scrapy runspider spiders/dd_book.py
lpush dd_book http://category.dangdang.com/?ref=www-0-C
.
├── dangdang_book
│   ├── __pycache__
│   │   ├── middlewares.cpython-37.pyc
│   │   └── settings.cpython-37.pyc
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       ├── __pycache__
│       │   ├── __init__.cpython-37.pyc
│       │   └── dd_book.cpython-37.pyc
│       └── dd_book.py
└── scrapy.cfg

4 directories, 11 files

在根目录中,自己手动加上scrapy.cfg文件后(原始文件应该就有),启动

PYTHONPATH=$(pwd) python3 -m scrapy crawl dd_book
lpush dd_book http://category.dangdang.com/?ref=www-0-C

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43746433/article/details/106601868