python之Scrapy基础篇

废话不多说，直接开整！

简单介绍 Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

安装库

pip install scrapy
pip install pypiwin32

创建项目

通过命令来完成

scrapy startproject +项目名称

安装完成会出现如下目录

|--myspider/ 项目根目录
    |--scrapy.cfg项目配置文件
    |--myspider/ 爬虫程序开发模块
        |--spiders/爬虫程序所在的目录
            |---demo
        |--items.py采集的数据，定义封装模型类
        |--pipelines.py采集完成后对数据进行验证和存储模块
        |--middlewares.py中间件定义模块
        |--setting.py项目设置模块

执行某个文件命令

scrapy crawl baidu_com.py这样项目就启动了

下面附上在spider文件夹下创建baidu_com.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.crawler import CrawlerProcess
class BaiduComSpider(scrapy.Spider):
    name = 'baidu.com'
    allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        yield {
    
    
            'title': response.xpath('//title/text()').extract_first()
        }


# 创建一个CrawlerProcess对象
process = CrawlerProcess() # 括号中可以添加参数

process.crawl(BaiduComSpider)
process.start()
# if __name__=="__main__":
#     tk = BaiduComSpider()
#     tk.parse()

效果图如下
在这里插入图片描述

python之Scrapy基础篇

简单介绍 Scrapy

安装库

创建项目

猜你喜欢