废话不多说,直接开整!
简单介绍 Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
安装库
pip install scrapy
pip install pypiwin32
创建项目
通过命令来完成
scrapy startproject +项目名称
安装完成会出现如下目录
|--myspider/ 项目根目录
|--scrapy.cfg项目配置文件
|--myspider/ 爬虫程序开发模块
|--spiders/爬虫程序所在的目录
|---demo
|--items.py采集的数据,定义封装模型类
|--pipelines.py采集完成后对数据进行验证和存储模块
|--middlewares.py中间件定义模块
|--setting.py项目设置模块
执行某个文件命令
scrapy crawl baidu_com.py这样项目就启动了
下面附上在spider文件夹下创建baidu_com.py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.crawler import CrawlerProcess
class BaiduComSpider(scrapy.Spider):
name = 'baidu.com'
allowed_domains = ['www.baidu.com']
start_urls = ['https://www.baidu.com/']
def parse(self, response):
yield {
'title': response.xpath('//title/text()').extract_first()
}
# 创建一个CrawlerProcess对象
process = CrawlerProcess() # 括号中可以添加参数
process.crawl(BaiduComSpider)
process.start()
# if __name__=="__main__":
# tk = BaiduComSpider()
# tk.parse()
效果图如下