【小白篇】scrapy做爬虫抓数据,小白入门专用

一、生成项目
（1）新建项目

创建项目命令： scrapy startproject new_spider

在这里插入图片描述

(2)新建爬虫，需要注意先用cmd命令提示框进入到项目目录中，然后在创建爬虫命令，如图：

创建爬虫命令：scrapy genspider spiderName hao123.com

在这里插入图片描述

(3)执行创建爬虫代码
在这里插入图片描述
(4)用vscode打开之后，效果如下:

二、配置爬虫
（1）配置爬虫setting.py文件

setting.py 需要修改的部分，由于本次只是演示基础用法，其他的高阶用法暂时不做演示

修改成 ROBOTSTXT_OBEY = False
添加 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'

三、配置爬虫页面解析部分

四、运行爬虫

运行爬虫命令： scrapy crawl spiderName

在这里给出spiderName.py 文件的内容，方面初学者

# -*- coding: utf-8 -*-
import scrapy


class SpidernameSpider(scrapy.Spider):
    name = 'spiderName'
    allowed_domains = ['hao123.com']
    start_urls = ['http://hao123.com/']

    def parse(self, response):
        lis = response.xpath('//ul[@class="js_bd cls_bd"]/li')
        for info in lis:
            tmp_info = info.xpath('./descendant::text()').extract()
            print(tmp_info)

执行爬虫脚本 =》 scrapy crawl spiderName

需要注意的地方：
1、需要进入到项目中
2、然后在cmd命令框中执行代码
效果如下：

在这里插入图片描述

【小白篇】scrapy做爬虫抓数据,小白入门专用

创建项目命令： scrapy startproject new_spider

创建爬虫命令：scrapy genspider spiderName hao123.com

运行爬虫命令： scrapy crawl spiderName

执行爬虫脚本 =》 scrapy crawl spiderName

猜你喜欢