【小白篇】scrapy做爬虫抓数据,小白入门专用

一、生成项目
(1)新建项目

创建项目命令: scrapy startproject new_spider

在这里插入图片描述

(2)新建爬虫,需要注意先用cmd命令提示框进入到项目目录中,然后在创建爬虫命令,如图:

创建爬虫命令:scrapy genspider spiderName hao123.com

在这里插入图片描述

(3)执行创建爬虫代码
在这里插入图片描述
(4)用vscode打开之后,效果如下:在这里插入图片描述
在这里插入图片描述
二、配置爬虫
(1)配置爬虫setting.py文件
在这里插入图片描述

setting.py 需要修改的部分,由于本次只是演示基础用法,其他的高阶用法暂时不做演示

  1. 修改成 ROBOTSTXT_OBEY = False
  2. 添加 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
三、配置爬虫页面解析部分

四、运行爬虫

运行爬虫命令: scrapy crawl spiderName
在这里给出spiderName.py 文件的内容,方面初学者
# -*- coding: utf-8 -*-
import scrapy


class SpidernameSpider(scrapy.Spider):
    name = 'spiderName'
    allowed_domains = ['hao123.com']
    start_urls = ['http://hao123.com/']

    def parse(self, response):
        lis = response.xpath('//ul[@class="js_bd cls_bd"]/li')
        for info in lis:
            tmp_info = info.xpath('./descendant::text()').extract()
            print(tmp_info)
            
执行爬虫脚本 =》 scrapy crawl spiderName

需要注意的地方:
1、需要进入到项目中
2、然后在cmd命令框中执行代码
效果如下:

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42152696/article/details/105251693