一、生成项目
(1)新建项目
创建项目命令: scrapy startproject new_spider
(2)新建爬虫,需要注意先用cmd命令提示框进入到项目目录中,然后在创建爬虫命令,如图:
创建爬虫命令:scrapy genspider spiderName hao123.com
(3)执行创建爬虫代码
(4)用vscode打开之后,效果如下:
二、配置爬虫
(1)配置爬虫setting.py文件
setting.py 需要修改的部分,由于本次只是演示基础用法,其他的高阶用法暂时不做演示
- 修改成 ROBOTSTXT_OBEY = False
- 添加 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
四、运行爬虫
运行爬虫命令: scrapy crawl spiderName
在这里给出spiderName.py 文件的内容,方面初学者# -*- coding: utf-8 -*-
import scrapy
class SpidernameSpider(scrapy.Spider):
name = 'spiderName'
allowed_domains = ['hao123.com']
start_urls = ['http://hao123.com/']
def parse(self, response):
lis = response.xpath('//ul[@class="js_bd cls_bd"]/li')
for info in lis:
tmp_info = info.xpath('./descendant::text()').extract()
print(tmp_info)
执行爬虫脚本 =》 scrapy crawl spiderName
需要注意的地方:
1、需要进入到项目中
2、然后在cmd命令框中执行代码
效果如下: