import scrapy
在Terminal中创建如下
scrapy startproject scrapy_project #创建项目文件名
创建spider
cd scrapy_project
scrapy genspider bole jobbole.com #创建要访问的网站以网站命名
创建一个run.py main.py文件
加入 在此文件中点击运行
from scrapy.cmdline import execute
execute('scrapy crawl bole'.split())
设置seting文件
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
# 'scrapy_project.pipelines.ScrapyProjectPipeline': 300,
'scrapy_project.pipelines.WeatherPipeline': 300,#调整优先级
}
#在scrapy中下载网页到本地 f.write(response.body) 使用 body
with open('weather.html', 'wb') as f:
f.write(response.body)