一,新建虚拟环境(新建方法)
二,用豆瓣源安装scrapy命令:
pip install SQLAlchemy -i https://pypi.doubanio.com/simple scrapy
2.1如果出现以下错误,到:https ://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应的:扭曲
building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required.
在用命令进行Twisted安装命令:
pip install 储存的Twisted文件路径及文件名
三,win系统需安装pypiwin32命令:
pip install pypiwin32
四,新建scrapy工程项目到指定的储存路径下运行命令:
scrapy startproject 工程名称
五,新建爬虫模板进入scrapy工程目录/ spiders当中运行命令:
scrapy genspider 模板名称 模板网站域名
六,导入工程到pychram当中(打开工程目录)
七,添加虚拟环境解释器到pychram当中(文件>>>设置..搜索:项目解释器添加虚拟环境解释器目录的python.exe文件)
八,工程目录中新建main.py文件(同scrapy.cfg一个级别)
8.1新建的调试文件main.py需要让pychram找到这个目录,所以需要定义
from scrapy.cmdline import execute #运行scrapy的命令
import sys #导入路径
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"]) #启动命令为 数组形式 jobbole是模板名称
九,设置settings.py将:ROBOTSTXT_OBEY = True设置为:ROBOTSTXT_OBEY = False(关于机器人协议)