scrapy安装问题及步骤

scrapy安装(window)

安装步骤和可能遇到的问题

注意自己安装的python的pip版本和计算机位数之后库版本和它有关系

安装必要的Microsoft Visual C++ 14.0插件

更新pip版本: pip install --upgrade pip --force-reinstall

更新所有库:

pip install pip-review

pip-review --local --interactive

查看pip版本: pip show pip

运行指定版本(3.6)的python的pip: py -3.6 -m pip show pip

安装离线的第三方库(文件路径): pip install D:\xl\wheel-0.9.5-py2.py3-none-any.whl

库安装顺序: wheel(解析离线库安装重要) requests lxml pyOpenSSL Twisted (容易安装失败) scrapy(会自动安装依赖包)

暴力安装离线库的方法:

使用脚本安装: (python镜像网站地址)

@echo off

pip --default-timeout=100 install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100 install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100 install pyOpenSSL -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100 install Twisted -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pause

scrapy项目创建

需要在cmd通过命令来自动创建项目,pycharm自带cmd命令控制台

切换到需要创建的工作目录,创建项目

scrapy startproject myScrapy 格式: scrapy startproject 项目名

用pycharm打开项目

文件说明：

使用命令自动生成一个主文件

Scrapy genspider baidu www.baidu.com 格式: Scrapy genspider 爬虫名爬取的网址

运行爬虫

输入scrapy crawl baidu 运行爬虫格式为: scrapy crawl 爬虫名