scrapy安装问题及步骤

scrapy安装(window)

安装步骤和可能遇到的问题

注意自己安装的python的pip版本和计算机位数之后库版本和它有关系

安装必要的Microsoft Visual C++ 14.0插件

更新pip版本:     pip install --upgrade pip --force-reinstall

更新所有库:  

pip install pip-review

pip-review --local --interactive

查看pip版本:     pip show pip

运行指定版本(3.6)的python的pip:    py -3.6 -m pip show pip

安装离线的第三方库(文件路径):    pip install D:\xl\wheel-0.9.5-py2.py3-none-any.whl

库安装顺序:   wheel(解析离线库安装重要)     requests   lxml     pyOpenSSL    Twisted      (容易安装失败)   scrapy(会自动安装依赖包)

暴力安装离线库的方法:

  1. 下载需要安装的.whl文件
  2. 将文件的.whl改为.zip后解压
  3. 只将不带.什么文件复制到python安装目录下的Lib文件下
  4. 注意:这样安装的文件pip里面看不到配置信息,但是可以用
  5. 离线包下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/

使用脚本安装:                                                 (python镜像网站地址)

@echo off

pip --default-timeout=100  install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100  install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100  install pyOpenSSL -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100  install Twisted -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100  install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pip --default-timeout=100  install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

pause

scrapy项目创建

需要在cmd通过命令来自动创建项目,pycharm自带cmd命令控制台

切换到需要创建的工作目录,创建项目

scrapy startproject myScrapy   格式: scrapy startproject 项目名

用pycharm打开项目

 

文件说明:

  • scrapy.cfg  项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
  • items.py    设置数据存储模板,用于结构化数据,如:Django的Model
  • pipelines    数据处理行为,如:一般结构化的数据持久化
  • settings.py 配置文件,如:递归的层数、并发数,延迟下载等
  • spiders      爬虫目录,如:创建文件,编写爬虫规则

使用命令自动生成一个主文件

Scrapy genspider baidu www.baidu.com  格式: Scrapy genspider 爬虫名 爬取的网址

运行爬虫

输入scrapy crawl baidu 运行爬虫  格式为: scrapy crawl 爬虫名

猜你喜欢

转载自www.cnblogs.com/studyNotesSL/p/10886968.html