scrapy是功能强大的爬虫库,属于爬虫工程师必备技能,这篇博客记录scrapy在windows下的安装及安装遇见的各种bug
scrapy依赖于lxml 和Twisted,以及pypiwin32,没有pypiwin32在运行爬虫时会报错(没试过)
上干货
1,安装lxml pip install lxml
2,pip install pypiwin32
3 ,根据python版本下载Twisted,下面是链接
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
安装时要进入Twisted所在的路径,不然会报错
我的在E盘下的Scrapy里,python版本3.7安装方法如下
即可开始解压
关于pip install xxx 报错
一:有人说可能是pip未更新,因为过于旧的版本确实无法安装模块,更新方法
python -m pip install --upgrade pip
二:针对第一点,如果更新失败,推荐以下步骤
python -m pip uninstall pip 该命令可卸载安装的pip
然后到这里https://pypi.org/project/pip/#files下载最新版pip
你下到的是一个.tar.gz的压缩包,解压一次后再文件夹找到.tar的压缩包再次解压,进入第二个解压后的文件看见setup.py即可
进入cmd命令台,进入setup.py所在文件夹后,执行下面命令
python setup.py install
即可安装pip
三:关于pip install XXX 报错 :Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError
这个报错可能会出现在你所有的pip install 的步骤中。
网上很多解决方法,看的眼花缭乱,这里给个最简单的,也是直接解决了我的问题
换源
例如 安装lxml时报这个错误,就这样
pip insatll lxml -i http://mirrors.aliyun.com/pypi/simple/ 这个是阿里云
下面贴几个常用源
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣(douban) http://pypi.douban.com/simple/
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
这种安装方法不仅可以解决这个问题,平时安装模块时速度更是快很多,谁用谁知道
最后,解决了以上问题,并安装以上模块后
pip install scrapy
安装了最重要的scrapy就可以准备我们的第一个scrapy爬虫了