作者默认各位学者都是已经安装好Scrapy框架的,接下来我们进行实战操作。
环境:windows平台(win10专业版)
编译器:Pycharm专业版(官网下载的然后网站上找的破解方法,破解方法会时时更新,所以读者要破解码之类的直接百度就好)
第一步:创建Scrapy文件
利用快捷键(win+R)快速打开运行窗口,然后在里面输入cmd命令进入cmd控制台界面。
由于本人有分类管理的习惯,所以一般我创建文件都不是直接创建在C盘,我喜欢建在D盘,如果你跟我一样有分类的习惯,在控制台输入D:
eg:C:\User\xxxx>D:(xxxx是用户名,自己设置的名字,本人设的是自己的名字,所以这里用xxxx代替)
换入D盘后直接输入scrapy startproject “项目名称” eg: scrapy startproject Movie
会出现以下内容
You can start your first spider with:
cd Movie
scrapy genspider example example.com
出现这些东西呢,就表明scrapy项目创建成功了,这时你可以去创建目录下面找到自己刚刚创建的文件夹(不要关闭刚刚的cmd窗口哦)
进入文件夹,你也可以看到scrapy框架帮我们创建好的文件,只不过还缺少一个spider模块,但现在无关紧要,我们先测试一下scrapy,毕竟安装跟创建也费了好大的功夫。
测试网站:电影天堂(一个福利网站吧,累了倦了看一看电影)
回到刚刚的cmd命令窗口,然后输入scrapy shell “http://www.dytt8.net/html/gndy/dyzz/index.html”回车,你就会看到这样的界面
然后在shell里面输入view(response),首先你会看到一个True的返回值,然后调用你的浏览器打开刚刚的那个页面,只不过那个页面已经被下载到了本地(可以看看打开网页的链接哦~)
是不是觉得很神奇呢,嗯,接下来就是补全Scrapy框架(此时还是缺少一个Spider模块)。这种方式也可以用来测试网站是否有反爬虫,如果返回是True,那么绝大一部分网站都可以用scrapy爬取数据。
第二步:创建Spider模块
打开IDE-Pycharm,然后打开刚刚的创建的scrapy文件,接着在spiders文件下新建一个py文件,名字就叫Dytt8Spider,结果如下图所示:
然后在里面输入以下代码:
import scrapy class Dytt8Spider(scrapy.Spider): #定义爬虫的名字 name = "Dytt8" #允许爬虫访问的域名 allowed_domains = ["dytt8.net"] start_urls = [ "http://www.dytt8.net/html/gndy/dyzz/index.html" ] def parse(self,response): #实现网页的解析 pass
然后在pycharm里面的Terminal中输入scrapy crawl Dytt8回车,此时你用scrapy写的爬虫就运行起来了,虽然没有爬取数据,但是可以运行也是很值得庆幸的。
到此,一个完整又简单的Scrapy框架已经搭建完成,下一篇我们来补全里面的内容(获取网页里面的数据并存入数据库(MongoDB、Mysql)两种数据库都实现一次)
不足之处或者有错误之处,还请各位朋友指点一下,Thanks♪(・ω・)ノ