创建Scrapy项目（一）

作者默认各位学者都是已经安装好Scrapy框架的，接下来我们进行实战操作。

环境：windows平台（win10专业版）

编译器:Pycharm专业版（官网下载的然后网站上找的破解方法，破解方法会时时更新，所以读者要破解码之类的直接百度就好）

第一步：创建Scrapy文件

利用快捷键（win+R）快速打开运行窗口，然后在里面输入cmd命令进入cmd控制台界面。

由于本人有分类管理的习惯，所以一般我创建文件都不是直接创建在C盘，我喜欢建在D盘，如果你跟我一样有分类的习惯，在控制台输入D:

eg：C:\User\xxxx>D:(xxxx是用户名，自己设置的名字，本人设的是自己的名字，所以这里用xxxx代替）

换入D盘后直接输入scrapy startproject “项目名称” eg： scrapy startproject Movie

会出现以下内容

You can start your first spider with:
cd Movie
scrapy genspider example example.com

出现这些东西呢，就表明scrapy项目创建成功了，这时你可以去创建目录下面找到自己刚刚创建的文件夹（不要关闭刚刚的cmd窗口哦）

进入文件夹，你也可以看到scrapy框架帮我们创建好的文件，只不过还缺少一个spider模块，但现在无关紧要，我们先测试一下scrapy，毕竟安装跟创建也费了好大的功夫。

测试网站：电影天堂（一个福利网站吧，累了倦了看一看电影）

回到刚刚的cmd命令窗口，然后输入scrapy shell “http://www.dytt8.net/html/gndy/dyzz/index.html”回车，你就会看到这样的界面

然后在shell里面输入view(response)，首先你会看到一个True的返回值，然后调用你的浏览器打开刚刚的那个页面，只不过那个页面已经被下载到了本地（可以看看打开网页的链接哦~）

是不是觉得很神奇呢，嗯，接下来就是补全Scrapy框架（此时还是缺少一个Spider模块）。这种方式也可以用来测试网站是否有反爬虫，如果返回是True，那么绝大一部分网站都可以用scrapy爬取数据。

第二步：创建Spider模块

打开IDE-Pycharm，然后打开刚刚的创建的scrapy文件，接着在spiders文件下新建一个py文件，名字就叫Dytt8Spider，结果如下图所示：

然后在里面输入以下代码：

import scrapy
class Dytt8Spider(scrapy.Spider):
    #定义爬虫的名字
    name = "Dytt8"
    #允许爬虫访问的域名
    allowed_domains = ["dytt8.net"]
    start_urls = [
        "http://www.dytt8.net/html/gndy/dyzz/index.html"
    ]
    def parse(self,response):
        #实现网页的解析
        pass

然后在pycharm里面的Terminal中输入scrapy crawl Dytt8回车，此时你用scrapy写的爬虫就运行起来了，虽然没有爬取数据，但是可以运行也是很值得庆幸的。

到此，一个完整又简单的Scrapy框架已经搭建完成，下一篇我们来补全里面的内容（获取网页里面的数据并存入数据库（MongoDB、Mysql）两种数据库都实现一次）

不足之处或者有错误之处，还请各位朋友指点一下，Thanks♪(･ω･)ﾉ

创建Scrapy项目（一）

猜你喜欢