参考http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2
因为我是在虚拟环境中安装的Scrapy,所以要先切换到虚拟环境
cd Scrapyenv
source bin/activate
创建一个项目
scrapy startproject myfirst
会在当前目录创建一些文件
项目名/
scrapy.cfg #配置文件
项目名/
__init__.py
items.py #项目中的item文件 Item 是保存爬取到的数据的容器
pipelines.py
settings.py
spiders/ #放置爬虫代码的目录
__init__.py
在spiders目录下,创建一个爬虫任务文件 myfirst_spider.py,并添加内容
import scrapy
class myFirstSpider(scrapy.Spider):
name = "myFirst_Spider_Task" #任务名
allowed_domains = ["baidu.com"]
start_urls = ["http://www.baidu.com",]
def parse(self, response):
print response.body
启动任务
cd myfirst #这里是项目目录
scrapy crawl myFirst_Spider_Task #这里是任务名
当然,结果不是预期的,因为百度设置了robots协议
[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>
忽略robots协议,需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。