Scrapy 学习笔记 - 第一个项目 - 代码天地

Scrapy 学习笔记 - 第一个项目

其他 2019-02-22 14:51:11 阅读次数: 0

参考http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2

因为我是在虚拟环境中安装的Scrapy，所以要先切换到虚拟环境

cd Scrapyenv
source bin/activate

创建一个项目

scrapy startproject myfirst

会在当前目录创建一些文件

项目名/
    scrapy.cfg           #配置文件
    项目名/
        __init__.py
        items.py         #项目中的item文件  Item 是保存爬取到的数据的容器
        pipelines.py
        settings.py
        spiders/         #放置爬虫代码的目录
            __init__.py

在spiders目录下，创建一个爬虫任务文件 myfirst_spider.py,并添加内容

import scrapy
class myFirstSpider(scrapy.Spider):
    name = "myFirst_Spider_Task"   #任务名
    allowed_domains = ["baidu.com"]
    start_urls = ["http://www.baidu.com",]
    
    def parse(self, response):
        print response.body

启动任务

cd myfirst  #这里是项目目录 
scrapy crawl myFirst_Spider_Task  #这里是任务名

当然，结果不是预期的，因为百度设置了robots协议

[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>

忽略robots协议，需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。

猜你喜欢

转载自blog.csdn.net/holdsky/article/details/79356098

Python学习笔记--第一个项目scrapy

Scrapy 学习笔记 - 第一个项目

Scrapy爬虫学习笔记1. 安装并编写第一个Scrapy爬虫

python学习心得（四）：第一个scrapy项目调试经验

Scrapy 的学习笔记（一）

scrapy学习笔记（一）

Python-Scrapy创建第一个项目

创建第一个Scrapy项目

Scrapy入门-第一个爬虫项目

使用scrapy创建第一个爬虫项目

Scrapy:学习笔记(2)——Scrapy项目

第一个scrapy爬虫

第一个scrapy

学习笔记--我的第一个爬虫项目

Django学习笔记（1）--第一个项目

Scrapy 知识补充 + 第一个Scrapy项目(baidu.com)

【scrapy爬虫】Scrapy安装、详细指令参数讲解及第一个项目实例

Scrapy学习笔记-Selectors一

搭建第一个scrapy项目的常见问题

Python爬虫入门实战：创建第一个完整的scrapy项目！

Scrapy入门教程(1)——第一个项目

新手爬虫之创建第一个完整的scrapy项目

SpringBoot学习（一）第一个SpringBoot项目

Scrapy学习笔记（二）——Scrapy项目创建和常用指令

scrapy爬虫笔记（创建一个新的项目并运行） scrapy爬虫笔记（安装）

如何写第一个scrapy

python之Scrapy框架的第一个爬虫

Scrapy - 第一个爬虫和我的博客

Scrapy框架: 第一个程序

笔记-django第一个项目

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)