scrapy框架下第一只爬虫！ - 代码天地

scrapy框架下第一只爬虫！

编程语言 2019-01-07 09:00:53 阅读次数: 0

学习素材

整合学习的fishc.com知识，加巩固学习，不作其他目的！新手上路，前辈指教
今天学习了scrapy框架编写第一只爬虫，爬取的url：http://www.dmoztools.net/是一个分类目录网址
_________________________________________________________________________________________________分割线网页截图
目的：希望把标题、超链接、描述都保存到一个文件中

正文

1、新建一个爬虫

打开cmd，切换目录到桌面：cd Desktop（默认为你的用户名所在地，C://user,使用cd /d D:// 路径切换到具体文件夹）
新建爬虫scrapy startproject tutorial
（新建爬虫的另一种方法：）
桌面出现了tutorial的文件夹，里面的文件有
spider是从网页爬取数据的类

2、编辑items

items的作用是存储爬取数据的容器，它就是类似于字典，定义一个item的方法很简单，只要继承scrapy.item类，并将所有字段定义为scrapy.Field()即可。

class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.编写spider

在spiders中新建一个爬虫，命名dmoz_spider.py,代码如下

import scrapy

class DmozSpider(scrapy.Scrapy):
	name = "dmoz"
	allow_domains = "dmoztools.net"
	start_urls = [
	'http://www.dmoztools.net/Computers/Programming/Languages/Python/Books/',
	'http://www.dmoztools.net/Computers/Programming/Languages/Python/Resources/'
	]
	
	def parse(self,response):
		filename = response.url.split('/')[-2]
		with open(filename,'wb') as f:
			f.write(response.body)

为验证爬取过程，先将其打印出来
注意：
（1）每个爬虫的name是惟一的，就是后面cmd中的调用名
（2）domain指的是爬虫的爬取范围
（3）列表中有一个逗号

4、test

进入cmd，

标题

标题

标题

猜你喜欢

转载自blog.csdn.net/qq_43680223/article/details/85958956

scrapy框架下第一只爬虫！

我的第一只爬虫

论一只爬虫的自我修养11：Scrapy框架之初窥门径

一只爬虫的旅途

django 框架下第一个程序 (pycharm)

python3.6 Scrapy框架下的爬虫（一）

Scrapy爬虫框架下执行爬虫的方法

《零基础入门学习Python》第063讲：论一只爬虫的自我修养11：Scrapy框架之初窥门径

第063讲: 论一只爬虫的自我修养11：Scrapy框架之初窥门径 | 学习记录（小甲鱼零基础入门学习Python）

由浅到深玩转Python爬虫(一)第一只爬虫

Python爬虫第三课：我的人生第一只爬虫

一只想成长的爬虫~~

一只C++爬虫

初学者教程：第一只爬虫——爬取招聘信息（一）

初学者教程：第一只爬虫——爬取招聘信息（三）

初学者教程：第一只爬虫——爬取招聘信息（二）

一爬虫框架(scrapy)

scrapy爬虫框架(一)

Scrapy框架下的海贼王漫画自动爬虫

在scrapy框架下爬虫中如何实现翻页请求

Scrapy爬虫框架第一讲(Linux环境)

python之Scrapy框架的第一个爬虫

一只node爬虫的升级打怪之路

scrapy爬虫框架（一）：scrapy框架简介

一只猫

一只小狗

第一只脚进门：Android常用的布局学习

2021美国第一只独角兽来啦！

第062讲: 论一只爬虫的自我修养10：安装Scrapy | 学习记录（小甲鱼零基础入门学习Python）

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)