scrapy爬虫框架学习 - 代码天地

scrapy爬虫框架学习

其他 2018-07-12 14:31:54 阅读次数: 0

找到一个有关历史名人的网站：http://ren.bytravel.cn/ 网站地区分门别类很整齐，找到上饶地区，在一个名叫basic的爬虫代码里，start_url 里填写的就是这个网址：http://ren.bytravel.cn/Celebrity/index408_list.html

用scrapy爬取其中上饶籍的历史名人

首先，scrapy startproject shangraorenwucrawl 创建了一个scrapy项目

然后，这个scrapy项目的文件夹就建立好了，进入其中，写item.py 这个文件说明了你要爬取的item，这个item就像python里的字典，或者就像一张二维表，你定义要爬取的内容

然后，写setting.py 这个文件是scrapy的一些设置，在文件末尾添加了几行设置爬虫以浏览器名义执行request的语句，还有设置文件格式utf-8 等等

然后，在spider目录里新建爬虫py，你可以在命令行里，scrapy genspider basic web，这个basic爬虫是scrapy自带的模板，web是你允许爬虫去爬的域名，比如：ren.bytravel.cn

然后，写这个basic爬虫喽，找xpath，写爬虫

然后，写好爬虫，scrapy crawl basic 运行这个爬虫，你可以在命令行后面加 -s CLOSESPIIDER_ITEMCOUNT=60 这个是设置可以加 -o item.json 这样就把输出保存为json文件，当然也可以保存为csv文件

Duang的一下这个爬虫就OK了

GitHub地址：https://github.com/maoyuqing/shangraorenwucrawl

猜你喜欢

转载自www.cnblogs.com/MaoYQ/p/9299223.html

scrapy爬虫框架学习

学习随笔 Scrapy爬虫框架

Scrapy框架爬虫学习--1

Scrapy框架爬虫学习--2

python爬虫框架——Scrapy学习

Python Scrapy爬虫框架学习

爬虫框架Scrapy学习（一）

python爬虫框架Scrapy学习

爬虫Scrapy框架学习（一）

爬虫scrapy框架学习（三）

爬虫scrapy框架学习（二）

Scrapy爬虫框架学习一

学习笔记 scrapy 爬虫框架

Python学习---爬虫学习[scrapy框架初识]

【python学习】scrapy爬虫框架学习

爬虫学习之scrapy框架入门

Python爬虫框架Scrapy学习笔记原创

网络爬虫Scrapy框架学习2

网络爬虫Scrapy框架学习1

Python学习笔记——爬虫之Scrapy框架

Python爬虫框架Scrapy学习笔记

大数据-爬虫框架学习--scrapy

学习Python爬虫必备框架：Scrapy

Scrapy爬虫框架学习之XPath

Scrapy爬虫框架学习之Response对象

Python爬虫框架scrapy简单学习

《精通Python爬虫框架Scrapy》学习资料

Python 爬虫框架Scrapy Spiders学习

python学习之Scrapy爬虫框架

pyhton爬虫学习（十三）：scrapy框架原理

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)