找到一个有关历史名人的网站:http://ren.bytravel.cn/ 网站地区分门别类很整齐,找到上饶地区,在一个名叫basic的爬虫代码里,start_url 里填写的就是这个网址:http://ren.bytravel.cn/Celebrity/index408_list.html
用scrapy爬取其中上饶籍的历史名人
首先,scrapy startproject shangraorenwucrawl 创建了一个scrapy项目
然后,这个scrapy项目的文件夹就建立好了,进入其中,写item.py 这个文件说明了你要爬取的item,这个item就像python里的字典,或者就像一张二维表,你定义要爬取的内容
然后,写setting.py 这个文件是scrapy的一些设置,在文件末尾添加了几行设置爬虫以浏览器名义执行request的语句,还有设置文件格式utf-8 等等
然后,在spider目录里新建爬虫py,你可以在命令行里,scrapy genspider basic web,这个basic爬虫是scrapy自带的模板,web是你允许爬虫去爬的域名,比如:ren.bytravel.cn
然后,写这个basic爬虫喽,找xpath,写爬虫
然后,写好爬虫,scrapy crawl basic 运行这个爬虫,你可以在命令行后面加 -s CLOSESPIIDER_ITEMCOUNT=60 这个是设置 可以加 -o item.json 这样就把输出保存为json文件,当然也可以保存为csv文件
Duang的一下这个爬虫就OK了
GitHub地址:https://github.com/maoyuqing/shangraorenwucrawl