爬虫程序2-爬取酷狗top500 - 代码天地

爬虫程序2-爬取酷狗top500

其他 2018-12-01 16:21:22 阅读次数: 0

爬取的内容为酷狗榜单中酷狗top500的音乐信息，如图所示。

网页版酷狗不能手动翻页，进行下一步的浏览。但通过观察第一页的URL：

http://www.kugou.com/yy/rank/home/1-8888.html

这里尝试把数字1换为数字2，进行浏览，恰好返回的是第2页的信息（下图）。进行多次尝试，发现更换不同数字即为不同页面，故只需更改home/后面的数字即可。由于每页显示的为22首歌曲，所以总共需要23个URL

import requests
from bs4 import BeautifulSoup
import time

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

def get_info(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist > ul > li > a')
times = soup.select('span.pc_temp_tips_r > span')
for rank,title,time in zip(ranks,titles,times):
data = {
'rank':rank.get_text().strip(),
'singer':title.get_text().split('-')[0],
'song':title.get_text().split('-')[0],
'time':time.get_text().strip()
}
print(data)

if __name__ == '__main__':
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,24)]
for url in urls:
get_info(url)
time.sleep(1)

猜你喜欢

转载自www.cnblogs.com/wuxingqueshui/p/10049824.html

爬虫程序2-爬取酷狗top500

【爬虫入门5】爬取酷狗TOP500

[Python爬虫]爬虫实例:爬取酷狗TOP500的数据

爬取酷狗音乐Top500

爬取酷狗榜单中的top500

java爬取并下载酷狗TOP500歌曲

实例学习——爬取酷狗TOP500数据

Python爬取酷狗音乐TOP500榜单

Matlab 爬虫 Web Scraping with Matlab 02--爬取酷狗TOP500的数据

爬虫学习之4：BeautifulSoup爬取酷狗Top500歌曲

python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

python网络爬虫-爬取酷狗TOP500的数据源码

Java也能做爬虫了？我爬取并下载了酷狗TOP500的歌曲！

爬虫项目3[爬取酷狗音乐Top500歌名]

酷狗音乐TOP500爬虫

使用xpath爬取酷狗TOP500的歌曲信息

【python】爬取酷狗音乐Top500排行榜【附源码】

爬去酷狗top500的数据

java 爬虫下载酷狗top500

Python爬取酷狗Top500的歌曲！够你吹个小牛皮了吧

Python爬虫入门——2. 2爬取酷狗音乐top1-500歌曲信息

python经典爬虫之获取酷狗音乐TOP500信息

爬取豆瓣top500电影

酷狗TOP500了解大众音乐喜好

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

python 爬虫酷狗500TOP

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

python获取酷狗音乐top500的下载地址 MP3格式

python获取酷狗TOP500音乐排行榜（新手向）

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)