【爬虫入门5】爬取酷狗TOP500 - 代码天地

【爬虫入门5】爬取酷狗TOP500

其他 2018-08-14 05:09:25 阅读次数: 0

#coding utf-8
import time
import requests
from bs4 import BeautifulSoup

class spider_KG_top500(object):

    def __init__(self):
        print('Welcome to spider_KG_top500')

    def get_song_info(self, page_num):

        for page_num in range(page_num):

            page_num += 1
            if page_num > 23:
                print('Spider end!')
                break
            url = r'http://www.kugou.com/yy/rank/home/%s-8888.html?from=rank'%page_num
            headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}
            res = requests.get(url, headers=headers)
            res.encoding = 'utf-8'
            page = res.text
            soup = BeautifulSoup(page,'html.parser')
            song_rank = soup.select('.pc_temp_num')
            #'.pc_temp_songlist > ul > li > a' 标签之间必须带空格
            song_info = soup.select('.pc_temp_songlist > ul > li > a')
            song_time = soup.select('.pc_temp_time')

            for rank, info, song_time in zip(song_rank, song_info, song_time):
                data = {
                            'rank': rank.text.strip(),
                            'name': info['title'].split('-')[0].split(),
                            'singer': info['title'].split('-')[1].split(),
                            'song_time': song_time.text.strip()
                }
                print('Page %s:\n%s'%(page_num,data))

if __name__ == '__main__':
    while True:
        try:
            page_num = int(input('please input how many page to spider: '))
            break
        except Exception as e:
            print('please input 数字: ')
    start_time = time.time()
    spider = spider_KG_top500()
    spider.get_song_info(page_num)
    end_time = time.time()
    spend_time = end_time - start_time
    print('spend: %ss'%spend_time)

猜你喜欢

转载自blog.csdn.net/weixin_39723165/article/details/81407000

【爬虫入门5】爬取酷狗TOP500

[Python爬虫]爬虫实例:爬取酷狗TOP500的数据

爬取酷狗音乐Top500

爬取酷狗榜单中的top500

java爬取并下载酷狗TOP500歌曲

实例学习——爬取酷狗TOP500数据

Python爬取酷狗音乐TOP500榜单

Matlab 爬虫 Web Scraping with Matlab 02--爬取酷狗TOP500的数据

爬虫学习之4：BeautifulSoup爬取酷狗Top500歌曲

python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

爬虫程序2-爬取酷狗top500

python网络爬虫-爬取酷狗TOP500的数据源码

Java也能做爬虫了？我爬取并下载了酷狗TOP500的歌曲！

爬虫项目3[爬取酷狗音乐Top500歌名]

酷狗音乐TOP500爬虫

使用xpath爬取酷狗TOP500的歌曲信息

【python】爬取酷狗音乐Top500排行榜【附源码】

爬去酷狗top500的数据

java 爬虫下载酷狗top500

Python爬取酷狗Top500的歌曲！够你吹个小牛皮了吧

Python爬虫入门——2. 2爬取酷狗音乐top1-500歌曲信息

python经典爬虫之获取酷狗音乐TOP500信息

爬取豆瓣top500电影

酷狗TOP500了解大众音乐喜好

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

python 爬虫酷狗500TOP

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

python获取酷狗音乐top500的下载地址 MP3格式

python获取酷狗TOP500音乐排行榜（新手向）

今日推荐

【学术精选】遥感领域高水平期刊：J-STARS 期刊介绍

探索二次元新境界：Han1meViewer——您的专属动漫神器

Java毕业设计：基于Java福建省地方特产销售商城系统毕业设计源代码作品和开题报告

【机器学习】自动驾驶——智能交通与无人驾驶技术的未来

智谱清影的魅力：使用CogVideoX-2b生成6秒视频的真实体验！

苹果可能将于 2025 年推出首款智能显示器和配套操作系统 homeOS

源码解析：从零解读SAM(Segment Anything Model)大模型！

《王者荣耀》鸿蒙原生版开启限量删档测试

fl studio v20.8中文破解版(附Crack文件+图文安装教程)

AI驱动TDSQL-C Serverless 数据库技术实战营-电商可视分析

828华为云征文 | 将Vue项目部署到Flexus云服务器X实例并实现公网访问

Java毕业设计：Java江西南昌城市文化展示网站系统毕业设计源代码作品和开题报告

周排行

单向链表的运用---一元多项式的加减详解

WEEK13 GITHUB

C语言左移和右移

四个概念详细分析servlet、filter、listener、interceptor的区别与联系

C语言如何使用print语句 %d%c%s

11.代码测试、维护

LAMMPS安装-给新手的建议

Android在页面上写字,居中写文字

OracleSID在本机上已经存在,请指定一个不同的SID的解决办法

开复老师的回信

每日归档

更多

2024-10-07(64)

2024-10-06(2)

2024-10-05(62)

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)