Python爬取中国大学 - 代码天地

Python爬取中国大学

其他 2021-04-04 21:23:33 阅读次数: 0

Python爬取中国前30名大学

最近在学习爬虫，学习任务中有一个爬取中国前30名的大学，按着教程来爬一直有bug，网上的代码没找到一个能用的…自己探索出来一个供大家学习一下（ps：排名30以后的大学是需要抓包才能爬到么？希望有大佬指点一下）

import requests
import pandas as pd
from bs4 import BeautifulSoup
import bs4


# 爬取中国前一百名的大学
# 获取html
def get_html(url):
    headers = {
    
    
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400"}
    try:
        res = requests.get(url, headers=headers, timeout=30)
        res.encoding = 'utf-8'
        return res.text
    except:
        return ""
    
# 解析html
def parser_html(uni, html):
    soup = BeautifulSoup(html, 'html.parser')
    rank = []
    university = []
    score = []
    # 获取各个大学的信息
    for tr in soup.tbody.children:
        if isinstance(tr, bs4.element.Tag):
            td = tr.find_all('td')
            # 用text获取子标签信息
            rank.append(td[0].text.strip())
            university.append(td[1].find('a').string.strip())
            score.append(float(td[4].text.strip()))
    
    uni['排名'] = rank
    uni['大学名称'] = university
    uni['综合得分'] = score

url = 'https://www.shanghairanking.cn/rankings/bcur/2020'
df_uni = pd.DataFrame(columns=['排名', '大学名称', '综合得分'])
html = get_html(url)
parser_html(df_uni, html)
df_uni

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44424296/article/details/114932708

Python爬取中国大学

python 爬虫实例爬取中国大学排名

定向爬虫，爬取中国大学排名 Python

python爬取中国大学排名

【python】爬取中国大学排名

爬取中国大学排名

中国大学定向排名爬取

中国大学排名的爬取

国内大学排名如何？用Python爬取中国大学排名

【Python爬虫】从html里爬取中国大学排名

Python基础练习（一）中国大学定向排名爬取

Python定向爬取单网页中国大学排名（一）

Python爬虫——定向爬取“中国大学排名网”

python-爬取中国大学排名（第五周）

使用Python爬取中国大学排名，并格式化对其输出内容

python爬虫爬取2020年中国大学排名

Python爬虫入门实例三之爬取软科中国大学排名

中国大学哪家强？Python爬取排名榜，太棒啦(31)

2023年python爬取中国大学排名并且进行数据分析

中国大学MOOC课程信息爬取与数据存储

中国大学排名定向爬取

爬取中国大学排行榜

实例一：中国大学排名爬取

爬取中国大学排名并以csv格式存储

初学爬虫之访问goole网页与爬取中国大学排名。

网络爬虫爬取中国大学排名，并存入数据库

爬取中国大学排名时报错：AttributeError: 'NoneType' object has no attribute 'children'

2021-2-8爬取中国大学排名

python-爬取中国最好大学网页

Python爬虫：全国大学招生信息（一）：爬取数据 (多进程、多线程、代理)

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)