Day2-《青春有你2》选手信息爬取 - 代码天地

Day2-《青春有你2》选手信息爬取

其他 2020-04-29 13:19:13 阅读次数: 0

书写代码部分

def crawl_pic_urls():

'''

爬取每个选手的百度百科图片，并保存

'''

with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:

json_array = json.loads(file.read())

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

}

import pdb

for star in json_array:

name = star['name']

link = star['link']

#！！！请在以下完成对每个选手图片的爬取，将所有图片url存储在一个列表pic_urls中！！！

# pdb.set_trace()

pic_urls=[]

print(name,link)

try:

response = requests.get(link,headers=headers)

print(response.status_code)

#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串

soup = BeautifulSoup(response.text,'lxml')

#返回的是class为table-view log-set-param的<table>所有标签

tables = soup.find_all('div',{'class':'summary-pic'})

# crawl_table_title = "参赛学员"

for table in tables:

#对当前节点前面的标签和字符串进行查找

# table_hrefs = table.select("img")

table_hrefs = table.select("a")

for href in table_hrefs:

# pdb.set_trace()

# data=href.get('src')

# pic_urls.append(data)

data=href.get('href')

# data_list=data.split('/')

url_data='https://baike.baidu.com'+data

# pdb.set_trace()

try:

response = requests.get(url_data,headers=headers)

print(response.status_code)

soup = BeautifulSoup(response.text,'lxml')

pics=soup.select('.pic-list img ')

for pic in pics:

src=pic.get('src')

pic_urls.append(src)

# pics = soup.find_all('div',{'class':'pic-list'})

# for pic in pics:

# pic_urls = pic.select("a")

# for pu in pic_urls:

# imgs=pu.select('img')

# for img in imgs:

# src=img.get('src')

# if src:

# pic_urls.append(src)

except Exception as e:

print(e)

# pic_urls.append(url_data)

except Exception as e:

print(e)

#！！！根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中！！！

down_pic(name,pic_urls)

cgq081616

原创文章 13 获赞 5 访问量 1万+

关注私信

猜你喜欢

转载自blog.csdn.net/cgq081616/article/details/105814073

Day2-《青春有你2》选手信息爬取

paddlepaddle(飞桨) python 教学 Day2-《青春有你2》选手信息爬取--解答

飞桨学院-Python从小白逆袭大神-DAY2-青春有你2选手信息爬取

【飞桨深度学习 && 百度七日打卡 && Python小白逆袭大神】Day2：《青春有你2》选手信息爬取

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息

Day4-《青春有你2》选手识别

Day4-《青春有你2》选手识别 PaddleHub之《青春有你2》作业：五人识别

Day3-《青春有你2》选手数据分析

DAY3《青春有你2》选手数据分析

Python小白逆袭大神:Day4-《青春有你2》选手识别

aistdio paddlepaddle(飞浆) python 学习 Day3-《青春有你2》选手数据分析

Day5《青春有你2》评论数据爬取与词云分析

青春有你利用飞桨给青春有你2的选手们做数据分析

飞桨学院-Python从小白逆袭大神-Day3-《青春有你2》选手数据分析

【飞桨深度学习 && 百度七日打卡 && Python小白逆袭大神】Day3：《青春有你2》选手数据分析

【飞桨深度学习 && 百度七日打卡 && Python小白逆袭大神】Day4：《青春有你2》选手识别

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(三):看图像识选手

Day2-栈

选手信息展示界面模板-Blue

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(四):AI分析谁最容易出道

手把手教你爬取优酷电影信息-2

爬取网易云音乐“三部曲”（一）：爬取歌手信息！

day2-安装python

飞桨学院Python小白逆袭大神第二天《青春有你2》练习生照片爬取

Day2 《青春有你2》Python 爬虫和人像动漫体验

[WebShow系列] 选手信息及打分展示界面选项及现场操作说明

如果打算排行榜自定义,把所有选手信息全部显示一页。如何操作?

day2-关于python基础

day2-三级菜单

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)