python学习--解析网页 - 代码天地

python学习--解析网页

其他 2019-11-12 11:34:11 阅读次数: 0

# -*- coding: utf-8 -*-
"""
Created on Thu Oct 17 14:04:21 2019

@author: DELL
"""
"""
BeautifulSoup解析数据
lxml是个容错率高效的解析器

"""
import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_urls(n): #定义一个函数取页数
print("start")

urls = []
for i in range(1,n+1): #遍历每页
urls.append('https://travel.qunar.com/p-cs299878-shanghai-jingdian-1-%s' %i)
return urls

"""
获取每页数据

"""
def get_data(url):
r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml') #解析网页
ul = soup.find('ul',class_='list_item clrfix') #解析好网页后查找
lis = ul.find_all('li') #获取所有的li标签
print(1)

datalst = [] #c创建一个列表存放所有
print(datalst)
print(2)

for li in lis:
dic={} #创建一个空的字典存放遍历数据
print(3)
dic['lng'] = li['data_lng'] #每次循环采集经度这个数据，data_lng是属性名
dic['lat'] = li['data_lat']
dic['景点名称'] = li.find('span',class_='cn_tit').text #.text方法获取具体标签下的元素
dic['星级'] = li.find('span',class_='cur_star')['style'].split(':')[1].replace('%','') #获取属性用[]
datalst.append(dic)

"""
构建函数获取所有的页数的数据
遍历url网址获取每一页数据，将数据存放在alldata中
"""

def get_alldata(n):
alldata = []
for url in get_urls(n):
alldata.extend(get_data(url))
return alldata

get_alldata(7)

df = pd.DataFrame(get_alldata)
df.to_csv('C:/Users/DELL/Desktop/资料/data.cvs')

猜你喜欢

转载自www.cnblogs.com/xixirang/p/11840649.html

python学习--解析网页

python学习之BeautifulSoup解析网页

爬虫学习----解析网页

python爬虫学习笔记（一）-- beautifulsoup 解析网页文件下载网页图片

Python实现对网页的简单解析

python网页解析器

python解析html网页BeautifulSoup

Python爬虫之解析网页

python解析omim网页内容

XPath解析网页学习笔记

Python爬虫：使用lxml解析网页内容

python爬虫基础--获取并解析网页

python爬虫(五)网页解析器

Python pyquery库解析html网页

python 爬虫（xpath解析网页，下载照片）

Python写爬虫——抓取网页并解析HTML

python BeautifulSoup4解析网页

python爬虫网页解析之lxml模块

Python爬虫解析网页的4种方式

用Python爬取解析过的网页

Python爬虫：HTML网页解析方法小结

Python使用PyQuery解析网页元素

java网页解析jsoup学习笔记

python基础学习网页

python学习笔记分享(三十八)网络爬虫(5)解析网页的三种常用方法与数据存储

百度大牛带你学习Python爬取，解析网页、存储数据的三大爬虫技术

Python学习杂记之静态网页学习

Python利用BeautifulSoup抓取解析网页数据

Python爬虫：chrome网页解析工具-XPath Helper

BeautifulSoup解析html网页（Python3--爬虫）

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)