AI&BigData one：使用Python爬虫实现爬取HTML页面内容 - 代码天地

AI&BigData one：使用Python爬虫实现爬取HTML页面内容

其他 2018-05-07 15:39:05 阅读次数: 4

# -*- coding: utf-8 -*-  

'Python实现爬取HTML页面内容

# 导入requests包
import requests
# BeautifulSoup用于页面解析
from bs4 import BeautifulSoup

# requests get请求
# requests.get里面返回的就是纯网页文件，下面需要进一步的解析
req = requests.get('http://finance.eastmoney.com/news/cywjh.html')  # 东方财富网
# 页面数据结构化
bs = BeautifulSoup(req.content, 'html.parser')
# =============================================================================  
# 页面解析  
# =============================================================================  
# 获取类标签为title的所有p段落,即为该页面的新闻报道的标题
# 对于为什么是选择class='title'的段落，这个需要通过浏览器的开发工具来查看具体的HTML源代码。
p_title = bs.find_all('p', attrs={'class': 'title'})
# print p_title[0]
# 循环获取该页面的所有新闻标题
for info in p_title:
    # 获取p标签里面的a标签的url
    url = info.a.get('href')
    # print url
    # 详细页面get请求
    req = requests.get(url)
    # 页面数据结构化
    bs1 = BeautifulSoup(req.content, 'html.parser')
    # =============================================================================  
    # 笔记：  
    # find()方法为找到第一个符合条件的对象  
    # find_all()方法为找到所有符合条件的对象  
    # =============================================================================  
    # 详细页面解析
    title = bs1.find('h1').text  # 找到第一个h1标签
    p_all = bs1.find_all('p')  # 找到所有的p标签
    # print该篇新闻的题目
    print title
    for p in p_all:
        # 循环print该篇新闻的所有段落内容
        print p.text
    print '-------------------------------------'

猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/80056395

AI&BigData one：使用Python爬虫实现爬取HTML页面内容

AI&BigData three：使用定时器抓取数据

AI&BigData five：基于爬虫抓取的语料，使用gensim建设dictionary、corpus、tfidf_model并保存成文件两种方法

Python爬虫爬取搜狗搜索到的内容页面

BigData

【Python爬虫】之爬取页面内容、图片以及用selenium爬取

python爬虫---实现项目(一) Requests爬取HTML信息

Python爬虫爬取新浪新闻内容

BigData & AI常用词汇（后续更新）

python爬虫--打开爬取页面

Python 爬虫 ——爬取Web页面图片

Python爬虫笔记：爬取单个页面

python简单爬虫，爬取整个页面

Python爬虫——使用Spider实现数据的爬取（一）

Python爬虫——使用Scrapy实现图片的爬取（四）

【爬虫】使用 Scrapy + Selenium 爬取动态加载页面的内容

PHP 爬虫体验（三） - 使用PHP + puppeteer爬取js动态渲染的页面内容

【BigData】Java基础_登录注册实现

【BigData】Java基础_FileInputStream的基本使用

【BigData】Java基础_构造方法的使用

Python爬虫教程-12-爬虫使用cookie爬取登录后的页面人人网（上）

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面人人网（下）

python爬虫-简单的图片爬取实现

python爬虫实现爬取电影信息

爬虫——爬取贵阳房价（Python实现）

用Python网络爬虫框架Scrapy实现对新华网的文章内容爬取

python 爬虫使用正则爬取51job内容并存入txt

[Python 爬虫之路3] 使用seletom，爬取淘女郎-美人库的内容

使用python爬虫——爬取淘宝图片和知乎内容

Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

今日推荐

AI小程序有哪些？AI小程序哪个好用？微信小程序AI写作叫什么？免费的ai小程序推荐 ai写作小程序推荐

灵办AI工具(科研学术,代码编程,学习辅导,图书报告)功能介绍

Linux内核源码分析（非常详细）零基础入门到精通，收藏这一篇就够了

【C++篇】启航——初识C++（上篇）

数据飞轮崛起：数据中台真的过时了吗？

828华为云征文——使用Flexus云服务器X实例CentOS镜像下创建MySQL服务器教程

阿里巴巴出品的6款AI神器，你用过几个？

【机器学习】多模态AI——融合多种数据源的智能系统

HashiCorp 创始人向 Zig 软件基金会捐赠 30 万美元

1-8 月我国软件业务收入 85492 亿元，同比增长 11.2%

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

周排行

Ubuntu+apache2+php5+mysql+phpmyadmin的php环境搭建

基于YOLOv3+Kalman-Filter实现Multi-target tracking

解释C++实例化类的指针类型中的new

苹果手机页面不兼容问题——mui

Python基础语法

javascript学习笔记一【预解释】

python内置函数 map

【Git】使用webstorm操作git

this与super关键字（一）

python list 使用技巧

每日归档

更多

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)