Python 实例｜清理包含 HTML 编码和 HTML 标签的文本 - 代码天地

Python 实例｜清理包含 HTML 编码和 HTML 标签的文本

企业开发 2023-10-01 09:04:41 阅读次数: 0

清理包含 HTML 编码和 HTML 标签的文本：

import html
import re


def clean_html(s: str) -> str:
    """清理包含 HTML 编码、HTML 标签的文本文档

    Parameters
    ----------
    s : str
        处理前的文本

    Returns
    -------
    str
        处理后的文本

    Examples
    --------
    >>> clean_html("<p>This is <b>bold</b> text. </p>")
    'This is bold text.'
    >>> clean_html("<p>    <span>&nbsp;测试&nbsp;文本&nbsp;</span></p>")
    '测试 文本'
    """
    s = html.unescape(s)  # 解码 HTML 编码
    s = re.sub("<[^>]+>", "", s)  # 移除 HTML 标签
    s = s.replace("\u00A0", " ")  # 将非断行空格替换为一般空格
    s = re.sub(" *\n *", "\n", s)  # 移除每一行前后的多余空格
    s = re.sub("\n+", "\n", s)  # 将多个连续换行替换为一个
    s = s.strip()  # 替换掉头尾的多余空行
    return s

猜你喜欢

转载自blog.csdn.net/Changxing_J/article/details/133063344

Python 实例｜清理包含 HTML 编码和 HTML 标签的文本

(python)Xpath如何提取html标签（HTML标签和内容）

文本去除html标签

html常用文本标签

HTML文本标签

HTML文本样式标签

HTML—文本标签

html中的文本标签

HTML 文本标签的学习

Html 标签文本缩进

HTML文本标签&列表

python 解析xml和html元素定位，解决a标签下有子标签时，获取 a标签的text文本问题

HTML标签之文本标签

HTML文本标签与列表标签

HTML常用标签——文本标签

Html常用标签和属性(包含Html5)

【HTML教程（一）】HTML标签、模板和实例

python全栈开发_day46_html文本标签

python过滤html标签

python去除html标签

html 文本解码 xpath 获取html标签

HTML标签的实例

HTML——文本域标签（textarea）

文本去除html标签工具

HTML基本标签、文本、表格

html:超文本标签语言

html文本基础结构标签

HTML文本结构及常用标签

HTML初识之文本标签

清除文本中的Html标签

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)