如何快速去掉爬虫结果中的标签 - 代码天地

如何快速去掉爬虫结果中的标签

其他 2018-12-06 10:50:55 阅读次数: 0

from w3lib.html import remove_tags

def go_remove_(value):
        # 移除标签
        # content = remove_tags(value)
        # 移除汉子
        # content=re.sub(r'[\u4e00-\u9fa5]{1,}', '', value)
        i = re.sub(r'<em>.*$', "", value)
        i = re.sub(r'[\u4e00-\u9fa5]+', "", i)
        i = re.sub(r'。.$', "", i)
        i = re.sub(r'。.*', "", i)
        # 移除空格 换行
        return re.sub(r'[\t\r\n\s]', '', i)



def go_remove_tag(value):
    # 移除标签
    content = remove_tags(value)
    # 移除空格 换行
    return re.sub(r'[\t\r\n\s]', '', content)

猜你喜欢

转载自blog.csdn.net/u014229742/article/details/84237029

如何快速去掉爬虫结果中的标签

VS如何快速去掉空行

如何快速去掉.svn文件夹

Eclipse怎样快速去掉注释？

快速去掉代码行前的数字

【Excel】如何快速去除 Excel 中的小数点

快速去掉List中的重复项并按原来顺序返回新的List

一行代码快速去掉字符串中的所有空格

快速去掉Word 2007换行符

如何去掉爬虫结果list中空格的字符串

怎么去掉视频上的水印？快速去除水印或字幕的大神技巧

003-photoshop快速去掉图片背景颜色、签名放到指定文档合成图片

如何去掉ECSHOP meta标签中的版本号

eclipse中如何快速打出mapper标签?

去掉NSString中的HTML标签

IE中a标签的边框去掉

MySql 快速去重方法

JS数组快速去重

Oracle查询结果中的日期格式显示到毫秒数，如何去掉多余的数

css/html-如何去掉网页中图片之间的空隙/html中标签如何归类

如何去掉a标签的下划线

CSS中如何去掉li标签前面的小圆点

Python爬虫-爬取文档内容，如何去掉文档中的表格，并保存正文内容

Java如何快速获取Html标签中的内容

php 数组元素快速去重

PHP 一维数组快速去重

CorelDRAW快速去除图片背景颜色

快速去水印的工具有什么

oracle 表按照字段快速去重

轻松搞定！图片快速去除水印

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)