如何快速去掉爬虫结果中的标签

from w3lib.html import remove_tags

def go_remove_(value):
        # 移除标签
        # content = remove_tags(value)
        # 移除汉子
        # content=re.sub(r'[\u4e00-\u9fa5]{1,}', '', value)
        i = re.sub(r'<em>.*$', "", value)
        i = re.sub(r'[\u4e00-\u9fa5]+', "", i)
        i = re.sub(r'。.$', "", i)
        i = re.sub(r'。.*', "", i)
        # 移除空格 换行
        return re.sub(r'[\t\r\n\s]', '', i)



def go_remove_tag(value):
    # 移除标签
    content = remove_tags(value)
    # 移除空格 换行
    return re.sub(r'[\t\r\n\s]', '', content)

猜你喜欢

转载自blog.csdn.net/u014229742/article/details/84237029