Python3 使用bs4按标签提取贴吧楼主发表内容

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013630017/article/details/52006354

最近在贴吧看文,想要把楼主的发言内容全部弄下来,一个一个复制好麻烦。于是做了一个半自动的提取工具,很简单。
没有做登录抓取功能,因为比较麻烦,只是用一次就不做登录了。

其实就是一个按标签过滤出来楼主的发言而已,当然页面需要你自己打开贴吧选择只看楼主然后把网页保存为html形式,再运行本程序

#!/usr/bin/env python
#coding=utf-8
from bs4 import BeautifulSoup
import codecs
import sys
import re
#输入保存的html名称即可过滤出想要的内容(需在同一个目录)
namei = input("The HTML Name:")
nameb = namei+".html"
namec = namei+".txt"
k = open(nameb,"rb")
l = k.read()
k.close()
soup = BeautifulSoup(l,"html.parser")
#楼主的标签
jie = soup.find_all('div','d_post_content j_d_post_content ')
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',str(jie))
#print(dd)
sucu = dd.encode()
la = open(namec,"wb")
la.write(sucu)
la.close()
print("SUCCESS:"+nameb+"You have got:"+namec)
#最后会保存成同名txt文件

猜你喜欢

转载自blog.csdn.net/u013630017/article/details/52006354