pdf格式的文件必须用相应的pdf阅读器才能打开,而且一般的pdf阅读器打开pdf文件后并不支持编辑修改PDF文档的文字。如果可以把把pdf转化为txt文本文件,那么我们阅读编辑起来就容易的多。现在市场上已经有很多PDF转换程序,但是基本上需要付费。但是你只要学会了用Python来进行pdf文件转换为txt文件操作,仅仅只需要短短几行代码就可以搞定。废话不多说,直接上代码。
1)代码
import pdfplumber
path=r"..\requests\财务报表\\贵州茅台2021年半年度报告.pdf"
pdf=pdfplumber.open(path) # 打开PDF文件
pages=pdf.pages # 通过pages属性获取所有页的信息,此时pages是一个列表
text_all=[]
for page in pages:
# 用extract_text()函数获取每页文本内容
text=page.extract_text()
text_all.append(text)
text_all="".join(text_all)
print(text_all)
# 将文件保存为txt文本格式
txt_file=open("贵州茅台2021年半年报报告.txt",mode='a',encoding='utf-8')
txt_file.write(text_all)
pdf.close()
- 输出效果