版权声明:本文为博主原创文章,欢迎转载,请注明出处 https://blog.csdn.net/mouday/article/details/85618178
安装工具
pip install pdfplumber
代码示例
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path):
try:
f = pdfplumber.open(pdf_path)
page = len(f.pages)
except PDFSyntaxError:
page = 0
return page
pptx
安装工具
pip install python-pptx
代码示例
from pptx import Presentation
def get_pptx_page(pptx_path):
try:
p = Presentation(pptx_path)
page = len(p.slides)
except KeyError:
page = 0
return page
docx、xlsx
Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。
Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。
Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页
所以,读取页数是不对的
参考