PyPDF2模块介绍之——PdfFileReader
PdfFileReader class是文件读取模块,通过它,文件的PDF数据流会缓慢读入内存中,它的初始化操作如下:(以后本教程简写为pdfreader,权且叫pdf文件阅读器)
代码操作在c:/users/admin/desktop/pypdf/day02目录下,有一个文件test.pdf,Ipython8.0环境下测试
from PyPDF2 import PdfFileReader as pdfreader
# 测试pdf文件阅读后赋值给一个变量rpdf
rpdf = pdfreader('test.pdf')
type(rpdf)
基本概念介绍:一图胜千言
先看思维脑图:
pdfreader模块脑图
1、PdfFileReader常用属性测试
rpdf.documentInfo #获取文档元数据信息
rpdf.numPages # 获取pdf文件的页数,一共有多少页
rpdf.isEncrypted # 判断pdf文档是否加密了
属性操作1
属性操作2
2、PdfFileReader常用方法测试
getDocumentInfo( ) #获取文档元数据,属性documentInfo就是调取了它
getNumPages( ) # 获取pdf共有的页数,属性numPages就是调用了它
以上两个方法直接用属性替代操作简单点,省时省力。
getPage(Num) # 参数是数字,获取指定页数的页面对象
getPageNumber( ) # 获取页面对象的页码数字
decrypy(password) # 参数是密码,用于解密加密文档
p1 = rpdf.getPage(0) #获取页面对象
p2 = rpdf.getPage(5)
p3 = rpdf.getPaage(8) # 会出错,超出范围
# 判断文档是否加密,试图用123456解密它
if rpdf.isEncrypted:
rpdf.decrypt('123456')
else:
print('pdf文档未加密')
本节课我们简单的学习了PdfFileReader(简称pdfreader)模块的属性和方法,这些都是常用的,请认真参阅,亲自动手哦。