PyPDF2模块介绍之——PdfFileReader

PdfFileReader class是文件读取模块,通过它,文件的PDF数据流会缓慢读入内存中,它的初始化操作如下:(以后本教程简写为pdfreader,权且叫pdf文件阅读器)

代码操作在c:/users/admin/desktop/pypdf/day02目录下,有一个文件test.pdf,Ipython8.0环境下测试

from PyPDF2 import PdfFileReader as pdfreader # 测试pdf文件阅读后赋值给一个变量rpdf rpdf = pdfreader('test.pdf') type(rpdf)

基本概念介绍:一图胜千言

先看思维脑图:

pdfreader模块脑图

1、PdfFileReader常用属性测试

rpdf.documentInfo #获取文档元数据信息 rpdf.numPages # 获取pdf文件的页数,一共有多少页 rpdf.isEncrypted # 判断pdf文档是否加密了

属性操作1

属性操作2

2、PdfFileReader常用方法测试

getDocumentInfo( ) #获取文档元数据,属性documentInfo就是调取了它 getNumPages( ) # 获取pdf共有的页数,属性numPages就是调用了它

以上两个方法直接用属性替代操作简单点,省时省力。

getPage(Num) # 参数是数字,获取指定页数的页面对象 getPageNumber( ) # 获取页面对象的页码数字 decrypy(password) # 参数是密码,用于解密加密文档 p1 = rpdf.getPage(0) #获取页面对象 p2 = rpdf.getPage(5) p3 = rpdf.getPaage(8) # 会出错,超出范围 # 判断文档是否加密,试图用123456解密它 if rpdf.isEncrypted: rpdf.decrypt('123456') else: print('pdf文档未加密')

本节课我们简单的学习了PdfFileReader(简称pdfreader)模块的属性和方法,这些都是常用的,请认真参阅,亲自动手哦。