PyPDF2模块PdfFileWriter和PdfFileReader应用
我们从网络上下载PDF阅读,一般情况都会遇到下载的文件被加载上作者logo页面,不管是有意还是无意,移除他们很困难,除非购买第三方PDF编辑或者转换软件,经过这两个模块的学习,比较上一篇文章,我们可以很轻松的移除logo页面。
1、用到的知识点:
Python的for循环及continue跳出,python第三方PyPDF2模块:PdfFileReader读取模块常用属性方法,PdfFileWriter写模块常用属性方法等。
2、用到的文件及核心思想:
上一节添加logo后生成的PDF文档,核心思想是:
读一行写一行,适时跳出不要的行
原始文件截图如下:首页、尾页中间页有logo页面,怎样删除呢?
原始文件截图
3、代码操作编写截图:
give your the code:
from PyPDF2 import PdfFileReader as pdfreader
from PyPDF2 import PdfFileWriter as pdfwriter
# 初始化环境
rpdf = pdfreader('唐诗三百首_ad.pdf') #读取原始文件
discard =[0,23,32] #需要删除的页面
wpdf = pdfwriter()
# 循环遍历原始文档,写入新文档
for i in range(rpdf.numPages):
tmp = rpdf.getPage(i) # 读一行原始文件
if i in discard:#如果页面在排除列表,跳出循环
continue
wpdf.addPage(tmp) # 写入一行
# 保存并写入文件
with open('remove_logo.pdf','wb') as f:
wpdf.write(f)
简单说:所谓的删除logo页面,就是逐页遍历原始文件,跳脱排除页面,重新生成新文件。
和上一节实战恰恰相反,你明白了吗^_^。
移除logo的PDF文件