pdf

最近在做深度学习目标检测方面的课题,需要收集大量的图片,只在网上收集到许多相关的PDF文档,需要将pdf文档批量转成jpg或png等格式的图片。在网上找了一大圈,很多转换软件都是收费的,好不容易找到免费的工具又不能批量处理,因此亟需用代码实现pdf文档转图片的功能,使用下面的python脚本可实现批量转化,支持转换为jpg、png、bmp、jpeg、tif、gif等常见的图片格式。

首先,需要安装pdf2image的依赖包,使用pip install pdf2image命令实现。

pdf2image依赖包文件

主函数代码如下:

from pdf2image import convert_from_path, convert_from_bytes from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError ) # import tempfile import os poppler_path = r"E:/pdf2image/poppler-0.68.0/bin" pdf_dir_path = r"E:/pdf2image/pdf/" save_path = r'E:/pdf2image/results' for root, Dir, files in os.walk(pdf_dir_path): for file in files: pdf_name = os.path.splitext(file)[0] pdf_path = pdf_dir_path + pdf_name + '.pdf' images = convert_from_path(pdf_path, dpi=300, poppler_path=poppler_path) i = 0 print('-------------' + pdf_name + '------------') for image in images: name = os.path.join(save_path, pdf_name + str(i) + '.jpg') # 支持jpg/png/bmp/jpeg/tif/ppm等格式 image.save(name) i += 1


代码词云图

【总结】因编辑水平有限,文中难免存在个别错误或疏漏,欢迎大家留言区批评指正~~