原计划这篇文章在一月前发表,但最近生活上出了点状况。不管有没有人关注过我的文章,希望将来能帮助遇到过同样问题的你。本人所有的文章均为原创,转载请说明出处,谢谢。
前一篇的文章中我们已经能够,并生成格式化的json数据。在后续的工作中又陆续出现了一些问题,在此记录并解决问题。今天我们将围绕这些问题展开讨论,而很多问题可以在PyMuPDF的官方「链接」中找到答案,有兴趣的小伙伴可以直接阅读官方文档。
问题一
在前一篇文章的末尾介绍过,对于延长线条get_small_cell函数会依据表格四边黑点的坐标重新绘制线条,实现覆盖所有表格格子,但针对下图的【付款方】和【收款方】的格子检测却存在问题。
上篇文章不能处理的表格类型
解决方案:
绘制线条时,延长每根线条的长度,使其达到表格边缘。
依据线条绘制的表格
延长每根线条,使其达到表格边缘
问题二
在处理【问题一】的同时,我们也应当警惕那些不规范格式的表格的出现。例如
不规范格式的表格
不规范格式的表格提取线条后
延长线条后
此问题在表格格子检测时,将图二中红色区域变为一个整体格子。针对此类问题,暂无良好的解决方案。在思考的同时,可以考虑以下两个方案。一,将红色区域视同为一个整体;二,检测线条端点是否与其他线条相交,如若未相交,则延长线条直至与其他线条接触。
问题三
依据fitz.fitz.Page.getDrawings函数返回的线条和矩形信息,与pdf阅读器表格图像对比,出现了一些额外的线条
实际的表格
在绘制线条中,出现了额外的线条
解决方案:
参考官方文档,线条有填充颜色和边框颜色。当线条的填充颜色和边框颜色都与背景色一致时,自然看不到线条。
问题四
文字坐标和实际显示的坐标出现90度、180度、270度旋转。
解决方案:
参考官方文档page中有旋转角度属性,只需根据此属性旋转角度即可。
问题五
明显文字非图片,但是却不能复制。在利用各类解密工具后,依旧未能获取文字信息。但是使用pywin32将pdf转为word后,能够复制文字。代码如下
import win32com.client
word_app = win32com.client.Dispatch('word.Application')
pdf_path = r'xxx.pdf'
pdf_doc = word_app.Documents.Open(pdf_path)
out_path = r'xxx.docx'
pdf_doc.ExportAsFixedFormat(out_path, 17, Item=7, CreateBookmarks=0)
后续仔细观察word文件,疑似office使用OCR技术将图片转为文字,具体图片如下
内容类似OCR的识别结果
在参考PyMuPDF的官方文档时,猜测文字可能是直线加三次贝塞尔曲线绘制而成。只是很疑惑这些曲线能将文字细节绘制如此生动
非常生动的细节描述
直到我看到了这篇如何用python写一个naive的字体渲染 - 知乎,并按文章的内容绘制出了文字。
使用三次贝塞尔曲线绘制的文字
对于此类PDF,至今我未能找到解决办法,如果有知道答案的小伙伴,希望能在评论区告诉我解决方案。
结尾
在最后将所有修改后的代码献上
import fitz
import numpy as np
import cv2
import itertools
import copy
def to_int(*kwargs):
v = []
for k in kwargs:
v.append(int(k))
return v
def page_to_words_list(page: fitz.fitz.Page) -> list:
'''
将每一页中的textWords信息使用list封装,这样方便后续使用
:param page:
:return:
'''
# 获取文字及坐标信息
words = page.getTextWords()
# 将元素转为list
# 因为list[0],list[1]....对于不熟悉代码的人很容易忘记含义,所以用字典封装
# words = [[w[0], w[1], w[2], w[3], w[4]] for w in words]
# 此处更适合用实体类,但是调试print的时候不方便,虽然可以重写__str__
word_list = []
for w in words:
if '页码' in w[4]:
continue
# 有些文字旋转过,需要旋转回来
p1 = fitz.Point(w[0], w[1]) * page.rotation_matrix
p2 = fitz.Point(w[2], w[3]) * page.rotation_matrix
# 旋转后矩形点位置发生改变,需要还原
p3 = min(p1[0], p2[0]), min(p1[1], p2[1])
p4 = max(p1[0], p2[0]), max(p1[1], p2[1])
word_list.append({'rect': [p3[0], p3[1], p4[0], p4[1]], 'text': w[4]})
# 按y坐标排序
word_list = sorted(word_list, key=lambda data: (data['rect'][1], data['rect'][0]))
return word_list
def draw_pdf_tables(page: fitz.fitz.Page):
assert isinstance(page, fitz.fitz.Page), '必须传入fitz.Page对象'
# 创建一个白色的画布
pixmap = page.getPixmap(matrix=fitz.Matrix(1, 1))
# 二进制数据,宽,高
img = np.zeros([pixmap.h, pixmap.w], dtype=np.uint8) + 255
draws = page.getDrawings()
# 在白色的画布上,画上黑色的线条
for draw in draws:
color = draw['color']
fill = draw['fill']
if (color == [1.0, 1.0, 1.0] and fill is None) or (fill == [1.0, 1.0, 1.0] and color is None):
continue
items_ = draw['items']
for item_ in items_:
# print(item)
item_ = list(item_)
# 线条
if 'l' == item_[0]:
p1, p2 = to_int(*item_[1]), to_int(*item_[2])
img = cv2.line(img, (p1[0], p1[1]), (p2[0], p2[1]), (0))
elif 're' == item_[0]:
p = to_int(*item_[1])
img = cv2.rectangle(img, (p[0], p[1]), (p[2], p[3]), (0))
# elif 'c' == item_[0]:
# print('c', item_)
# else:
# print(item_)
# cv2.imshow('1234', img)
# cv2.waitKey(0)
# 使用漫水填充算法,将周围变为黑色
# 这样也可以去掉单独的线条
cv2.floodFill(img, None, (1, 1), (0), cv2.FLOODFILL_FIXED_RANGE)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
img = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel, iterations=2)
return img
def get_table_words(page: fitz.fitz.Page, words=None):
'''
:param page:一页pdf
:param words:从pdf中提取的无序文字
:return:
'''
assert isinstance(page, fitz.fitz.Page), '必须传入fitz.Page对象'
if words is None:
words = page_to_words_list(page)
img = draw_pdf_tables(page)
# 查找相应的轮廓,得到每个表格cell的矩形框
contours, hierarchy = cv2.findContours(img, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
table_cell = []
# 判断文字是否在表格cell中
for c in contours:
r = cv2.boundingRect(c)
r = [r[0], r[1], r[0] + r[2], r[1] + r[3]]
ws = []
for word in words[:]:
w = word['rect']
center = [(w[0] + w[2]) / 2, (w[1] + w[3]) / 2]
if inside_rectangle(center, r):
ws.append(word)
table_cell.append({'rect': r, 'words': ws})
# 闭运算
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
morp = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel, iterations=3)
# 查找相应的轮廓,得到每个表格cell的矩形框
contours, hierarchy = cv2.findContours(morp, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
tables = []
for c in contours:
r = cv2.boundingRect(c)
r = [r[0], r[1], r[0] + r[2], r[1] + r[3]]
tables.append(r)
# 排序
table_cell = sorted(table_cell, key=lambda data: (data['rect'][1], data['rect'][0]))
tables = sorted(tables, key=lambda data: (data[1], data[0]))
# 将cell合并到表中
tables_words = []
for t in tables:
table = {'rect': t, 'cell': []}
for cell in table_cell:
c = cell['rect']
center = [(c[0] + c[2]) / 2, (c[1] + c[3]) / 2]
if inside_rectangle(center, t):
table['cell'].append(cell)
tables_words.append(table)
return tables_words, img
def inside_rectangle(point, rect):
'''
判断点是否在框内
:param point:
:param rect:
:return:
'''
x, y = point[0], point[1]
x1, y1, x2, y2 = rect
if x1 <= x <= x2 and y1 <= y <= y2:
return True
return False
def get_small_cell(table_word, img):
'''
将复杂格式的表格生成最小单元的表格
此方法是根据四周的点来确定最小单位的表格信息,但是不能避免极端情况
:param table_word:
:param img:
:return:
'''
t_r = table_word['rect']
table_img = copy.deepcopy(img)
cells = table_word['cell']
# 将每个格子的线条都撑到最大
for cell in cells:
r = cell['rect']
table_img[:, r[0] - t_r[0]] = 0
table_img[:, r[2] - t_r[2]] = 0
table_img[r[1] - t_r[1]] = 0
table_img[r[3] - t_r[3]] = 0
# cv2.imshow('img',img)
# cv2.imshow('get_small_cell', table_img)
# 开运算,避免细小漏洞
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
table_img = cv2.morphologyEx(table_img, cv2.MORPH_OPEN, kernel, iterations=3)
# cv2.imshow('morphologyEx', table_img)
# cv2.waitKey(0)
# cv2.destroyAllWindows()
cells = []
# 查找相应的轮廓,得到每个表格cell的矩形框
contours, hierarchy = cv2.findContours(table_img, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
for c in contours:
r = cv2.boundingRect(c)
r = [r[0] + t_r[0], r[1] + t_r[1], r[0] + r[2] + t_r[0], r[1] + r[3] + t_r[1]]
cells.append(r)
cells = sorted(cells, key=lambda data: (data[1], data[0]))
cells_group = itertools.groupby(cells, key=lambda x: (x[1]))
return cells_group
def equal_rect(r1, r2, border):
if abs(r1[0] - r2[0]) < border and abs(r1[1] - r2[1]) < border
and abs(r1[2] - r2[2]) < border and abs(r1[3] - r2[3]) < border:
return True
return False
def table_parse(table, img, border=5):
'''
解析表格,形成最终的表格数据
:param table:
:param img:
:return:
'''
table_cell = table['cell']
# 延长表格中的线条,获取到最小的单元格,并按行分组
cells_group = get_small_cell(table, img)
# i为行坐标
for i, (k, line_cells) in enumerate(cells_group):
line_cells = list(line_cells)
# j为列坐标
for j, c in enumerate(line_cells):
for cell in table_cell:
center = [(c[0] + c[2]) / 2, (c[1] + c[3]) / 2]
'''
如果最小单元格的格子中心,落在表格中,那么他一定是属于这个表格的
因为上文中已经对所有的格子做了x,y轴排序,此处只需对比当前格子和上一个格子的位置关系,就能确定跨行跨列的相关信息
inside是指cell中内部的上一次遇到的表格
'''
if inside_rectangle(center, cell['rect']):
# if i == 6:
# print('1234')
r = cell['rect']
# 起点或者两个框相等
if equal_rect(r, c, border) or (abs(r[0] - c[0]) < border and abs(r[1] - c[1]) < border):
cell['col'], cell['row'] = j, i
cell['colspan'], cell['rowspan'] = 1, 1
cell['inside'] = c
elif 'inside' in cell:
# 纵坐标差不多,表示同一行
if abs(cell['inside'][1] - c[1]) < border:
cell['colspan'] += 1
cell['inside'] = c
# 下面格子顶坐标和上面格子底坐标
elif abs(cell['inside'][3] - c[1]) < border:
cell['rowspan'] += 1
cell['inside'] = c
else:
print(r, c, cell['inside'], i, j)
break
if __name__ == '__main__':
path = r'E:temp603回单1.pdf'
# 加载pdf文件
doc = fitz.open(path)
# 取第一页数据
page = doc[0]
# 获取第一页中所有的表格文字
table_words, img = get_table_words(page)
# 获取第一个表格
table = table_words[0]
# 将表格的数据
table_parse(table, img)
# 测试,显示表格
img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR)
table_cell = table['cell']
for cell in table_cell:
p = cell['rect']
print(cell)
cv2.rectangle(img, (p[0], p[1]), (p[2], p[3]), (0, 255, 0))
cv2.imshow('123', img)
cv2.waitKey(0)