客户案例:

某国内排名前三的论文检索机构,平时收集到的论文都是PDF的格式,现在需要对论文中的关键内容,比如:论文期刊号、标题、作者、关键词、摘要、目录、图、表等拆解成结构化的数据存入大数据库中,进行查询,检索等操作。



之前的做法是将PDF转成word之后,人工复制粘贴到系统中进行保存,单人1天最多处理20份期刊论文,全国的论文库期刊库新增数量平均每天1万多份,意味着需要一个500多人的团队来承接这些工作,团队人员开支巨大。并且,工作人员每一个动作需要重复成千上万次,积极性比我们想象的还要低,因此人员流失非常严重。结果呢,每到毕业季,论文量激增,团队全部投入也无法处理完,人员心理压力大,错误率大增,交付也延迟,给上游客户体验很差,同时严重地损害了客户关系。




我们总结下来客户头疼的点就是以下三个:

1)数据加工的效率太低

不同的期刊版面和格式规则不统一,很难有一套能够适配这些格式版面的自适应工具,具备快速搭配,需要人具备较大的灵活度去解决遇到的问题,导致效率低下,产出成本高。

2)工作内容重复性大

员工都在重复性进行数据搬砖的工作,把数据复制粘贴,再进行审校,很枯燥,员工持续工作超过1年的不到30%,流失严重,招人困难。

3)高峰期任务量突发无法按时交付

遇到任务高峰期,新人员扩招难,而且培训起来时间来不及,总是会手忙脚乱,导致任务交付延迟。



针对客户的这些问题,我们制定一套文档数字化系统,期刊加工人员可以通过 web 浏览器页面对完成解析的 pdf 内容进行对照审核,修改,保存,系统可对解析错误的进行高亮提醒,大幅缩短加工效率。最终批量生成 xml 文件和 mdb 数据库文件,处理完成后展示在页面供期刊加工人员查看下载相关数据。

功能描述:

1) PDF论文期刊版面智能分析,可以将不同类别的论文期刊按照版面智能拆解出来,比如:标题、摘要、期刊号、参考文献等,自动做初步抽取,准确度可以达到85%以上;


2) 设计了左右比对的人工审校平台,左边是PDF原文件,右边是抽取出来的准确度达到85%以上的内容,人工在此基础上仅仅针对剩下15%的内容进行审校、修订、补充就可以了。


3) 修订审校完成之后,可以直接导出成指定的XML、Word、Excel,也可以直接形成结构化数据入库进行下一步知识图谱的构建。


方案效果:

1)数据加工效率直接提升300%;

2)员工工作量由原来自己动手,手忙脚乱的状况,变成动眼审校,劳动强度降低一半以上。

3)高峰期工作难度也能扛得住,对客户侧也可以顺利交付。


该数据PDF信息抽取系统的底层产品逻辑,可覆盖当前较大一部分企业内部关于传统文档类文书工作的智能化抽取需求,该平台也可广泛应用于招投标文档、合同类文档、企业内部各类手册、产品说明文档、各类统计报表、论文期刊等重复性较大,内容固化性较强的复刻提取工作场景。AI赋能传统工作流程,解放人力提高工作效率,从基础的在线智能校验平台,到NLP智能审查平台,再到企业信息数据知识中台,衍生企业信息资产知识图谱。都可以为客户的后续需求提供第一期数据交付。

我是深耕AI多年的老张,关注我带你了解更多实用的AI智能化办公工具。