需求
1.我在技术交流群里发了这样一个PDF,并说了明天公布答案。
2.PDF里有很多有用的信息,这些信息都不怎么好直接拿来用
3.今天我就来分享一下怎么提取出这个PDF中的表格。
开搞
4.提取这个信息其实很简单,只需按照下图所示的代码就可以提取出里面的信息并存盘。
5.附上图中代码import tabula#读取pdf数据,并取pdf中的第一个表格df = tabula.read_pdf(r'C:UsersuYaoQiDesktoptst.pdf',pages='all')[0]#不带索引写出表格到磁盘df.to_excel(r'C:UsersuYaoQiDesktoptst.xlsx',index=None)几行代码,简简单单!写出的数据:
总结
提取过程没什么好说的,非常的简单!只能说tabula这个库太强大了,这个需求如果用FME来做的话,也不是不行,只是不会有这么方便
6.也许还有其他的方式来做类似的事情,但大概也不能比这个库更简单了。