又来到实用但是低阅读量环节了,没关系,刚好做一个懒人办公系列的文章,专门分析高效实用办公类软件网站分享。
今天分享的是如何在pdf中提取excel表格。
Tabula
这个名叫Tabula的开源软件,在github上有数千的star。
功能是自动提取pdf中的表格,同时支持PDF导出为CSV、Excel格式。
还同时支持window,Linux,苹果三大系统。这里举window端使用为例。
后台下载后,运行tabula.exe,会跳出网页。如果没有跳出则手动输入http://localhost:808即可。
然后导入需要处理的pdf文件,即可识别。
可以鼠标勾选区域识别也可以自动识别。然后右上角输出数据即可。
处理效果不错的。
对于结果可以选择输出另存为excel或者csv,还可以复制到粘贴板。表格识别比一般的OCR准备不少。对于平时需要处理表格数据的行政人员来说是个不错的选择。
其实Tabula还有Python吧库,对于有python编程基础的可以去找tabula-py相关的信息。
运行环境
软件运行需要java环境,小懒后台一并给大家准备好了,如果没有java环境需要先安装才能运行tablua软件哈~