又来到实用但是低阅读量环节了,没关系,刚好做一个懒人办公系列的文章,专门分析高效实用办公类软件网站分享。

今天分享的是如何在pdf中提取excel表格。

Tabula

这个名叫Tabula的开源软件,在github上有数千的star。

提取ip java 提取表格_提取ip java

功能是自动提取pdf中的表格,同时支持PDF导出为CSV、Excel格式。

还同时支持window,Linux,苹果三大系统。这里举window端使用为例。

后台下载后,运行tabula.exe,会跳出网页。如果没有跳出则手动输入http://localhost:808即可。

提取ip java 提取表格_输出表格csv_02

然后导入需要处理的pdf文件,即可识别。

提取ip java 提取表格_提取ip java_03

可以鼠标勾选区域识别也可以自动识别。然后右上角输出数据即可。

提取ip java 提取表格_提取ip java_04

处理效果不错的。

提取ip java 提取表格_数据_05

对于结果可以选择输出另存为excel或者csv,还可以复制到粘贴板。表格识别比一般的OCR准备不少。对于平时需要处理表格数据的行政人员来说是个不错的选择。

其实Tabula还有Python吧库,对于有python编程基础的可以去找tabula-py相关的信息。

运行环境

软件运行需要java环境,小懒后台一并给大家准备好了,如果没有java环境需要先安装才能运行tablua软件哈~