我们常常会拿到一些别人拍照发给我们的表格。也许一开始我们仅仅是想知道表格里面的内容就可以了,但当我们拿到表格以后可能我们就会有更高的要求了,我们也许想把这个表格也打印出来。但又不想打印那个歪歪扭扭的表格贴在床头或者墙上。那么我们就会想到OCR识别了。
可惜,好多工具虽然都提供了识别功能,但对表格的识别都是非常的尴尬,要不就识别不了(识别结果里一堆堆的乱码),要不就是只能识别表格中的文字,把活生生的表格拆的七零八落,惨不忍睹啊,最终还是需要一个个把文字拷贝粘贴到自己手动画好的表格中,如果表格内容多了,想哭的心都有!!


文章目录

  • 一、发现免费的OCR
  • 二、我们来试试识别功能
  • 三、如何获取网页上的识别内容



文章出处:


一、发现免费的OCR

某天我也需要一个表格,这个时候怎么办呢,我的想法是快速得到一张标准的表格。我想到了腾讯的OCR在线表格识别,网址如下:

表格在线识别DEMO

简单的介绍一下腾讯的表格在线识别功能,它包含以下五个方面的表格识别功能:
通用文字识别:通用印刷体识别、通用手写体识别、英文识别,二维码识别等
卡证文字识别:提供身份证识别、银行卡识别、名片识别、营业执照等
票据单据识别:增值税发票识别、船票出租火车票识别、机票运单识别等
汽车相关识别:驾驶证识别、行驶证识别、车牌识别、车辆 VIN 码识别
行业文档识别:表单表格识别、体检报告识别、检验检查单识别、算式识别等
表格在线识别文档

二、我们来试试识别功能

我这里采用的就是第五类,行业文档识别,上传了一张课表,效果如下:

深度学习表格识别概述 识别表格内容_表格扫描


我们选择“行业文档识别”,然后在左下角选择上传照片则可得到右边的课表。当然,这里有些不完美的地方就是表格的斜线识别,这个估计是个永远的伤痛,毕竟在word或者Excel中这个斜线都是不好弄的,有的word或者excel的水平不高的人,估计画都画不出,就更谈不上让软件来识别并还原了。

三、如何获取网页上的识别内容

虽然我们得到了这个表格,我们不能让它停留在网页上,我们需要把它放到word或者excel中去。

这里应该是关键步骤了。

1、双击识别结果四个字使其为选择状态

2、按shift键,拖动表格滑条到最下端,确保选择表格所有文字,如下图

深度学习表格识别概述 识别表格内容_表格图片识别_02

3、打开excel,粘贴内容,如下图

深度学习表格识别概述 识别表格内容_表格图片识别_03


上面的图,我们稍加整理就是我们需要的原图表格了。当然,你也可以在得到上述网页版表格内容后用专门的软件直接抓取表格内容,或者用excel中的从网页获取表格来获得,但实际按照笔者的试验,都没有上述拷贝粘贴的粗暴方法来的直截了当。

最重要的是,这里所有的功能都是免费的哦!

码字不易,转载请注明出处:
感谢腾讯,感谢微软,感谢CCTV,感谢中央气象台,提供这些现成的免费的功能。我是一个从来不舍近求远的人,有现成的功能就先用起来再说。