机器学习AI算法工程   公众号:datayx

做票据OCR文字提取的时候,由于票据版面不固定,文字印刷错位、粘连等,想要提取目标内容非常困难。如果首先能把票据的表格框形式识别出来,再切割出单元格,OCR再识别单元格里面的内容会容易很多。

运用unet实现对文档表格的自动检测

所有代码获取:

本文相关代码 项目获取方式:

关注微信公众号 datayx  然后回复  表格  即可获取。

AI项目体验地址 https://loveai.tech

获取项目代码后,安装步骤:

1、下载、编译 darknet

git clone https://github.com/pjreddie/darknet.git

cd darknet && make

2、下载text.weights模型文件

模型文件地址: 

​http://www.chineseocr.com:9990/static/models/table-ocr/table.weights​

拷贝table.weights文件到models目录

3、修改config.py 内的 darknet 安装目录

运行

python  table.py -jpgPath  test/dd.jpg

效果展示:

票据图片复杂表格框识别(票据单元格切割)_机器学习

票据图片复杂表格框识别(票据单元格切割)_机器学习_02

票据图片复杂表格框识别(票据单元格切割)_特征工程_03

票据图片复杂表格框识别(票据单元格切割)_特征工程_04

票据图片复杂表格框识别(票据单元格切割)_深度学习_05

票据图片复杂表格框识别(票据单元格切割)_深度学习_06

票据图片复杂表格框识别(票据单元格切割)_机器学习_07


票据图片复杂表格框识别(票据单元格切割)_机器学习_08



深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

票据图片复杂表格框识别(票据单元格切割)_深度学习_09

长按图片,识别二维码,点关注