机器学习AI算法工程 公众号:datayx
做票据OCR文字提取的时候,由于票据版面不固定,文字印刷错位、粘连等,想要提取目标内容非常困难。如果首先能把票据的表格框形式识别出来,再切割出单元格,OCR再识别单元格里面的内容会容易很多。
运用unet实现对文档表格的自动检测
所有代码获取:
本文相关代码 项目获取方式:
关注微信公众号 datayx 然后回复 表格 即可获取。
AI项目体验地址 https://loveai.tech
获取项目代码后,安装步骤:
1、下载、编译 darknet
git clone https://github.com/pjreddie/darknet.git
cd darknet && make
2、下载text.weights模型文件
模型文件地址:
http://www.chineseocr.com:9990/static/models/table-ocr/table.weights
拷贝table.weights文件到models目录
3、修改config.py 内的 darknet 安装目录
运行
python table.py -jpgPath test/dd.jpg
效果展示:
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注