可以自定义的文字识别OCR

原创

六月的雨在51CTO 2024-06-20 15:14:26 ©著作权

文章标签 ocr 文字识别OCR 阿里云 OCR自学习数据集 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者六月的雨在51CTO的原创作品，请联系作者获取转载授权，否则将追究法律责任

可以自定义的文字识别OCR

什么是OCR文档自学习
自定义模板
单证票据信息抽取
操作体验

这里提到的可以自定义的文字识别OCR ，其实就是OCR文档自学习。

什么是OCR文档自学习

什么是OCR文档自学习呢？OCR文档自学习，是面向“无算法基础”的企业与个人开发者用户，通过全流程可视化操作，支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。下面我们开始逐步体验OCR文档自学习创建自定义模板以及信息抽取模型。

自定义模板

打开OCR文档自学习控制台：https://document-automl.console.aliyun.com/automl/intro

点击【我的任务】打开任务列表页

可以自定义的文字识别OCR_ocr

点击【创建任务】，选择自定义KV模板

可以自定义的文字识别OCR_文字识别OCR_02

点击【创建】看到提示

可以自定义的文字识别OCR_ocr_03

我们还没有开通服务，点击【去开通】跳转到服务开通页面，开通服务之后再次点击创建即可看到任务创建成功页面

可以自定义的文字识别OCR_数据集_04

点击【开始创建模板】上传服务清晰度的图片，这里我上传一张电子发票的图片

可以自定义的文字识别OCR_阿里云_05

上传完成之后点击【下一步】，然后框选四个角的字段

可以自定义的文字识别OCR_OCR自学习_06

点击【下一步】配置电子发票识别字段，也就是业务需要的字段

可以自定义的文字识别OCR_阿里云_07

点击【下一步】上传电子发票验证我们勾选的识别字段是否是对的可以看到字段值位置不太准确，回到上一步重新勾选一下

可以自定义的文字识别OCR_OCR自学习_08

再次勾选之后的效果如图

可以自定义的文字识别OCR_OCR自学习_09

基本上算是准确了，点击【发布模板并开始API调用】

可以自定义的文字识别OCR_阿里云_10

自此模板发布成功，可以点击【在线使用】上传电子发票图片检验一下识别效果了。

可以自定义的文字识别OCR_数据集_11

同样的方法也可以创建自定义表格模板，大家可以自行尝试。

在自定义KV模板中，在第三步勾选识别字段的时候，位置不够准确，有一部分的偏差，希望后续可以优化一下，具体的情况可以通过截图看出来的。下面我们再来体验一下单证票据信息抽取

单证票据信息抽取

同样的办法需要先创建单证票据信息抽取的任务

可以自定义的文字识别OCR_阿里云_12

点击【创建】如果提示没有开通服务的话点击【去开通】开通对应的单据票证信息抽取服务，阿里云的产品计费比较精细，企业在选择时完全可以细化公司的业务方向来开通需要的服务，而不需要一次开通全部的服务，这样的设计也可以为企业节约成本开支，还是挺人性化的。下面继续进行单据票证信息抽取

可以自定义的文字识别OCR_OCR自学习_13

首先开始上传数据集，上传文件点击【创建】

可以自定义的文字识别OCR_文字识别OCR_14

点击【标注任务】

可以自定义的文字识别OCR_ocr_15

点击【创建标注任务】，这里创建标注任务可以选择【本地文件】【从数据集中选择】

可以自定义的文字识别OCR_OCR自学习_16

我们已经创建了数据集，那么我们就直接从数据集中选择【确定】完成之后点击【下一步】

可以自定义的文字识别OCR_数据集_17

设置标注字段之后点击【创建】可以看到

可以自定义的文字识别OCR_ocr_18

点击【标注】打开标注页面开始表述字段信息

可以自定义的文字识别OCR_数据集_19

标注完成之后点击右上角【提交任务】返回到列表页面

可以自定义的文字识别OCR_ocr_20

点击【质检】根据实际信息确定标注的是否正确，最后点击【提交任务】

可以自定义的文字识别OCR_ocr_21

一段时间后可以看到列表页面显示已完成

可以自定义的文字识别OCR_文字识别OCR_22

至此单据票证信息抽取的上传数据集及标注数据已经操作完了，在操作过程中对于标注任务创建完成之后没有相关的引导去人工进行标注，导致个人等了挺久时间，以为是会按设定好的字段自动标注，结果最后发现是需要人工标注的，白白耽误了一部分时间，希望后续这块的引导可以丰富一下，方便新手上手使用方便。同样的操作完成电子发票标注02的标注操作

可以自定义的文字识别OCR_ocr_23

下面开始继续创建模型操作

可以自定义的文字识别OCR_数据集_24

点击【下一步】跳转到数据集绑定页面

可以自定义的文字识别OCR_OCR自学习_25

这里训练集选择电子发票标注01数据集，测试集选择电子发票标注02数据集，点击【下一步】提示

可以自定义的文字识别OCR_数据集_26

下面我们再根据数据标注的操作添加9个训练集，在创建标注任务时可以选择右上角【使用题目库】

可以自定义的文字识别OCR_文字识别OCR_27

后续的标注、质检操作无变化，重复操作添加9个数据集，或者也可以在列表页面点击【复制】按钮复制已经标注完成的标注任务，但是这里有一点就是复制过来的标注任务还是会显示待标注状态，需要再次点击【标注】按钮进入标注页面点击【提交任务】之后回到列表页面才会显示质检中状态，希望后期可以丰富一下【复制】按钮的功能，复制完成之后标注状态和质检状态与被复制的标注任务状态一致。另外就是复制的标注任务名称无法修改，希望后期也可以开放修改复制的标注任务名称。还有就是列表页可以增加一个批量质检按钮效果更好哦，比如这样的

可以自定义的文字识别OCR_文字识别OCR_28

等到所有的标注任务全部质检完成，状态显示为已完成之后

可以自定义的文字识别OCR_数据集_29

就可以继续创建我们的模型了，选择训练集和测试集

可以自定义的文字识别OCR_阿里云_30

点击【下一步】，点击【创建模型】

可以自定义的文字识别OCR_文字识别OCR_31

可以看到模型中心列表页面显示刚才创建的模型处于训练中

可以自定义的文字识别OCR_ocr_32

待模型训练完成之后最后点击【部署】按钮，完成部署之后就可以在线使用，体验模型抽取数据的效果。

操作体验

到此整个OCR文档自学习的主体功能便全部操作完成，大家如果在操作过程中有疑问的话也可以在文章下留言，这里是个人全套测试的体验内容，整体来看我操作过程中对于文档的需求不是很大，功能设计的也比较合理比较容易理解，只是在遇到一些操作中的疑问时回去文档查看，比如标注不是自动化标注，而是需要人工标注的，整体来说，本次体验操作还算流畅，文档内容也足够全面，具体业务场景中遇到的问题以及相应的希望改进的地方，我也在具体的业务中提过了。对于OCR文档自学习功能的用途，个人觉得像文档中提到的KV模板，单据票据，表格，长文档提取等都是有很大应用空间的，作为教育行业，对于固定格式的KV图片内容提取，以及日常报销中的单据票据信息抽取，报销表格内容提取，以及合同或者电子书长文档提取等，都是有应用场景的，整体上来说，对于单据票证信息抽取的体验比较满意，对于标注任务的定位线设计，坐标定位设计感觉很贴心，可以充分的保证所选取内容是自己需要选定的内容，感谢好产品的出现，每一款好产品都离不开无数技术人对产品的精益求精的追求，希望后续可以改进的越来越好，让每一个需要用到OCR文档自学习的开发者都可以不用文档便能轻松操作控制台功能以及API接口调用。