ocr识别pdf java OCR识别流程

关注小咪咪

文章目录

概括
图像预处理
文字检测
文本识别

ocr识别pdf java OCR识别流程

转载

小咪咪 2023-11-07 08:33:40

文章标签 ocr识别pdf java 计算机视觉图像处理人工智能二值化 文章分类 Java 后端开发

概括

传统的OCR基于图像处理（二值化、连通域分析、投影分析等）和统计机器学习（Adaboost、SVM），过去20年间在印刷体和扫描文档上取得了不错的效果。传统的印刷体OCR解决方案整体流程如图。

ocr识别pdf java OCR识别流程_二值化

从输入图像到给出识别结果经历了图像预处理、文字行提取和文字行识别三个阶段。

图像预处理

二值化：由于彩色图像所含信息量过于巨大，在对图像中印刷体字符进行识别处理前，需要对图像进行二值化处理，使图像只包含黑色的前景信息和白色的背景信息，提升识别处理的效率和精确度。
图像降噪：由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量，在对图像中印刷体字符进行识别处理前，需要根据噪声的特征对待识别图像进行去噪处理，提升识别处理的精确度。
倾斜校正：由于扫描和拍摄过程涉及人工操作，输入计算机的待识别图像或多或少都会存在一些倾斜，在对图像中印刷体字符进行识别处理前，就需要进行图像方向检测，并校正图像方向。

ocr识别pdf java OCR识别流程_二值化_02

文字检测

文字检测主要有两条线，两步法和一步法。

两步法：faster-rcnn.
一步法：yolo。相比于两步法，一步法速度更快，但是accuracy有损失。

文字检测按照文字的角度分。

水平文字检测：四个自由度，类似于物体检测。水平文字检测比较好的算法是CTPN。
倾斜文字检测：文本框是不规则的四边形，八个自由度。倾斜文字检测个人比较喜欢的方法是CVPR的EAST和Seglink。

ocr识别pdf java OCR识别流程_图像处理_03

文本识别

在以前的OCR任务中，识别过程分为两步：单字切割和分类任务。

现今基于深度学习的端到端OCR技术有两大主流技术：CRNN OCR和attention OCR。

其实这两大方法主要区别在于最后的输出层（翻译层），即怎么将网络学习到的序列特征信息转化为最终的识别结果。

这两大主流技术在其特征学习阶段都采用了CNN+RNN的网络结构，CRNN OCR在对齐时采取的方式是CTC算法，而attention OCR采取的方式则是attention机制。

ocr识别pdf java OCR识别流程_人工智能_04

网络结构包含三部分，从下到上依次为：

卷积层，使用CNN，作用是从输入图像中提取特征序列;
循环层，使用RNN，作用是预测从卷积层获取的特征序列的标签（真实值）分布;
转录层，使用CTC，作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;

ocr识别pdf java OCR识别流程_人工智能_05

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：java 等待ack while java 等待转就绪

下一篇：平均精度 python 平均精度最小准则

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册