java实现全屏倾斜水印 java图片文字倾斜矫正

转载

mob64ca14116c53 2024-08-07 16:12:52

文章标签 java实现全屏倾斜水印人工智能目标检测深度学习图像增强 文章分类 Java 后端开发

1 目前的开发工作

我们分为了模型构建小组和界面设计小组

1.1 模型构建

目前的工作：

将PaddleOCR的demo模型部分移植到我们现在的工程中；
利用我们自己设计的界面测试模型的功能。

下一步工作：

用现在开发的产品进行测试，尽快熟悉模型的代码，为后面改进做准备；（可以结合百度提供的教程进行学习）
在熟悉代码和模型的时候，要写相关文档。
是否需要利用MNN或者NCNN来作为框架进行部署？

2.2 界面设计

目前的工作：

设计了一个很简单的界面，主要验证模型的可用性。

java实现全屏倾斜水印 java图片文字倾斜矫正_目标检测

下一步工作安排：

代码规范，不要出现黄色警告；
按照竞品重新设计界面，有什么问题尽快提出来；
2.1 从用户使用角度去设计控件，布局等；
2.2 要考虑怎么输出？
2.3 还要考虑产品适配问题，手机屏幕不同的尺寸，不同分辨率等。
模型我们只提供一个，检测+矫正+识别（PP-OCR-MobileV2）
写文档。

2 9月份工作日志

2.1 会议纪要20220913

界面：黄梁
1、进展
1.1 解决了界面显示的一些问题
2、问题
2.1 运行模式：还是要删除，需要模型组配合
2.2 分段显示：
竞品如果是一段文字，则显示在一起；
我们的是一行一行显示。

3、下一步工作
继续研究竞品，模仿竞品开发界面，并做好和模型端的配合

模型：彭帅（目标检测：DBNet，识别：CRNN；CLS）
1、进展
两个工作：
1.1 处理大图像
1.2 二值化图片
2、问题
2.1 如何判断一张图片的质量？
2.2 质量不好，是什么原因不好？
不同的原因导致的质量问题，可能会采用不同的模型。
2.3 图像增强

质量判断–>图像增强–>目标检测–>矫正–>识别

3、下一个工作
3.1 保留目标检测和识别模型不变
3.2 调研质量判断
3.3 研究图像增强
3.4 研究矫正算法
3.5 力争把这些功能加入现有模型，提升识别能力

2.2 工作总结20220918

界面设计：陈睿
模型改进：文诗淮
原始图片：

原始图片的识别效果：

处理后的图片：

java实现全屏倾斜水印 java图片文字倾斜矫正_目标检测_02

处理后的图片识别效果：

java实现全屏倾斜水印 java图片文字倾斜矫正_图像增强_03

模型调研：（王柯雄：超分重构调研）
建议调研微信采用的图像增强技术

2.3 20220918会议纪要

界面：
1、代码还有不规范的地方；
2、图标目前从网络上下载。

模型：

王柯雄：图像超分

是否在OCR识别有应用？

彭帅+文诗淮：

问题：

（1）图像增强的功能加入代码，报错？

报错的问题不具体

java实现全屏倾斜水印 java图片文字倾斜矫正_人工智能_04

（2）图像增强后效果不明显，怀疑现在的OCR已经有图像增强的功能：通过阅读代码找到相应的模块。

2.4 20220921会议纪要

主要问题：
文本检测时有较大错误率。
解决方案：
1.更换检测模型
通过调研发现，已公布的检测模型只有一种，但有多种未训练的检测模型。
2.重新训练检测模型
paddleocr在8月份更新了两个新的检测模型，分别是FCENet和DB++,但是FCENet无法用c++代码部署且DB++从公布的测试
数据中看，效果优于FCENet，所以下一步工作，准备收集数据，对DB++进行训练，然后测试其效果。

2.5 20220926会议纪要

UI部分：
主要界面、功能模块基本完成；
后续：
要将语言转换为英文，进一步结合竞品对界面进行优化。
模型部分（检测功能）：
1）基于百度的 AI Studio 平台训练了 DB++ 的模型，但测试的效果并不理想；
2）目前 en_PPOCRv3_slim 模型检测效果最好，但部分图片仍不能完全检测（技术调研发现：不能识别的部分通过手动矫正后成功检测，下一步把研究重点放在图像矫正方面）；
3）竞品和夸克扫描在检测时都会对图片（存在倾斜、阴影等问题）进行矫正；
4）用夸克扫描对图片进行矫正，然后再用PaddleOCR 模型对矫正后图片的检测，发现效果更好；
后续：
了解竞品和夸克扫描在图像增强方面的算法，结合 OpenCV 实现在检测和识别前对图像的处理。

文：
陈：
彭：
3. 张老师组织大家一起学习DBNet算法：

结构：
1）第一部分：卷积和反卷积的过程（DBNet++ 改进的部分）；
2）第二部分：叠加得到概率图和门限图；
3）第三部分：结合概率图和门限图得到二值图；
关键点：
1）卷积部分的操作（结合代码）；
2）监督信号的算法（可能有优化的空间）
后续：
1）结合理论知识，进一步搞懂源代码；
2）继续学习DBNet++算法。

2.6 2022/09/28会议纪要

问题：
1）v2版本识别效果和之前的区别不大；
2）有阴影的图片识别效果不好；
3）APP 频繁崩溃（手机分配内存不足或图片太大）；
4）APP 选择图片后没有显示出来。
解决方法：
1）把之前的处理阴影的代码加上；
2）申请大内存：
AndroidMainifest->Application->添加 adnroid:largeHeap=“true”
3）修改 UI 部分，显示从相册选择的图片。
后续任务：
1）测试 PC 端和竞品对增强后图片识别效果的差距；
2）抓包看下竞品的运行模式（服务器端负责什么工作）：上传了什么，大的图片文件是如何处理的;
3）解包夸克扫描王（主要看使用了什么模型）；
4）继续进行图像增强相关工作。
5）把 PC 端运行方式写个文档发给李杨老师那边（√）
解包网站：
http://www.javadecompilers.com/apk

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：git绑定仓库分支 git仓库怎么用

下一篇：语音识别时对语料的要求语音识别的目的是什么?

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯