1 目前的开发工作

我们分为了模型构建小组和界面设计小组

1.1 模型构建

目前的工作:

  1. 将PaddleOCR的demo模型部分移植到我们现在的工程中;
  2. 利用我们自己设计的界面测试模型的功能。

下一步工作:

  1. 用现在开发的产品进行测试,尽快熟悉模型的代码,为后面改进做准备;(可以结合百度提供的教程进行学习)
  2. 在熟悉代码和模型的时候,要写相关文档。
  3. 是否需要利用MNN或者NCNN来作为框架进行部署?

2.2 界面设计

目前的工作:

设计了一个很简单的界面,主要验证模型的可用性。

java实现全屏倾斜水印 java图片文字倾斜矫正_目标检测


下一步工作安排:

  1. 代码规范,不要出现黄色警告;
  2. 按照竞品重新设计界面,有什么问题尽快提出来;
    2.1 从用户使用角度去设计控件,布局等;
    2.2 要考虑怎么输出?
    2.3 还要考虑产品适配问题,手机屏幕不同的尺寸,不同分辨率等。
  3. 模型我们只提供一个,检测+矫正+识别(PP-OCR-MobileV2)
  4. 写文档。

2 9月份工作日志

2.1 会议纪要20220913

界面:黄梁
1、进展
1.1 解决了界面显示的一些问题
2、问题
2.1 运行模式:还是要删除,需要模型组配合
2.2 分段显示:
竞品如果是一段文字,则显示在一起;
我们的是一行一行显示。

3、下一步工作
继续研究竞品,模仿竞品开发界面,并做好和模型端的配合

模型:彭帅(目标检测:DBNet, 识别:CRNN;CLS)
1、进展
两个工作:
1.1 处理大图像
1.2 二值化图片
2、问题
2.1 如何判断一张图片的质量?
2.2 质量不好,是什么原因不好?
不同的原因导致的质量问题,可能会采用不同的模型。
2.3 图像增强

质量判断–>图像增强–>目标检测–>矫正–>识别

3、下一个工作
3.1 保留目标检测和识别模型不变
3.2 调研质量判断
3.3 研究图像增强
3.4 研究矫正算法
3.5 力争把这些功能加入现有模型,提升识别能力

2.2 工作总结20220918

  • 界面设计:陈睿
  • 模型改进:文诗淮
    原始图片:

    原始图片的识别效果:

处理后的图片:

java实现全屏倾斜水印 java图片文字倾斜矫正_目标检测_02


处理后的图片识别效果:

java实现全屏倾斜水印 java图片文字倾斜矫正_图像增强_03

  • 模型调研:(王柯雄:超分重构调研)
    建议调研微信采用的图像增强技术

2.3 20220918会议纪要

界面:
1、代码还有不规范的地方;
2、图标目前从网络上下载。

模型:

王柯雄:图像超分

是否在OCR识别有应用?

彭帅+文诗淮:

问题:

(1)图像增强的功能加入代码,报错?

报错的问题不具体

java实现全屏倾斜水印 java图片文字倾斜矫正_人工智能_04

(2)图像增强后效果不明显,怀疑现在的OCR已经有图像增强的功能:通过阅读代码找到相应的模块。

2.4 20220921会议纪要

主要问题:
文本检测时有较大错误率。
解决方案:
1.更换检测模型
通过调研发现,已公布的检测模型只有一种,但有多种未训练的检测模型。
2.重新训练检测模型
paddleocr在8月份更新了两个新的检测模型,分别是FCENet和DB++,但是FCENet无法用c++代码部署且DB++从公布的测试
数据中看,效果优于FCENet,所以下一步工作,准备收集数据,对DB++进行训练,然后测试其效果。

2.5 20220926会议纪要

  1. UI部分:
    主要界面、功能模块基本完成;
    后续:
    要将语言转换为英文,进一步结合竞品对界面进行优化。
  2. 模型部分(检测功能):
    1)基于百度的 AI Studio 平台训练了 DB++ 的模型,但测试的效果并不理想;
    2)目前 en_PPOCRv3_slim 模型检测效果最好,但部分图片仍不能完全检测(技术调研发现:不能识别的部分通过手动矫正后成功检测,下一步把研究重点放在图像矫正方面);
    3)竞品和夸克扫描在检测时都会对图片(存在倾斜、阴影等问题)进行矫正;
    4)用夸克扫描对图片进行矫正,然后再用PaddleOCR 模型对矫正后图片的检测,发现效果更好;
    后续:
    了解竞品和夸克扫描在图像增强方面的算法,结合 OpenCV 实现在检测和识别前对图像的处理。

文:
陈:
彭:
3. 张老师组织大家一起学习DBNet算法:

结构:
1)第一部分:卷积和反卷积的过程(DBNet++ 改进的部分);
2)第二部分:叠加得到概率图和门限图;
3)第三部分:结合概率图和门限图得到二值图;
关键点:
1)卷积部分的操作(结合代码);
2)监督信号的算法(可能有优化的空间)
后续:
1)结合理论知识,进一步搞懂源代码;
2)继续学习DBNet++算法。

2.6 2022/09/28会议纪要

问题 :
1)v2版本识别效果和之前的区别不大;
2)有阴影的图片识别效果不好;
3)APP 频繁崩溃(手机分配内存不足或图片太大);
4)APP 选择图片后没有显示出来。
解决方法 :
1)把之前的处理阴影的代码加上;
2)申请大内存:
AndroidMainifest->Application->添加 adnroid:largeHeap=“true”
3)修改 UI 部分,显示从相册选择的图片。
后续任务:
1)测试 PC 端和竞品对增强后图片识别效果的差距;
2)抓包看下竞品的运行模式(服务器端负责什么工作):上传了什么,大的图片文件是如何处理的;
3)解包夸克扫描王(主要看使用了什么模型);
4)继续进行图像增强相关工作。
5)把 PC 端运行方式写个文档发给李杨老师那边(√)
解包网站:
http://www.javadecompilers.com/apk