时间可过得真快,本周小Mi的更新便是我们机器学习系列的最后一期啦!说了那么多理论,总该来点案例对不对!废话不多说,让我们开始吧~

定义

那么什么是图片文字识别呢?其实对应的英文全称为Photo Optical Character Recognition,也可以翻译为图片光学字符识别。

随着智能手机拍照功能的成熟,OCR技术注重的是如何让计算机读取图片中的文字信息,从而方便以后的自动查找,而不是从成千上万的照片中用鼠标一张张照片点开查询,再逐个关闭(是不是想想都头大呢)。当然啦,从一张给定的图片中识别文字肯定比从一份扫描文档中识别文字要复杂的多。

操作流程

按照我们正常的理解,图片文字识别的话通常会先将图像扫描一遍,然后找出图片中的文字信息,并重点关注这些文字区域,同时对区域中的文字进行识别,当正确读出这些文字以后,将这些文字内容显示并记录下来。听起来好像很简单,毕竟光学文字识别对于扫描文档来说,已经是一个比较简单的问题了,但是对于常用的图片、照片来说,还算是一个较难的机器学习问题。

因此,实现图片OCR技术需要采取如下步骤:

1.文字探测(Text detection)——扫描图像并找出有文字的图像区域,将图片上的文字与其他环境对象分离开来;

基于CNN图像文字识别 图像识别文字算法_基于CNN图像文字识别

2.字符切分(Character segmentation)——进行文字分离,将文字分割成一个个单一的字符;

基于CNN图像文字识别 图像识别文字算法_算法_02

3.字符分类(Character classification)——确定每一个字符是什么。

流程图也能够非常直观地表达这个学习问题,每一项任务都可以单独拆解开来进行处理:

基于CNN图像文字识别 图像识别文字算法_人工智能_03

如果成功解决了这样的问题,不仅可以帮助计算机更好地理解图像中的内容,还可以做一些更有意义的事情,比如可以为盲人提供一种相机,该相机可以识别出盲人前面的各种潜在危险路障。

滑动窗口

滑动窗口是一项用来从图像中抽取对象的技术。假使我们需要在一张图片中识别行人,首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁,将剪裁得到的部分交给模型,让模型判断是否为行人,继而不断地在图片上滑动剪裁区域重新进行剪裁,同样将新剪裁的部分交给模型进行判断,如此循环直至将图片全部检测完。

一旦完成后,按比例放大剪裁的区域,再以新的尺寸对图片进行剪裁,将新剪裁的部分按比例缩小至模型所采纳的尺寸,交给模型进行判断,如此循环。

基于CNN图像文字识别 图像识别文字算法_人工智能_04

滑动窗口技术也被用于文字识别,首先训练模型能够区分字符与非字符,然后运用滑动窗口技术识别字符,一旦完成了字符的识别,我们将识别得出的区域进行一些扩展,然后将重叠的区域进行合并。接着便可以以宽高比作为过滤条件,过滤掉高度比宽度更大的区域(默认单词的长度通常比高度要大)。下图中绿色的区域是经过这些步骤后被认为是文字的区域,而红色的区域是被忽略的。

基于CNN图像文字识别 图像识别文字算法_计算机视觉_05

基于CNN图像文字识别 图像识别文字算法_基于CNN图像文字识别_06

下一步是训练一个模型来完成将文字分割成一个个字符的任务,需要的训练集由单个字符的图片和两个相连字符之间的图片来训练模型。

基于CNN图像文字识别 图像识别文字算法_计算机视觉_07

模型训练完后,我们仍然是使用滑动窗口技术来进行字符识别。

最后一个阶段是字符分类阶段,利用神经网络、支持向量机或者逻辑回归算法训练一个分类器即可。

数据获取

如果我们的模型是低方差的,那么获得更多的数据用于训练模型是能够有更好的效果的。问题在于,怎样获得更多的数据,可能还需要人工地创造一些数据。

以文字识别应用为例,可以从字体网站下载各种字体,然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例,这将会帮助大家获得一个无限大的训练集。

同时,还可以利用已有的数据对其进行修改,例如将已有的字符图片进行一些扭曲、旋转、模糊处理。只要实际数据和经过处理后的数据依旧相似,那么便可以创造大量的数据。

因此,获得更多数据可以通过如下方式:

1.人工数据合成

2.手动收集、标记数据

3.众包

局部分析

在机器学习的应用中,通常需要通过几个步骤才能进行最终的预测,那么如何知道哪一部分是最值得我们花精力去完善的呢?

大家可以跟着小Mi再仔细观察一下文字识别应用的流程图:

基于CNN图像文字识别 图像识别文字算法_机器学习_08

流程图中每一部分的输出都是下一部分的输入,选取某一部分手动提供100%正确的输出结果,然后看最终的整体效果提升了多少。(假使总体效果为72%的正确率)

令Text detection部分输出的结果100%正确,发现系统的总体效果从72%提高到了89%。这就意味着需要在Text detection部分多花些功夫啦。

接着手动选择数据,使得Character segmentation部分输出的结果100%正确,发现系统的总体效果最终只提升了1%,也就是说Character segmentation部分已经足够好啦。

同样Character recognition也是这样的检验方法啦~输出结果100%正确,系统的总体效果又提升了10%,表示完善Character recognition部分可以使得整体系统有较大的提升。

基于CNN图像文字识别 图像识别文字算法_计算机视觉_09

虽然整个系列小Mi只在最后介绍了机器学习相关的一个案例,但是已经足够可以展现一个复杂的机器学习系统是如何被组合起来的,同时也介绍了机器学习操作流程的有关概念以及如何分配资源来以作出更好的决定,希望可以帮助到大家学习如何自己开发一个复杂的机器学习应用呦。

好啦,相聚总会有离别的时候,却依旧期待着下次的美好相遇,小Mi还记着当初跟大家的约定,后续一定会带来更多的学习系列!

PS:再次感谢吴恩达老师!通过观看老师的视频,小Mi也重新对机器学习有了更多更深的理解,感谢大佬!!!

好啦,我们,下个系列,再见呦!(挥手24h,太舍不得啦~)