手写识别(HandWriting Recognition)是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。

随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。

手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。用于手写输入的设备有许多种,比如电磁感应手写板、压感式手写板、触摸屏、触控屏、超声波笔等。

手写识别属于文字识别和模式识别范畴,文字识别从识别过程来说分成脱机识别(off-line)和联机识别(on-line)两大类,从识别对象来说又分成手写体识别和印刷体识别两大类,我们常说的手写识别是指联机手写体识别

结构特点

jHWR手写识别系统以先进的大容量字典技术为基础,是一种能够在任何时间、任何地点,向任何人实时、准确的提供手写识别服务的高效便捷手段,非常符合信息时代动态更新和个性化查询的需求。

JHWR体系结构

联机手写识别是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字内码的一个映射过程。如图《eJHWR体系结构》所示

jHWR引擎特点

1.中文识别范围

2. 多个识别字典可供选择

3. 多语种识别

4. 更高的识别效果

5. 出色的识别引擎性能

6. 完善的识别功能库

7. 多样化的输出结果

机器学习 手写字体识别 手写体识别原理_文字识别

eJHWR体系结构

机器学习 手写字体识别 手写体识别原理_文字识别_02

JHWR的识别产品图

机器学习 手写字体识别 手写体识别原理_手写识别_03

jHWR识别流程

脱机手写识别

离线手写识别涉及到将图像中的文本自动转换成是计算机可以使用的字符代码。离线手写识别是比较困难的,因为不同的人有不同的书写风格。离线手写识别主要应用在打印出来的文字识别上。

减少识别错误的技术

常常使用缩小识别范围,例如邮政编码只包含1~9的数字,识别这种数字可以减少错误的可能。

主要的技术

指定特定的字符范围;

利用字符的专有特点。

字符的提取

离线字符识别往往涉及扫描过去写的表格或文档。这意味着该设备或软件需要将扫描的图像中所包含的单个字符提取出来。然而,在这一步中有几种常见的缺陷。其中最常见的是将多个相连的字符当作为单个字符分离出来。这增加了识别的难度,但许多软件已经开始适应这种问题。

字符的识别

当单个字符的提取出来后,识别引擎开始计算其对应的计算机字符。有几种不同的识别技术。

特征的提取

除了人工神经网络外,程序员有时必须手动确定他们感觉很重要的属性。

这些属性可能是:

宽高比;

水平方向上的像素百分比;

竖直方向上的像素百分比;

笔画数;

字符到图像中心的平均距离;

这种方法可以提高识别的准确性,但需要花费更多的研发时间。

在线手写识别

一般过程

在线手写识别可以分解为几个通用的步骤:

预处理;

特征的提取;

分离出字符。

预处理的目的是摒弃无关的输入数据,可以减少负面的影响。这涉及到速度和准确性。通常由图像二值化、 正常化、 采样、 平滑、去噪预处理等组成。

支持环境

(一)eJHWR技术,运用句法结构自学习算法和基于特征统计算法的多核心融和技术。具有如下特点:

1.识别率高。

2.识别速度快。

3.无笔顺限制。

4.数据字典大小可缩扩。

(二)eJHWR支持环境

OS: WinCE , Nucleus, Embedded Linux , Symbian, Palm Os, HOPEN, pSOS, UCOS

CPU: DragonBall(Motorola 68000) EZ(16M) 和VZ(33M),MIPS, SH3, SH4, ARM7, StrongARM, ARM9, Xscale等

(三)eJHWR可以带来如下主要功能:

1.文本输入— 取代键盘输入的频繁按键,文字符号夹杂时免去频繁的输入方式切换,遇到不确定读音的文字也可照常书写。

2.快速定位— 用手写笔担当鼠标,快速定位,比键盘操作自如得多。

3.快速查询— 当菜单层级太深或者不知道该查询信息的准确分类时,调用手写输入,免除频繁而茫然的键盘操作实现快速查询。