1、区分模式识别,数据挖掘和机器学习

参考:https://www.zhihu.com/question/38106452/answer/211218782

参考:

自然语言处理语义识别 自然语言处理模式识别_模式识别

不同的人有不同的见解,只需要注意一点,即侧重点是不同的。

模式识别:例如文字识别,图像识别,语音识别;

数据挖掘:数据,例如图片,语音,数字数据,等等进行分类或者回归,得出规律的东西;

机器学习:就是上面的方法要用到机器学习,什么深度学习,svm,bp,等等

2、基本概念

参考:

模式:模式就是样品所具有的特征的描述。

模式识别:是一个过程。外部信息到达传感器,并传递到有意义的传感结果

3、模式识别系统的构成

(1) A sensor 感知器(信息获取)

(2) A preprocessing mechanism 预处理机制

(3) A feature extraction mechanism (manual or automated) 特征提取机制

(4) A classification algorithm 分类算法

(5) A set of examples (training set) already classification 训练集或称样本数据

4、模式识别的过程

自然语言处理语义识别 自然语言处理模式识别_数据_02

5、Example 1: distinguish sea fish 区分海鱼

参考教材:Pattern Classification

(5.1)要求识别传送带上的鲑鱼和鲈鱼,且准确率要达到95%以上。

自然语言处理语义识别 自然语言处理模式识别_机器学习_03

(5.2)Sensor

当一条新鱼进入分拣区域时(在皮带上),摄像机捕捉到图像。

(5.3)Preprocessing

摄像机的调整:能将传送带上的鱼拍清楚,需要调整相机的拍照频率和传送带速度相平衡

消除噪音:即比如要去除鱼身上的海草再放上传送带

要将相片上的鱼和背景分离,能将鱼和鱼分离

(5.4)Feature Extraction

一般我们认为鲈鱼要比鲑鱼大,于是我们尝试用length作为特征属性,分辨鲈鱼和鲑鱼

(5.5)Feature Extraction

从两个物种中收集一组例子

绘制两个类的长度分布

确定一个最小化分类错误的决策边界(阈值)

自然语言处理语义识别 自然语言处理模式识别_机器学习_04

我们估计系统出错的概率,如果使用thereshold 11,会得到40%的令人沮丧的结果(非常糟糕!)

显然要达到95%的准确率,只从length一个特征远远不能准确识别鱼类,因此可以考虑如下几个方面:宽度,眼睛的位置,嘴巴的位置等等。最后经过实验,找到一个不错的特征:亮度(lightness)

自然语言处理语义识别 自然语言处理模式识别_自然语言处理语义识别_05

但是依然达不到95%的准确率;

我们将width和lightness结合,来进行分类

自然语言处理语义识别 自然语言处理模式识别_模式识别_06

需要注意的一个问题:鲑鱼的市场价格高于鲈鱼,我们的分类并不是100%有效,因此为了不让买鱼的客户吃亏,应该尽可能让出错的情

况是鲑鱼分到了鲈鱼的那一堆中。即以上图的直线为标准,那么只能把直线往左移作为判断方程。

我们的线性分类器识别率(95.7%)达到了设计要求,但我们认为系统的性能还有待进一步提高。

然后设计了5个隐含层的人工神经网络;

logistic和双曲正切激活函数的组合;

用Levenberg-Marquardt算法对其进行训练并在有决策边界的情况下,获得99.9975%的令人印象深刻的分类率。

自然语言处理语义识别 自然语言处理模式识别_数据_07

这样虽然达到了非常高的准确率,但是这只针对于这些样本而言,并不能推广到所有打捞上来的鲑鱼和鲈鱼的分类问题上。这也称为过拟

合。训练样本过拟合,泛化效果不佳!!

最后经过trade-off(平衡)找到一条比线性方程更好的分类曲线方程。结果准确率大于95%小于99%

自然语言处理语义识别 自然语言处理模式识别_机器学习_08

6、Example 2 Deal with missing data 处理缺失数据