1.1 基本概念
模式识别:从数据中识别或发现规律,并加以有效使用。为了进行模式识别,往往要借助计算设备进行编程实现和决策执行,这种设备即机器。
机器学习:从计算设备的角度出发,是指机器从不具备某方面能力到具备次能力的学习过程,即发现数据中的规律并加以使用的能力。
1.1.1 投票选举
近邻法
集成学习
主动学习
1.2 典型的机器学习系统
1.2.1 医学图像诊断
病理图像:高倍显微镜下看到的将人体组织做成病理切片后的图像。通过扫描仪数字化后即可进行计算机辅助分析。
运用机器学习进行病理图像诊断,通常有两种方法:
- 首先应用专家经验或某种特征提取算法提取图像特征(特征工程阶段),然后基于此特征设计分类器进行疾病诊断
- 运用“端到端”的方式,直接从原始输入图像出发设计分类器,隐式的进行特征提取。
整个过程可以总结为:首先找到刻画数据的有用特征,然后基于此特征分不同类型的图像,达到诊断的效果。
确定分类器模型的过程是一种用数据进行训练的过程,也是机器从训练数据中学习的过程。
1.2.2 时间序列识别
为了识别不同的时间序列,可以采用对没类时间序列建立序列模型的方法。
例如:
- 首先运用隐马尔科夫模型,隐条件随机场模型或高斯过程动态系统等概率模型建立每类数据的序列模型。
- 然后通过对比较似然相对大小的方法,对新的时间序列进行分类。
- 还可以运用循环神经网络等非概率模型设计分类器,直接通过监督学习方法进行模型训练,并对新的时间序列进行识别
1.2.3 对话系统
人与机器的双向信息交换系统。按照实现功能的不同,通常可以分为领域任务型对话系统和开放域对话系统两类。对话系统是一种多轮问答的系统。
- 输入:用户文本或语音
- 语音识别
- 自然语言理解
- 对话管理
- 自然语言生成
- 语音转化
1.2.4 异常检测
异常检测可以看做是一个正常和异常类别极不均衡的分类问题—时间序列预测
1.3 前沿研究方向举例
模式识别与机器学习研究领域举例:半监督学习,主动学习,元学习,深度学习,可解释性,概率模型与近似推理,视觉问答,文本摘要,机器翻译,图像描述等。
1.3.1 多视图机器学习
自然语言处理中融合知识库和训练文本库的问答系统构建、基于雷达信号和可见光图像的海上目标检测与识别等,呈现多源异质或多传感器感知等多视图特性。
多视图机器学习的研究主旨:通过视图之间互相关系建模与发掘,精确建立视图间的正则化约束或概率依赖关系,最终增强学习系统的性能。
多视图机器学习需要额外考虑各视图对学习任务的充分性,视图间的互补性,视图间噪声类型与量级的差异性,视图间数据异质导致的模型预算法的特异性,视图间时序数据不同步,部分视图数据缺失等问题。
1.3.2 强化学习
探索和利用
1.3.3 可信人工智能
至少可以从人工智能算法的理论性能保证,机器学习系统的鲁棒性与可解释性增强等方面开展