缩略语

机器视觉(CV)

Computer vision

语音识别(ASR)

Automatic Speech Recognition

自然语言处理(NLP)

Natural language processing

1、机器视觉(CV)

       计算机机器视觉是一们研究让机器看见世界的科学,人类能够认出照片中的事务,推理他们之间的关系,但对于计算机来说,图像是一连串RGB数值,并没有任何意义。

      让机器看见世界有四个阶段,也是计算机四个核心问题:

      第一,图像分类---为不同的图像打上对应的标签;

      第二,物体检测---找到物体的位置,并且认出它们是什么;

      第三,语义分割---找到物体之间的关系和联系;

      第四,视频分析---看懂视频中的内容。

     让计算机看到世界有啥用?

       小到手机拍照中的人脸定位,银行中的人脸对比;大到自动驾驶、医疗影像诊断等,都是机器视觉的用武之地。

计算机视觉场景文字识别 计算机视觉语音识别_计算机视觉场景文字识别

2、语音识别(ASR)

      与计算机识别不同,语音识别有且只有一个核心任务----将人类的语音转换成文字。那么,机器如何识别语音的么?

     语言由单词组成,单词又由音素组成,我们将一段语音声波按帧切开,用帧组成状态,用状态组成音素,再将音素合成单词,语音就变成了文字。这时候,机器就可以进行文本处理了。

计算机视觉场景文字识别 计算机视觉语音识别_人工智能_02

      与语音相关的人工智能研究范围内的任务还有不少,声纹识别(识别说话者是谁)、语音合成(将文字信息转换为人类听得懂的语音),siri、智能音响、车载设备、这些都是语音识别看的见、摸得着的应用。

        感觉语音识别(ASR)效果不好,口音、噪声、距离都会影响识别结果,下次可以换个安静环境试试。

3、自然语言处理(NLP)

       自然语言处理是指通过机器处理和运用自然语言,它与语音识别单纯的将波形转换为文字不同。

       由于人类语言太复杂,不同情景下的同一词语可能对应着不同的含义,因此,自然语言处理的任务,往往会涉及理解语言的层面。语言的复杂使得自然语言处理涉及的任务也变得非常庞杂,例如机器翻译,即通过计算机将一种自然语言转换为另一种自然语言,我们常用的百度翻译、有道翻译都是机器翻译系统。

计算机视觉场景文字识别 计算机视觉语音识别_机器学习_03

        中文自动分词,即使用计算机自动对中文文本进行词语切分,之前的锤子手机大爆炸,就是用的这项技术。问答系统,即能自动回答问题的对话系统,第一期中提到的图灵测试就是一个典型的问答系统。除此之外,还有信息抽取、阅读理解、自动摘要、文本分类等等。