物体识别(图像识别)

物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中是什么物体。

如,手写数字识别的图像类别分类问题。

计算机视觉 识别区域面级 计算机视觉物体识别_计算机视觉

物体检测

从图像中确定物体的位置,并进行分类。

计算机视觉 识别区域面级 计算机视觉物体识别_应用_02

图像分割

在像素水平上对图像进行分类。

计算机视觉 识别区域面级 计算机视觉物体识别_图像_03

图像标题的生成

给出一个图像后,会自动生成介绍这个图像的文字(图像的标题)。融合了计算机视觉和自然语言。

PS:将组合图像和自然语言等多种信息进行的处理称为多模态处理

计算机视觉 识别区域面级 计算机视觉物体识别_计算机视觉 识别区域面级_04

图像风格变换

输入两个图像后,会生成一个新的图像。两个输入图像中,一个称为“内容图像”,另一个称为“风格图像”。

计算机视觉 识别区域面级 计算机视觉物体识别_深度学习_05

图像的生成

生成新的图像(需要事先使用大量的图像进行学习,但在“画”新图像时不需要任何图像。

比如,基于DCGAN(Deep Convolutional Generative Adversarial Network)方法生成卧室图像。

计算机视觉 识别区域面级 计算机视觉物体识别_图像_06

DCGAN的技术要点是使用了Generator(生成者)和Discriminator(识别者)这两个神经网络。 Generator生成近似真品的图像, Discriminator判别它是不是真图像(是Generator生成的图像还是实际拍摄的图像)。像这样,通过让两者以竞争的方式学习, Generator会学习到更加精妙的图像作假技术,Discriminator则会成长为能以更高精度辨别真假的鉴定师。两者互相切磋、共同成长,这称为GAN(Generative Adversarial Network)生成对抗网络技术。

自动驾驶

自动驾驶需要结合各种技术的力量来实现,比如决定行驶路线的路线计划(path plan)技术、照相机或激光等传感技术等,在这些技术中,正确识别周围环境的技术尤其重要。

下图对输入图像进行了分割(像素水平的判别)。观察结果可知,在某种程度上正确地识别了道路、建筑物、人行道、树木、车辆等。

计算机视觉 识别区域面级 计算机视觉物体识别_应用_07

Deep Q-Network(强化学习)

就像人类通过摸索试验来学习一样(比如骑自行车),让计算机也在摸索试验的过程中自主学习。

强化学习的基本框架是,代理(Agent)根据环境选择行动,然后通过这个行动改变环境。根据环境的变化,代理获得某种报酬。强化学习的目的是决定代理的行动方针,以获得更好的报酬。

计算机视觉 识别区域面级 计算机视觉物体识别_计算机视觉 识别区域面级_08

基于Deep Q-Network学习电子游戏的操作。输入是电子游戏的图像,经过摸索试验,学习出让专业玩家都自愧不如的游戏手柄(操作杆)的操作手法。

计算机视觉 识别区域面级 计算机视觉物体识别_图像_09

人工智能 AlphaGo击败围棋冠军,这个AlphaGo技术的内部也用了深度学习和强化学习。AlphaGo学习了3000万个专业棋手的棋谱,并且不停地重复自己和自己的对战,积累了大量的学习经验。