1 引言
视觉是智慧生物和智能体的基本功能,负责理解与感知外部世界。人类感知系统有超过80%信息量来自视觉系统,远远超过听觉系统、触觉系统以及其他感知系统之和。如何设计强大的视觉感知系统,以应用于计算机视觉技术和人工智能技术,一直是科学界和工业界的研究热点。
近年来,传统视频在视觉观赏角度取得了重大进展,但存在数据采样冗余大、感光动态范围小和时域采集低分辨率,在高速运动场景易产生运动模糊等缺点。此外,计算机视觉一直朝着"视频摄像头+计算机+算法=机器视觉"的主流方向,却很少人质疑用图像序列(视频)表达视觉信息的合理性,更少人质疑是否凭借该计算机视觉算法就能实现真正机器视觉。
人类视觉系统具有低冗余、低功耗、高动态及鲁棒性强等优势,可以高效地自适应处理动态与静态信息,且具有极强地小样本泛化能力和全面的复杂场景感知能力。探索人类视觉系统的奥秘,并借鉴人类视觉系统的神经网络结构和视觉信息采样加工处理机理,建立起一套新的视觉信息感知与处理理论、技术标准、芯片和应用工程系统,从而更好模拟、扩展或超越人类视觉感知系统的能力。这是神经科学与信息科学的交叉学科,称之为神经形态视觉。
神经形态视觉是一个包含硬件开发,软件支撑,生物神经模型,三者不可缺一的视觉感知系统,其终极目标之一是模拟生物视觉感知结构与机理,以硅视网膜(Silicon Retina)来以期达到真正的机器视觉。
神经形态视觉传感器模拟生物视觉感知系统,其具有高的时域分辨率、数据冗余少、低功耗和高动态范围的优势,在自动驾驶、无人机视觉导航、工业检测及视频监控等机器视觉领域,尤其在涉及高速运动和极端光照场景下有着巨大的市场潜力。此外,神经形态视觉采样、处理及应用是神经形态工程的重要分支,为计算神经科学的脑启发视觉模型提供了验证,也是探索人类智能的有效途径之一。目前神经形态视觉传感器的研究与应用尚处于初期阶段,达到或超越人类视觉系统在复杂交互环境下的感知能力还需要大量的探索研究。
本文从神经形态视觉的发展历程、生物视觉神经采样模型到神经形态视觉传感器的采样机理及类型、神经视觉信号处理与特征表达及视觉应用的视角进行系统性回顾与综述,并展望了该领域未来研究的重大挑战与可能发展方向,同时探讨了其对未来机器视觉和人工智能领域的潜在影响。
2 神经形态视觉模型与采样机理
神经形态视觉的技术路线总体上分为三个层次:结构层次模仿视网膜,器件功能层次逼近视网膜,智能层次超越视网膜。如果说传统相机是对人类视觉系统的模拟,那么这种仿生物视网膜只是器件功能层次的初级模拟。实际上,传统相机无论是在结构层次、功能层次,甚至智能层次都远不及人类视网膜在各种复杂环境的感知能力。
神经形态视觉传感器正是从器件功能层次仿真入手,即采用光电纳米器件模拟生物视觉采样模型与信息处理功能,在有限的物理空间和功耗条件下构造出具有或超越生物视觉能力的感知系统。简而言之,神经形态视觉传感器不用等完全理解视网膜的解析结构与机理再进行模拟,而是借鉴结构层次研究机理并绕过这个更为困难的问题,通过器件功能层次逼近等仿真工程技术手段达到、扩展或超越人类视觉感知系统的能力。
目前,神经形态视觉传感器已经取得了阶段性成果,有模拟视网膜外周感知运动功能的差分型视觉采样模型,如DVS、ATIS、DAVIS、CeleX;也有模拟视网膜中央凹感知精细纹理功能的积分型视觉采样模型,如章鱼视网膜、Vidar。
2.1 生物视网膜视觉模型
脊椎动物的视网膜是在6亿年前由光感受神经细胞演变而成,位于后半眼球的多层复杂神经网状结构,如图2所示。灵长类生物视网膜大致可以分为三层结构:光感受器层、内丛状层和外丛状层,其包括光感受器细胞、双极细胞、水平细胞、神经节细胞等主要构成,如图3所示。光感受器细胞分为视杆细胞和视锥细胞两类,负责将进入眼球的光信号转化为电信号,并传导至双极细胞和水平细胞。视锥细胞对颜色敏感,主要负责颜色的识别,通常在场景光照较强条件下工作;视杆细胞对光线敏感,能够感受弱光,主要提供夜晚场景下工作,但其没有颜色辨别能力。双极细胞接受光感受器的信号输入,其根据感受野的区域不同分为ON型和OFF型两类细胞,分别感知光强增加和光强减弱。水平细胞与光感受器、双极细胞横向互连,对光感受器输出的信号进行亮度调节,同时也负责增强视觉对象边缘凸显轮廓。神经节细胞负责接受双极细胞的视觉信号输入,并以时空脉冲信号(Spatial-Temporal Spike)的形式做出响应,再经视觉纤维传递至视觉皮层。此外,视网膜细胞有多条并行通路传递和处理视觉信号,有极大的带宽传输与速度优势,其中Magnocellular和Parvocellular通路是最主要的两条信号通路,分别对场景的时域变化敏感和空间结构敏感。
灵长类生物视网膜具有以下优势:
(1)光感受器的局部自适应增益控制:以记录光强变化替代绝对光强来消除冗余,对光强感知有高动态范围(High Dynamic Range, HDR);
(2)视杆细胞的空间带通滤波器:滤除低频信息的视觉信息冗余和高频信息的噪声;
(3)ON和OFF类型:神经节细胞及视网膜输出均为ON和OFF脉冲信号编码,降低了单通道的脉冲发放频率;
(4)感光功能区:视网膜中央凹具有高的空间分辨率,可捕捉精细纹理;其外周的区域具有高的时间分辨率,捕获快速运动信息。
此外,依据Nyquist采样定理传统相机需要传输超过20Gb/s的数据才能匹配人类视觉的动态范围与空间分辨率,而生物视觉以二进制脉冲信息表示与编码,视觉神经仅需传输20Mb/s数据至视觉皮层,数据量少将近1000倍。因此,视网膜通过神经节细胞将光强信息转换为时空脉冲阵列信号,是一种高效的视觉信息表示与编码的方法,为神经形态视觉传感器提供了理论支撑与功能层次的启发。
生物视觉系统的信息获取、加工和处理主要发生在视网膜、外膝体与视皮层等处,如图2所示。视网膜是接收视觉信息的第一站;外膝体是将视网膜视觉信号传输到初级视皮层的信息中转站; 视皮层是视觉中央处理器,在学习记忆、思维语言以及知觉意识等高级视觉功能方面发挥至关重要的重要。视皮层信息处理的整个过程由两条并行通路完成:V1、V2和V4等组成腹侧通路主要处理物体形状、颜色等信息识别,也称what通路;V1、V2和MT等组成的背侧通路主要处理空间位置、运动等信息,也称where通路。因此,借鉴神经计算模型探索人类视觉系统信息处理与分析机制,为计算机视觉与人工智能技术提供借鉴思路与指导方向,进一步启发类脑视觉理论模型与计算方法,从而更好的挖掘视觉特征信息,以逼近生物视觉的高效自适应地处理动静信息、极强的小样本泛化能力与全面视觉分析能力。
2.2 差分型视觉采样及AER传输协议
神经元之间的复杂连接,脉冲信号在神经元之间的传递是异步的,那么神经形态工程系统如何模拟这一特性呢?正是Mahowald团队提出新型的通信协议AER方式,如图4所示,用于脉冲信号多路异步传输,也解决了大规模集成电路的三维稠密连线难题,即"连线问题"(Wiring Problem)。
AER方式将传感器上每个像素视为独立,脉冲信号以事件(Event)的形式传输,并按事件产生时间先后顺序异步传出,而不是类似传统相机那样以固定频率的图像传出,解码电路依据地址及时间解析事件属性。AER方式用于神经形态视觉传感器的主要特点在于:
(1)硅视网膜像素输出事件模拟视网膜的神经元发放脉冲信号的功能;
(2)硅视网膜像素之间光强感知、脉冲产生及传输均异步;
(3)硅视网膜输出异步事件稀疏时,事件表示及传输更高效。
差分型视觉采样是神经形态视觉传感器感知模型的主流,如DVS、ATIS、DAVIS、CeleX,其对灵长类视网膜外周中光感受器、双极细胞、神经节细胞三层结构的抽象,从器件功能层次上逼近或超越视网膜外周的高时间分辨率感知的能力,如图5(a)。为了提高光强感知动态范围,DVS系列视觉传感器多采用对数差分模型,即光电流与电压采用对数映射关系,如图5(b)。随着光强的相对变化引起电压变化超过设定阈值,像素产生一个脉冲信号,如图5(c)所示,其原理如下:
差分型视觉传感器采用AER方式,每个脉冲信号采用事件形式表示,包括像素位置u = (x, y)、发放时间 t 和事件极性p,即一个四元组表示(x, y, t, p)。前三项唯一确定时空域的位置,最后一项极性p = {-1, 1}分别表示光强的减弱OFF和光强增强ON。差分型神经形态视觉传感器与传统相机相比,其优势在于:
(1)输出异步稀疏脉冲也不存在"帧"的概念,不再受限于快门时间和帧率,感知光强的变化,可消除静态不变的视觉冗余;
(2)采样具有高时间分辨率,适用于高速运动视觉任务分析;
(3)光电流与电压的对数映射关系,增强了高低光照的感知能力进而提升动态范围。
2.3 积分型视觉采样
积分型视觉采样在功能上对灵长类视网膜中央凹区域的光感受器、双极细胞、神经节细胞三层结构的抽象,如章鱼视网膜、Vidar。积分型视觉传感器模拟了神经元积分发放模型,将像素光强编码为频率或脉冲间隔,具有对视觉场景的精细纹理高速重构的能力,如图6所示。光感受器将光信号转化为电信号,积分器在光照条件I(t)条件下进行累计到达累计强度A(t),当该强度值超过脉冲发放阈值φ时,则像素点输出一个脉冲信号,同时积分器复位清空电荷,其原理如下:
积分型视觉传感器的像素间彼此独立,章鱼视网膜采用AER方式将脉冲信号进行输出,尤其在光强充足时积分型视觉传感器脉冲发放稠密,事件表示容易出现同一位置及相邻位置多次请求脉冲输出,会出现数据传输的巨大压力,不得不设计总线仲裁机制,为脉冲输出确定优先级,甚至会因带宽限制丢失脉冲信号。 Vidar探索高速轮询的方式以脉冲矩阵的形式传输每个采样时刻的脉冲发放,此方式不需要输出脉冲的坐标与时间戳,只需将像素是否发放标记为"1"和"0"。将脉冲平面轮询的方式代替AER方式可以节约传输带宽。
3 神经形态视觉传感器类型
神经形态视觉传感器借鉴生物视觉系统的神经网络结构和视觉信息采样加工处理机理,以器件功能层次模拟、扩展或超越生物视觉感知系统。近年来,一大批代表性的神经形态视觉传感器涌现, 是人类在探索仿生视觉技术的雏形,有模拟视网膜外周感知运动功能的差分型视觉采样模型,如DVS、ATIS、DAVIS、CeleX;也有模拟视网膜中央凹感知精细纹理功能的积分型视觉采样模型,如Vidar。
3.1 DVS
DVS对灵长类视网膜外周中的光感受器、双极细胞、神经节细胞三层结构的功能抽象,由光电转换电路、动态检测电路和比较器输出电路组成,如图5所示。光电转换电路采用对数光强感知模型,提高了光强感知范围,也更加接近生物视网膜的高动态适应的能力。动态检测电路采用差分型采样模型,即对光强变化做出响应,无光强变化则不响应。比较器依据光强的增加或减弱输出ON或OFF事件。
传统相机以固定帧率的采样方式,在高速场景易产生运动模糊。而DVS采用AER异步传输方式的差分型视觉采样模型,以异步时空脉冲信号表示场景光强变化,对场景的变化十分敏感且高时间分辨率,尤其适用于高速运动的视觉任务分析,如图7所示。DVS相比传统相机具有以下优势:高时间分辨率(106Hz)、高动态范围(120dB)、低功耗、数据冗余少和时延低。
DVS利用差分视觉采样模型可以滤过静止不变或变化较弱的视觉信息以降低数据冗余,同时具有感知高速运动。然而,这种优势带来了视觉重构的劣势,即ON或OFF事件不携带绝对光强信号,且光强变化较弱时无脉冲信号发放,从而无法重构精细化纹理图像。为了解决DVS面向视觉纹理可视化,便衍生出ATIS、DAVIS和CeleX等神经形态视觉传感器。
3.2 ATIS
ATIS在DVS的基础上巧妙地引入了基于时间间隔的光强测量电路来实现图像重构,其思路是每次DVS电路产生事件时,触发光强测量电路进行工作;光强测量设定了两个不同的参考电压,通过对光强进行积分,并记录达到两个电压发放的事件;由于不同光强的条件下,电压变化相同量所需的时间不同,通过建立光强与时间的映射可以推断出光强大小,从而输出光强变化像素处的光强信息,也称为脉冲宽度调制(Pulse Width Modulation, PWM)。此外,为了解决静态区域没有DVS脉冲信号发放依然无法获得静态区域的视觉纹理信息,ATIS引入了一套全局发放机制,即所有像素可被强制发放一次脉冲,这样在ATIS初始工作时可获得一整幅图像作为背景,然后运动区域不断产生脉冲进而不断的触发光强测量电路获得运动区域的灰度来更新背景。
ATIS在面向高速运动时,依然存在事件与灰度重构更新不匹配的情况,其原因有以下两点:脉冲发放后触发光强测量电路,其测量结果是脉冲发放后一段时间的平均光强,造成运动不匹配;场景稍微变化未引起脉冲发放,从而像素未及时更新,随着时间推移会造成纹理差异明显。
3.3 DAVIS
DAVIS是一种最直观且有效的融合技术思路,将DVS和传统相机二者结合,在DVS基础上额外引入有源像素传感器(Active Pixel Sensor, APS),用于视觉场景纹理成像。
当前,DAVIS是神经形态视觉传感器商用产品、工业应用及学术研究的主流,源于DVS系列性传感器(DVS128、DAVIS240、DAVIS346和彩色DAVIS346)的学术研究推广,相关视觉任务数据集的公开、代码及软件的开源等营造的良好生态环境。因此,在本文介绍脉冲信号处理与特征表达、视觉应用等均以差分型视觉采样模型的DVS系列传感器为主。
3.4 CeleX
CeleX在考虑到ATIS的光强测量电路存在滞后,在DVS电路输出脉冲事件的地址(x, y)和发放时间 t 时同时,也及时的将该像素的光强信息 I 输出,即CeleX输出事件可用四元组表示。CeleX的设计思路主要包括三个部分:(1)引入缓冲和读出开关电路直接将对数光感受器的电路转换为光强信息输出;(2)采用全局控制信号输出一整帧图像,便于初始工作时可获得整幅图像作为背景和及时全局更新;(3)专门设计列模拟读出电路输出缓冲器的光强值。CeleX巧妙地将脉冲事件的位宽设计为9比特,既保证了脉冲本身的语义信息,又携带了一定量的光强信息。
CeleX的脉冲事件采用9比特信息输出,在场景剧烈运动或高速运动场景时,面临数据量大而无法及时传输,甚至丢弃部分脉冲数据以至采样信号无法保真,同时对轻微光照也无法做出响应及时更新等缺点。但是,CeleX 的"三高"性能及其光流信息的输出等优势,在自动驾驶、无人机视觉导航、工业检测和视频监控等涉及高速运动视觉任务有着巨大的应用潜力。
3.5 Vidar
Vidar对灵长类视网膜中央凹的光感受器、双极细胞、神经节细胞三层结构的功能抽象,采用了积分型视觉采样模型,将像素光强编码为频率或脉冲间隔,具有对视觉场景的精细纹理高速重构的能力。Vidar由光电转换电路、积分器电路和比较器输出电路组成,如图6(a)所示。光感受器将光信号转换为电信号,积分器将电信号进行积分累计,比较器将该累计值与脉冲发放阈值比较判断输出脉冲信号,同时积分器被复位,也称为脉冲频率调制(Pulse Frequency Modulation, PFM)。Vidar像素间的脉冲信号输出彼此独立,单个像素的脉冲信号按照时间先后顺序排成"脉冲序列",所有像素按照空间位置相互关系构成"脉冲阵列",脉冲阵列的每个时刻的截面称为"脉冲平面",脉冲信号以"1"表示,没有脉冲信号以"0" 表示,如图8所示。
黄铁军教授团队研制的第一款Vidar,其空间分辨率为400 x 250,时域采样频率为4 x 104Hz,每秒输出476.3M的数据量,并可依据脉冲发放的时空特性来对静态场景或高速运动场景进行精细化纹理重构,如采用滑动窗口累计法或脉冲间隔映射的方法。此外,Vidar可自由设定时长的脉冲信号进行影像重构,在成像的动态的动态范围上具有灵活性。该积分型视觉采样芯片能对高速运动进行精细化纹理重构,可用于高速运动场景的物体检测、跟踪和识别,在自动驾驶、无人机视觉导航、机器视觉等涉及高速视觉任务领域的应用潜力巨大。
Vidar采用积分型视觉采样模型,将光强信号进行频率或脉冲间隔编码,本质是将光强信息的变换为频率编码,相比面向运动感知的DVS系列传感器,更加友好地面向视觉精细重构的优势。然而,Vidar无论在静态场景还是运动区域都会产生脉冲,采样上存在巨大的数据冗余,以及如何控制脉冲发放阈值以便自适应感知不同光照场景和控制数据量是积分视觉采样需要亟待解决的问题。
3.6 仿视网膜视觉传感器性能对比
近期,大量的神经形态视觉传感器涌现并商业化应用,有模拟视网膜外周感知运动功能的差分型视觉采样模型, 如DVS128、ATIS、DAVIS346、DVS-G2、CeleX-V;也有模拟视网膜中央凹功能的积分型视觉采样模型,如Vidar,具体的各性能参数的对比如表1所示.
神经形态视觉传感器具有两大优势:(1)高速视觉采样的能力,在高速运动视觉任务有着巨大的应用潜力;(2)低功耗,也是Mead 所提出的神经形态工程的本质优势和未来可能的终极形态。然而,如何对神经形态视觉传感器输出的时空脉冲信号进行处理、特征表达及高速视觉任务分析是当前神经形态视觉的研究热点;同时如何采样类脑芯片对脉冲信号进行高速处理,应用于涉及高速视觉任务是神经形态工程产业界的关注重点,如IBM公司的TrueNorth芯片、Intel公司的Loihi芯片和曼切斯特大学的SpiNNaker芯片等。
当前,神经形态视觉传感器的空间分辨率从IniVation 公司开发的第一款商用DVS128的128 x 128发展到三星公司DVS-G2的640 x 480,CelePixel公司CeleX-V的1280 x 800,但相比传统高清与超高清相机在空间分辨率与成像质量上有较大的差距,源于:(1)高空间分辨率与高时域分辨率将给数据传输与存储带来了巨大挑战;(2)动态视觉传感器设计的初衷是感知高速运动而非面向高质量视觉观看。总之,神经形态视觉传感器目前尚处于探索的初期阶段,达到人类视觉系统在复杂交互环境下的感知能力还需要大量探索研究。
4 异步时空脉冲信号处理
神经形态视觉传感器模拟了生物视网膜的脉冲发放机理,如采用差分型视觉采样模型的DVS系列传感器,受到视觉场景光强变化刺激发放脉冲信号并记录为地址事件,脉冲信号在空域和时域呈现三维空间的稀疏离散点阵,如图7所示.
传统视频信号以"图像帧"范式进行视觉信息表征与信号处理,也是现有机器视觉的主流方向。然而,"异步时空脉冲信号"不同于"图像帧",现有的图像信号处理机制并不能直接迁移应用。如何建立一套新的信号处理理论与技术体系,是神经形态视觉信号处理领域的研究难点与热点。
4.1 异步时空脉冲信号分析
异步时空脉冲信号分析与处理存在以下几个探索的方向:
(1)异步时空脉冲信号在数据分布上可描述为时空点过程,可引入点过程信号处理、学习与推理理论;
(2)异步时空脉冲信号在时空结构上与点云相似,可利用深度学习在点云网络的结构与方法;
(3)脉冲信号视为图模型的节点,可采用图模型信号处理与学习理论;
(4)异步时空脉冲信号的高时间分辨率的时序优势,挖掘时序记忆模型和借鉴类脑视觉信号处理机理。
4.2 异步时空脉冲信号度量
异步时空脉冲信号度量是衡量脉冲流之间的相似性,即在度量空间里计算脉冲流之间的距离,是异步时空脉冲信号处理的关键技术之一,在计算神经科学、脉冲编码压缩、机器视觉任务等领域有着广泛且重要的应用。
异步时空脉冲信号是非结构化数据,不同于可归一化的结构化的"图像帧",且在主观视觉上差异无法直接度量。如何将异步脉冲信号度量面向视觉任务和归一化的评价也是亟需解决的难点问题。
4.3 异步时空脉冲信号编码
随着DVS系列传感器的空间分辨率不断提高,如三星公司DVS-G2的空间分辨率为640 x 480,CeleX-V的空间分辨率为1280 x 800,在剧烈运动的场景产生的异步时空脉冲信号面临着传输和存储的巨大挑战,如何对异步时空脉冲信号进行编码压缩,是一个全新的时空数据压缩问题。
异步时空脉冲信号的压缩方案是借鉴传统视频编码框架与策略的基础上的初步尝试,但是并未充分分析异步时空脉冲信号的时空特性。端到端的深度学习或受神经计算模型启发的脉冲神经网络的自适应编码器能否应用到异步时空脉冲信号的编码中呢?当前面临着异步脉冲信号的网络输入、失真度量及足够的数据标注等难题。因此,如何设计鲁棒性的自适应编码器进行异步时空脉冲信号的数据压缩将是一个极具有挑战性且有很高价值的研究课题,可进一步推广到生物脉冲信号的编码与压缩领域。
5 异步时空脉冲信号特征表达
异步时空脉冲信号在时域和空域上呈现为三维空间的稀疏离散点阵,相比传统"图像帧"范式的信号处理与特征表达上更加的灵活,尤其在脉冲信号处理单元的时域长度或脉冲数目上的选择,也增加了异步时空脉冲信号的视觉分析算法输入的难度。因此,如何对异步时空脉冲信号进行特征表达,如图10所示,挖掘异步时空脉冲信号的时空特性,面向"高精度"与"高速"的视觉分析任务,是神经形态视觉领域最重要和核心的研究问题,也是决定着神经形态视觉传感器的推广与应用。
近些年的研究文献的概况与分布上来看,主要集中在四个方面:频率累计图像(Rate-based Image)、手工设计特征(Hand-crafted Feature)、端到端的深度网络和脉冲神经网络。
5.1 频率累计图像
神经形态视觉传感器的输出为了适用于现有基于"图像帧"的视觉算法,可将异步时空脉冲信号按照时域固定长度或固定数目进行时域投影或频率累计,即频率累计图像。
模型法:将频率累计图像按照图像模式的先验知识进行建模与特征提取。
深度学习方法:将频率累计图像输入到基于"图像帧"的深度学习网络。
这些将异步时空脉冲流简洁地时域投影或频率累计转换图像的策略,可直接兼容"图像帧"的视觉算法,能将神经形态视觉传感器快速且有效应用到涉及高速运动的视觉任务中,也是当前异步时空脉冲信号的特征表达的主流,但该策略并未充分挖掘脉冲流的时空特性。
5.2 手工设计特征
在深度学习算法主导之前,手工设计特征也广泛应用于机器视觉领域,如著名的SIFT算子。如何针对异步脉冲信号设计紧凑的手工设计特征,且有尺度和旋转不变形的鲁棒特性,是神经形态视觉传感器应用于视觉任务的重要技术。
手工设计特征在面向特定的视觉任务应用有着较好性能,但手工设计特征需要大量的先验知识,也需要对任务需求及数据特性深入了解并大量调试工作。因此,利用任务驱动的级联方式来监督学习与表达特征,可更好的挖掘异步时空脉冲信号的时空特性。
5.3 端到端的深度网络
深度学习是当前人工智能的研究热潮,在图像、语音、文本等领域展现出了明显的性能优势。如何让异步时空脉冲信号在端到端的深度网络进行学习,充分挖掘其时空特性,是神经形态视觉研究的热点与难点。
卷积神经网络:利用3D卷积对异步时空脉冲信号进行处理。
点云神经网络:将异步时空脉冲信号视为三维空间的点云进行处理。
图神经网络:将脉冲信号视为图模型的节点,采用图模型的处理方式。
端到端的深度网络可更好的挖掘异步时空脉冲信号的时空特性,其显著性能优势也备受关注。深度网络在大数据驱动下监督学习获得的性能优势,但异步脉冲信号几乎无法像传统图像那样进行直接主观标注,尤其在目标检测、跟踪及语义分割等高层次视觉任务。此外,异步时空脉冲信号的高速处理能力和低功耗是神经形态视觉传感器广泛应用的前提,而深度学习目前在任务处理速度和功耗上的并无优势。目前,端到端的深度网络对异步脉冲信号的特征表达尚处于萌发阶段,存在大量的研究点及其优化空间。
5.4 脉冲神经网络
脉冲神经网络是第三代神经网络,是模拟生物脉冲信号处理机制的网络结构,其考虑脉冲信号发放的精确时间信息,也是异步时空脉冲信号特征学习的重要研究方向之一。
脉冲神经网络在神经形态视觉应用主要集中目标分类与识别。唐华锦教授团队提出了一种多层级联式的前馈脉冲神经网络,应用于DVS记录的数字字符进行分类。Orchard等人提出了时域信度分配策略进行脉冲神经网络的反向传播,并采用GPU进行加速运算。施路平教授团队设计了面向分类任务的深度脉冲神经网络,并在深度学习开源平台上进行监督学习与加速运算。此外,部分研究人员也利用脉冲神经网络在复杂的视觉任务进行尝试。Benosman团队基于经验信息设计了多层神经元组合的脉冲神经网络,分别应用于双目视差和单目变焦的立体视觉系统。Acharya等人提出多层级联式的脉冲神经网络应用固定场景目标的候选区域的检测。Bing等人基于STDP学习规则设计了一个端到端的脉冲神经网络应用于机器人视觉导航系统。
目前,脉冲神经网络还停留在理论研究阶段,如异步脉冲时空信号的监督学习梯度优化理论、无监督学习的突触可塑性机理、深度学习结构启发脉冲神经网络设计等,其在神经视觉分析任务的性能还远不及端到端的深度学习网络。但是,脉冲神经网络是借鉴神经计算模型更加贴近脑视觉信息处理与分析机制,有着重大的发展潜力与应用前景。因此,如何进一步利用视觉皮层信息加工与处理机理来启发理论模型与计算方法,为脉冲神经网络的设计与优化提供借鉴思路与指导方向,更好的挖掘视觉特征信息与提升计算效率,如何解决脉冲神经网络的监督学习适用复杂视觉任务,以及如何在硬件电路或神经形态芯片模拟神经元微分方程的高效计算,是脉冲神经网络从理论研究面向实际应用亟需解决的问题。
6 神经形态视觉传感器应用
随着脑认知科学与类脑视觉计算的兴起,计算机视觉作为推动人工智能浪潮的重要方向。神经形态视觉是受生物视觉系统结构与采样机理的启发,达到或超越人类智能的有效途径之一,成为计算神经科学与计算机视觉领域的研究热点。此外,神经形态视觉传感器的高时间分辨率、高动态范围、低功耗、低数据冗余等优势,在自动驾驶、无人机视觉导航、工业检测及视频监控等机器视觉领域,尤其在涉及高速摄影、高速运动和复杂光照场景下有着巨大的市场应用潜力。
6.1 数据集及软件平台
6.1.1 仿真数据集
仿真数据是以计算图像学的技术手段来模拟神经形态视觉传感器的采样机理,其采用渲染的形式仿真光学环境、信号传输及电路采样。
仿真数据集以低成本方式逼近真实数据采集的效果,尤其为端到端的深度学习算法提供数据驱动,能进一步的推动神经形态视觉的研究与发展。
6.1.2 真实数据集
总之,神经形态视觉传感器公开的大规模数据集相对较少,尤其在复杂的视觉任务,如在目标检测、跟踪及语义分割等应用中对象及语义级的标注。开发大规模的神经形态视觉应用数据集是端到端监督学习数据驱动的源泉。
6.2 视觉场景图像重构
ATIS和DAVIS能弥补DVS无法直接捕捉场景精细纹理的缺陷,却无法直接对高速运动及极端光照场景图像进行视觉重构,一些视觉场景图像重构方法致力于让DVS系列传感器的更高的成像质量。
神经形态视觉传感器是面向机器视觉感知系统,尤其是动态视觉传感器,设计的初衷并非是面向高质量视觉观看。因而,高质量、高效率和高保真的视觉影像应由视觉传感器直接采样完成,如CeleX-V。此外,视觉场景图像重构算法需考虑:如何挖掘神经形态的高时间分辨率及高动态的优势,并利用脉冲信号的时序关系进一步提升面向图像重构的质量。
6.3 光流估计
光流是空间物体在观测成像平面上的像素运动的瞬时速度,不仅涵盖被测物体的运动信息,也有丰富的三维结构信息,在研究目标检测、跟踪与识别等视觉应用任务有着重要的作用。
因异步时空脉冲信号端到端监督学习的特征表达与大规模光流数据集缺失的难题,当前光流评估方法主要是鉴于先验信息的模型,能直接为神经形态视觉传感器的采样芯片提供光流信息输出。然而,端到端监督学习的方法能充分挖掘异步时空脉冲信号的时空特性,从而进一步提高光流运动评估的性能。
6.4 目标识别
神经形态视觉传感器在字符识别、物体对象识别、手势识别、步态识别及行为识别等领域有着广泛应用,尤其在涉及高速运动、极端光照的场景。目标识别算法是目前神经形态视觉任务的研究主流,从异步时空脉冲信号的处理角度主要分为:频率累计图像、手工设计特征、端到端的深度网络及脉冲神经网络。
端到端的深度网络在目标的分类与识别任务性能上占据明显优势,如表2所示,源于将异步时空脉冲信号以事件点进行建模,能更好的挖掘时空特性。此外,大规模的分类识别数据集为深度网络模型提供了数据驱动。如何进一步利用高时间分辨率的时序优势,挖掘时序记忆模型和借鉴类脑视觉信号处理机理,并在神经形态处理芯片上高速识别,是当前神经形态视觉任务上亟需研究的问题。
6.5 目标检测、跟踪与分割
6.5.1 目标检测
近年来,神经形态视觉的目标检测方法从任务角度分为两个方向:基元检测和目标对象检测。
神经形态视觉的目标检测相关研究与应用尚处于萌发阶段,主要是面向基元检测,即研究视觉的基元特征并检测,为姿态估计及视觉里程计等高级视觉任务提供基础特征。目前,部分目标对象检测方法也是将脉冲流转换为图像特征,并没有充分挖掘脉冲流的时空特性,尤其是高时间分辨率的优势。DVS时域连续及空间低分辨率的特性,极少规模性的对象标注数据集,较难以实现对目标对象的高精度检测,部分研究方法探索利用时域信息进行检测与跟踪一体化。因此,如何进一步挖掘脉冲流的时空信息,利用监督学习和数据驱动的端到端的深度网络或生物启发性的类脑视觉方法实现高速运动目标检测是亟需解决的问题。
6.5.2 目标跟踪
目标跟踪算法从跟踪任务角度分为两个方向:基元特征跟踪与目标对象跟踪。
神经形态视觉传感器的高时间分辨率、高动态范围、低冗余及低功耗,尤其适用于高速运动或极端光照条件下的目标跟踪。当前,目标跟踪算法都将脉冲信号转为图像或特征面,未充分挖掘脉冲信号的时空特性,尤其"图像帧"的处理范式很难达到超高速的处理能力,如何借鉴生物视觉信号处理机理及神经形态处理芯片的计算能力,实现"高精度"与"超高速"的目标跟踪是亟需解决的问题。
6.5.3 目标分割
神经形态视觉的目标分割是将脉冲流分成若干个特定且具有特质的区域,并提取感兴趣目标的精确位置的技术。
当前,脉冲流的目标分割大规模数据集相对较少,部分研究工作尝试经验法的聚类方法。脉冲流在时空域呈现为三维稀疏点阵,其本质是时空稀疏信号的子空间聚类问题。DVS在应用到无人机、自动驾驶、机器人等相对运动的ego-motion场景,在感知运动目标的同时也触发背景的脉冲流,同时脉冲信号空间分辨率较低且缺乏纹理结构信息。因此,异步脉冲信号的稀疏子空间聚类是当前神经形态视觉研究的难点,也是神经形态视觉传感器应用于复杂视觉任务的亟需解决的问题。
6.6 三维场景深度估计
当前,利用神经形态视觉传感器的立体视觉应用主要是双目成像与测量系统,少数研究者探讨了单目视觉里程计及单目变焦的方法,从异步时空脉冲信号的处理角度主要分为:频率累计图像、手工设计特征、端到端的深度网络及脉冲神经网络。
近年来,深度学习在立体视觉领域的成功应用,显著提升了深度估计与三维重建的计算速度与性能,如表3所示,但在神经形态视觉的立体视觉应用刚处于萌发阶段。大规模立体视觉的数据集、激光雷达等测距传感器的融合、异步脉冲信号的特征表达,以及利用神经形态处理芯片在立体视觉中高速处理都是亟需解决的难题。
6.7 姿态估计与视觉里程计
视觉里程计(Visual Odometry, VO)是利用单个或多个视觉传感器的输出信号估计智能体的位置与姿态,也称通过视觉信息获取相机姿态的问题。从相机标定的角度可分为相机姿态估计(Pose tracking)和视觉惯性里程计(Visual-Inertial Odometry, VIO)。
当前,神经形态视觉传感器在视觉里程计的大部分工作是基于几何运动约束的求解,涉及特征提取、特征匹配、运动估计等过程,较传统相机其处理速度与性能精度均有显著性的提升,尤其在高速运动场景及高动态场景。然而,模型法存在设计过程繁琐和相机更换平台重新标定等不足,端到端的深度网络在数据驱动下有潜力大幅度提升处理速度与性能精度,但深度学习将高维观测向量映射到高维姿态向量空间是一个极其困难的问题。此外,利用双目或多目的视觉场景深度信息来进一步提高视觉里程计性能也是亟需解决的问题。
6.8 神经形态工程系统应用
神经形态视觉传感器在工程系统应用主要以下几个方面:
消费电子:三星公司利用DVS的快速感知动态变化、低数据冗余及低功耗等优势,应用于手机的触屏唤醒功能。此外,DVS脉冲流增强传统相机视频采集质量,尤其在高速场景及极端光照条件下,从而进一步提高消费电子类相机的高速摄影及动态感知能力。
工业检测:Ni等人利用ATIS的高时间分辨率对工业微型机床的高速运动的抓手进行跟踪与系统反馈。Belbachir等人采用DVS对高速运转平台上的工业部件进行实时识别。作为工业检测的视觉感知系统,神经形态视觉的低功耗的优势在万物互联的物联网时代存在巨大的应用潜力。
移动机器人:Jorg团队将DVS作为移动机器人的视觉感知系统,其在高速移动状况下可实时抓取物体。Bartolozzi团队将DVS用于iCub人形机器人的视觉感知系统,其具有低延时、高速运动及极端光照的感知能力。
自动驾驶:陈守顺教授团队将CeleX用于驾驶员的疲劳检测系统;Scaramuzza团队将DVS用于自动驾驶场景的方向盘转角预测;田永鸿教授团队将DVS和APS结合用于自动驾驶的目标联合检测,其性能在高速运动场景及极端光照条件均有显著性的提升。
无人机导航:Scaramuzza团队将DVS作为无人机的视觉导航系统,相比传统相机在高速运动场景与极端光照有更好的跟踪能力。高速视觉测量:Hsu等人设计一款64 x 64的动态视觉采样芯片,该芯片内集成光流计算模块,能对高速运动目标进行速度测量。
7 研究挑战与可能发展方向
神经形态视觉传感器的研究与应用已取得了阶段性的发展,但达到或超越人类视觉系统在复杂交互环境下的感知能力还存在诸多问题与挑战。此外,本章进一步讨论了主要可能发展的研究方向。
7.1 研究挑战
神经形态视觉传感器具有时域高分辨率的优势,其输出的脉冲信号在时域和空域呈现三维稀疏点阵,视觉信号处理及应用存在的存在以下几个方面的挑战:
(1)大规模的数据集:监督学习视觉任务提供数据驱动及视觉分析的模型评价。目前,神经形态视觉任务的数据集主要是分类与识别任务,其数据场景简单且规模较小,总体上公开的大规模数据集较少,尤其在复杂的视觉任务,如目标检测、跟踪及对象分割等应用,原因在于脉冲流在时空呈现异步点阵,在主观视觉无法直接手工标注与评价, 需借助其他传感器辅助标定。开发大规模的神经形态视觉应用数据集是亟需解决的问题,可利用计算图形学以低成本构建仿真数据集;从现有大规模视觉数据集映射到脉冲信号的数据集;借助其他传感器大规模采集与标注的真实数据集。
(2)异步时空脉冲信号的度量:度量空间里计算脉冲流之间的距离,是异步时空脉冲信号处理的基础关键技术之一,在计算神经科学、脉冲编码压缩、监督学习的视觉任务等众多领域有着广泛应用。异步时空脉冲信号是非结构化数据,不同于可归一化地结构化的"图像帧",缺乏欧式空间的直接度量,且在主观视觉上差异无法直接度量。如何将异步脉冲信号度量面向视觉任务和归一化的评价也是亟需解决的研究难题,可将异步时空脉冲信号在数据分布上建模为时空点过程,并引入点过程信号处理、度量与学习理论。
(3)异步时空脉冲信号的特征表达:挖掘异步时空脉冲信号的时空特性,面向高精度的视觉分析任务。"图像帧"范式的机器视觉方法是当前主流方向,但异步时空脉冲信号不同于"图像帧", 现有的深度学习算法并不能直接迁移应用。此外, 脉冲信号相比传统"图像帧"范式的特征表达上更加的灵活,尤其在脉冲信号处理单元的时域长度或脉冲数目上的选择,也增加了异步时空脉冲信号的视觉分析算法输入的难度。如何对异步时空脉冲信号进行高效的特征表达,是神经形态视觉领域核心的研究问题之一,可利用数据驱动建立面向具体视觉任务的端到端的神经网络;挖掘具有时序记忆机制的脉冲神经网络进行学习与推理。
(4)高速处理能力:挖掘时域高分辨率特性,面向高速视觉任务。异步时空脉冲信号的高速处理能力是神经形态视觉传感器广泛应用的前提,而现有手工设计特征、端到端的深度网络等特征表达方法在任务处理速度上的并无优势。神经形态处理芯片在脉冲信号上有高速且并行处理的能力,如IBM公司的TrueNorth芯片、Intel公司的Loihi芯片和曼切斯特大学的SpiNNaker芯片等,也是当前神经形态工程产业界的关注重点.
(5)神经形态开源学习框架:开发适用于异步脉冲信号处理与学习的开源框架。目前,神经形态领域类似深度学习框架较少,亟需开发适应于非结构化脉冲数据的框架,如脉冲神经网络或兼容深度学习与脉冲网络的混合框架,为神经形态视觉研究者提供开源学习工具与生态环境。
7.2 可能发展的方向
神经形态视觉传感器借鉴生物视觉系统的神经网络结构和视觉信息采样加工处理机理,以器件功能层次模拟、扩展或超越生物视觉感知系统.在传感器的器件材料工艺、视觉采样模型、视觉分析任务、感知系统及其应用推广上存在以下可能发展的方向:
(1)面向新型材料的神经形态视觉传感器:新材料、新器件等应用构建具有神经元、突触及记忆功能的神经形态视觉传感器.
(2)面向多频谱波段的神经形态采样模型:将神经形态视觉传感器的差分型及积分型采样模型应用在可见光以为的频谱波段,如红外、紫外及微波等。
(3)面向多视觉任务协同:同一个模型分析与处理多个视觉分析任务,其共享底层特征,任务之间相互利用,更强的泛化能力。
(4)面向多传感器融合的神经形态工程系统:将视觉、语音及触觉等多神经形态传感器融合,应用于神经形态工程的智能感知系统。
(5)计算神经科学与神经形态工程的耦合:计算神经科学对视网膜的精细解析与采样机理的研究,利用视觉神经反演计算理论研究视网膜编解码模型,提出新型的神经形态视觉采样与重构模型,为器件功能层次逼近生物视觉感知系统提供理论支撑;借鉴生物视觉系统信息处理与分析机制,进一步启发类脑视觉理论模型与计算方法,为计算机视觉与人工智能技术提供借鉴思路与指导方向。同时,神经形态视觉在信号采样、处理与分析应用进展为计算神经科学提供模型验证,甚至为生命医学领域提供视网膜假体等仿生医学器件,从而推动计算神经科学的研究与发展。二者彼此耦合,为构建一套新型的视觉信息感知、处理与分析提供了理论与应用支撑。
8 总结
神经形态视觉是一个包含硬件开发,软件支撑,生物神经模型,三者不可缺一的视觉感知系统,其终极目标之一是模拟生物视觉感知结构与机理,以硅视网膜来以期达到真正的机器视觉.神经形态视觉采样、处理及应用是神经形态工程的重要分支,目前尚处于研究的初期阶段,达到或超越人类视觉系统在复杂交互环境下的感知能力还需要大量的探索研究.距1986年Mahowald所想“The brain is imagination, and that was exciting to me; I wanted to build a chip that could imagine something”,答案也许如其导师Carver Mead教授所说“Listen to the technology, find out what it’s telling you”,我们也相信神经形态工程不久将会是可能的答案.