在很多科幻电影中经常会出现以下炫酷的场景:无需键盘也能打字,无需控制器也可以玩电子游戏,无需方向盘也能驾驶汽车。
无方向盘汽车(图片来源于news.bitauto.com)
由加州大学伯克利分校(University of California at Berkeley)、苏黎世IBM研究院(IBM Research Zurich)、博洛尼亚大学(University of Bologna)等多家研究机构的的工程师们联合开发出了一种新型可穿戴设备或许可以实现这些场景。该项研究以《A wearable biosensing system with in-sensor adaptive machine learning for hand gesture recognition》为题,在线发表在 《Nature Electronics》上。
研究人员设计并开发的这种新型可穿戴设备通过将可穿戴生物传感器与人工智能相结合,利用该设备可以获取佩戴者前臂的电信号,根据电信号模式,识别出他计划做出的手势。研究人员表示,该设备有望用于控制假肢,并且可与各种类型的电子设备进行交互。
对于该项技术,加州大学伯克利分校博士 Ali Moin 表示:"假肢是该项技术的重要应用之一,它同时也提供了一种非常直观的、可与计算机交互的方式。改善人机交互的方式有很多种,比如利用摄像头和计算机视觉技术,而读取手势是一个很好的解决方案,同时,该种方式还可以保护个人隐私。"
引入机器学习模型进行本地信号处理的系统具有许多优势,但同样面临着多种问题,在低功耗嵌入式处理器中,所使用的机器学模型通常需要事先进行离线训练,如果训练达不到预期效果,模型的分类精度就会降低,导致性能欠佳或用户体验不佳等问题。
为了解决当前可穿戴生物传感设备面临的技术壁垒,Moin 等人通过检测人体皮肤表面肌电图(surface electromyography,sEMG),研发了可穿戴的高密度 sEMG 生物传感系统。该可穿戴系统总重量为 26g,佩戴十分方便;系统所使用的电池为 3.7V、240mAh 的锂离子电池,连续手势识别续航时间长达 6 小时。
sEMG 可穿戴生物传感系统。a. 位于前臂上的设备;b. 丝网印刷过程的图解;c. 定制设计的 16*4 电极阵列;d. 小型八层 PCB 电路板;e. 构成可穿戴系统的主要组件的框架图。
为了创建手势识别系统,研究人员设计了一个灵活的臂带。该臂带可以读取佩戴者前臂上 64 个不同点的电信号,并将电信号输入到一个使用 AI 算法编程的电子芯片中。与其他人工智能算法一样,该算法首先要“学习”手臂上检测到的电信号,并与特定的手势相关联。要实现这一点,每个用户都必须戴上臂带,同时逐一做出手势。
(学术头条制作,素材来自 YouTube)
研究人员表示,该生物传感系统穿戴体验还可以,并且可以提供快速的初始训练,自适应性较强,这一特点对于可穿戴的人机界面应用至关重要。然而,目前该系统所检测的生理信号并不稳定。
研究人员在该设备中使用超维计算(HDC)来实现传感器中的自适应学习,通过本地数据实时训练、推理和模型更新,来适应不断变化的情境,对手势分类进行实时推断的实时推断。例如,如果设备佩戴者的手臂上有汗水或手臂举过头顶,与特定手势相关的电信号会发生变化,HD 算法可以将这些新信息纳入其模型。
Moin表示:"在手势识别中,sEMG 信号会随着时间的推移而改变,这可能会影响模型的性能,我们能够通过更新设备上的模型来大大提高分类精度。"
研究中使用的手势类别和 sEMG 记录特征
上图中,图a为单自由度手势子集包括单个手指的弯曲(flex.)和伸展(ext.)以及“休息”手势。多自由度手势子集包括涉及多个手指的等距手势。图b展示的是中指屈伸过程中所有64个通道的原始波形记录。根据对参与者的指示,每个11秒钟的手势试验均分为1.5 s休息,2 s过渡到手势,4 s保持期,2 s过渡到休息和1.5 s休息。波形的颜色表示sEMG的局部幅度。图e是在所有单自由度手势的执行过程中,三种比较系统在所有通道的总信噪比分布。阴影区域是信噪比值的概率密度直方图。直线是符合分布的高斯核。向下的三角形代表中值。
编码的时空超向量(spatiotemporal hypervectors)既可以用作创建或更新模型的训练示例,也可以用作使用训练后的模型进行推理的查询。研究人员将这些原型超向量存储在关联存储器(AM)中,这是一次完全前馈操作,只需传递一次训练数据即可(下图a)。 这与其他受神经启发的方法形成对比,在其他方法中,训练通常采用复杂的迭代框架,并且比分类对计算的要求更高。
用于训练、访问和上下文更新的AM操作
研究人员比较了该项技术在基准环境中实时进行传感器内分类性能。如下图所示。
在基准环境中实时进行传感器内分类性能
上图a展示了在基线上下文测试的4 s保持期内,用于实时实验的分类混淆矩阵。白色文本值是正确预测的百分比,红色文本值是错误预测的百分比。灰度彩色背景代表预测类别的比例。图b为四种手势试验的实时预测输出示例。对于每个手势测试,最上方的图表显示所有通道在50毫秒段内计算出的特征。底部图显示了相对于试用时间的20 Hz分类结果。紫色竖线表示在第一个过渡时期中离线计算的手势开始,在第二个过渡时期中表示手势偏移。预测的垂直位置表示手势类别,并且基于相对于脱机估计的地面真相标签的准确性,对预测进行颜色编码。
图c展示了在所有基线上下文测试中,手势开始对齐(左)和偏移对齐(右)的预测统计数据。前13行中的每一行均显示给定手势的平均20 Hz分类结果,其中深色块表示较高的比例。绿色方框表示正确的预测;红色块表示错误的预测。底部图显示了相对于开始时间和偏移时间,正确(绿色)和错误(红色)分类随时间的百分比。
传感器内训练,更新和分类结果
上图为传感器内训练,更新和分类结果。每个实验有两名参与者进行三次。条形表示所有六个试验的平均准确度,每个试验的数据点重叠。a.用新的手势更新HD分类模型的能力。最初的模型只在单自由度手势上进行训练和测试(黄条)。模型随后更新为多自由度手势,以覆盖所有21个手势(绿色条)。还显示了仅通过多自由度手势进行训练和测试的单独模型的结果(蓝色条)。b,使用单自由度手势更新HD分类模型的能力。对于三种不同的上下文变化(手臂位置、新磨损和长时间磨损),在初始上下文(步骤1)上训练初始模型,并在初始上下文(步骤2)和新上下文(步骤3)上测试(实心条)。然后,模型在新的环境(第4步)中使用每个手势的单一试验来更新(第5步和第6步),并在两种环境(条纹条)中再次测试(第5步和第6步)。更新的模型只在新的磨损阶段和长时间磨损实验的新上下文中测试,因为旧的上下文不再可用。
通过模型训练,该系统成功识别了 21 个单独的手势,包括竖起大拇指、握拳、平手、举起单个手指和数数字。
该设备的另一个优点是,所有的数据运算都在设备中集成的芯片上进行,无需将个人数据传送到附近的电脑或设备上,这不仅加快了计算速度,还确保了个人生物数据的私密性。
论文通讯作者之一、加州大学伯克利分校Jan Rabaey教授 表示:"当亚马逊或苹果公司创建他们的算法时,他们会在云端运行一堆软件来创建模型,然后将模型下载到设备上。但是,在设备的使用过程中,往往会被所输入的特定模型所困。而我们设计的算法在设备就能完成学习的过程,而且它的速度极快,你只需要执行一次,它就会开始做这项工作。你做的次数越多,设备的性能就会变得越好。"
参考资料:
https://www.nature.com/articles/s41928-020-00510-8
https://techxplore.com/news/2020-12-high-five-thumbs-up-device-gesture.html