#端到端任务

说起端到端,每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点!特斯拉率先吹响了方案更新的号角,无论是完全端到端,还是专注于planner的模型,各家公司基本都投入较大人力去研发,小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案,效果着实不错,非常有研究价值。

为什么需要端到端?

首先我们聊一下当前的主流自动驾驶方案,主要核心部分包括:感知模块、预测模块、规控模块。每个模块相对独立,感知模块给预测模块提供动静态障碍物信息;预测模块为规控模块提供规划的参考,规划再转换为控制指令。从传感器端到控制端,需要多个功能支持,这就不可避免导致了累积误差,一旦碰到问题,需要整个pipeline做分析。而且每个模块的优化,并不能保证整个系统达成最优解。

51c自动驾驶~合集10_自动驾驶

这个时候,就希望有一种模型能够完成感知信息的无损传递,即从传感器端到输出控制策略端,这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单(比如机动车、行人、甚至occ输出的非通用几何障碍物)的检测与预测来完成,是人为定义的规则和抽象。随着产品的迭代,每一次都需要添加各类case,设计各种博弈的策略,从模型训练到工程部署再到逻辑设计,时间和人力成本高昂。

51c自动驾驶~合集10_自动驾驶_02

而且这种方式无法罗列所有情况,那么是否可以通过对整个场景的学习抽象,无损的将所有信息传递给PnC部分?这就是我们期望的端到端。端到端核心是优化最终目标且全局可导,作为一个完整的优化任务来看,直接求最优解,而不是先求感知再求规控的最优解。

端到端效果怎么样?

今年各大自动驾驶公司都在预研和落地相关端到端方案,小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显,各大自动驾驶公司都在拼命布局揽人,对应岗位薪资水涨船高,某想甚至开出了七位数给到该岗位。

那么各家的端到端自动驾驶效果怎么样呢?先来看看国外的特斯拉:

再来看看国内的UniAD效果:

不得不说,端到端是一个更简约的方法,更具有全场景的优化能力。

端到端有哪些技术栈?

行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案(包括某鹏的XPlanner)。顾名思义,完全端到端是从传感器直接到规控;而专注于planner的端到端以感知模块的输出作为先验,替换原来以规则作为主要形式的PnC模块。

51c自动驾驶~合集10_自动驾驶_03

从传感器到控制策略的(如果把条件再放松下也可以到轨迹输出)完全端到端方案更为简约,但同样面临一个问题,可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性,但训练仍然是个难题。在足够体量和质量的数据群下,效果能够得到保证,泛化性能也不错。

51c自动驾驶~合集10_自动驾驶_04

而专注于planner的端到端方案,如果深究的话,只能算狭义上的端到端,但更贴合当下的量产方案和任务,而且可解释性也较高,是目前主机厂和自动驾驶公司优先推行和落地的。

如果从信息输入的角度上来看,又可以分为纯视觉方案(UAD、UniAD这类)和多模态方案(FusionAD这类),传感器成本不断在下降,多模态方案也一直是行业里面都在关注的点,天皓智联,开发板商城。



#国内智驾感知技术的7位“掌舵人

今年「端到端」席卷自动驾驶行业以来,各个智驾主流团队的人员配置均发生了巨大的改变,其中规控和感知团队的技术骨干动荡尤为剧烈。

感知在自动驾驶中一直是很重要的一环,它是自动驾驶汽车能否成功实现自主导航和操作的关键,决定了自动驾驶汽车“看得清多少路”,以及是否能适应复杂多变的交通环境。「端到端」概念的”崛起“,自动驾驶感知技术也从传统的“模块化”架构向“统一化“架构转型,而转型期间自然会遇到重重障碍,这时团队的掌舵人必须看清目标,带领团队在风潮中安全前行。

今天特地梳理了国内自动驾驶行业感知领域的7位大佬,他们深受自动驾驶行业工程师们敬佩与膜拜,为中国自动驾驶感知的发展进步做出了重要贡献。

(如在阅读过程中您发现了疏漏,欢迎向我们指正建议)

刘兰个川2008年本科毕业于北京大学物理学院物理专业。2014年毕业于美国密歇根大学安娜堡分校(University of Michigan, Ann Arbor),获得物理学博士学位。

博士毕业后,刘兰个川在硅谷和圣地亚哥的多家科技公司任职,利用人工智能进行工业探伤和医学图像处理:2015年2月~2017年4月,他在PerkinElmer担任高级探测器物理学家;2017年5月~10月,刘兰个川在ZEISS Group担任软件开发工程师,负责机器学习解决方案的工作。这一阶段的工作经历使他对人工智能领域有了初步的了解和实践。

2017年10月,刘兰个川加入由高通员工创立的AI初创公司12 sigma(图玛深维),逐渐成为一名深度学习专家。在12 sigma工作的一年半以来,他提升了自己的深度学习和技术管理经验,为后续的职业生涯打下了坚实的基础。

2019年3月,刘兰个川离开12 sigma加入小鹏汽车。最初任职自动驾驶算法总监,负责小鹏汽车智能辅助系统感知功能的研发,并协助搭建小鹏在美国圣地亚哥感知团队;后来全面负责小鹏汽车自动驾驶Xpilot系统感知功能的研发,成为小鹏汽车自动驾驶团队的核心成员。刘兰个川担任小鹏自动驾驶AI团队负责人期间,带领团队从零到一搭建了自动驾驶的BEV感知大模型XNet,并参与了中国最大的自动驾驶智算中心“扶摇”的搭建和维护。曾任小鹏自动驾驶平台北京负责人、XPILOT总监。2023年7月末,刘兰个川离开了小鹏汽车。

离开小鹏后,刘兰个川随即加入Anker,并出任VP,负责具身智能方面(机器人+大模型)的研发工作。2024年1月,刘兰个川离开Anker,两个月后加入了Nvidia,担任感知技术板块的总负责人。

彭超2014年本科毕业于武汉大学空间信息与数字技术专业,2017年硕士毕业于清华大学软件工程大数据专业。

2016年4月~2018年11月,彭超在Megvii (Face++)度过了两年半之久的实习和第一份正式工作的生涯。在Megvii实习和工作期间,他主要负责通用物体分割、通用物体检测和图像分类等三个领域的研究和应用落地工作,取得了世界顶尖的成绩。

2018年12月,彭超加入Momenta,担任高级视觉算法工程师,负责无人驾驶感知算法基础研发工作,在此期间积累了丰富的自动驾驶技术经验。

离开Momenta后彭超加入了蔚来汽车,2024年6月,随着蔚来智能驾驶研发部的调整,彭超被任命为合并后的大模型团队的负责人。他负责带领团队在深度神经网络和智能驾驶技术方面进行研究与应用,推动蔚来智能驾驶技术的发展。

同时,彭超还是CVPR、ICCV、ECCV和AAAI等顶会的审稿人,他在多家顶会顶刊都发表过优秀paper,诸如《Objects365: A Large-Scale,High-QualityDatasetfor ObjectDetection》、《An End-to-End Network for Panoptic Segmentation》等。

陈晓智2012年本科毕业于清华大学电子工程系,2017年获清华大学电子工程博士学位。

正式工作前,陈晓智曾在微软和百度有过两段实习经历,分别于2012年9月~2013年年5月在微软任职软件开发实习生,2016年7月~2017年5月在百度自动驾驶感知团队任实习生。

2017年7月,陈晓智加入大疆,时任高级机器学习工程师。2020年1月,他被任命为机器学习研发经理,并在2023年大疆车载“单飞”为卓驭科技后担任卓驭科技感知团队的总负责人。

陈晓智亲自带队的感知部门,致力于智能驾驶系统的感知技术预研和产品落地工作。该部门在算法岗位方向有着丰富的需求,包括但不限于单目/双目深度估计、光流估计、SLAM、三维重建、Nerf、模型轻量化设计、分布式训练、物体检测、语义分割、多传感器融合、图像增强、ISP以及传感器标定等方向。

张雨2016年获卡内基梅隆大学计算机视觉的硕士学位,发表过多篇高影响力论文。

硕士毕业1年后,张雨加入Waymo Research担任软件研发工程师,2019年5月,张雨离开了Waymo。离开Waymo后,他随即加入轻舟智航,目前担任轻舟智航感知总监,已在轻舟经历了5年多的任期,是计算机视觉、机器人学、机器学习等领域的专家,负责轻舟智航感知模块算法研发工作。

李阳光2009年本科毕业于吉林大学计算机科学与技术专业,2012年获中科院计算技术研究所硕士学位。

硕士毕业后李阳光随即加入极客网,担任软件工程师,2013年10月他离开了极客网。离开极客网后不久,李阳光火速入职百度,担任高级软件工程师,在百度任职3年7个月。

2017年4月离开百度后,李阳光加入小马智行,担任感知领域技术负责人,负责自动驾驶感知技术的研发及感知系统工程架构等工作。同时,他也是小马智行车路协同项目的负责人,负责推动车路协同技术的发展和应用场景的实践探索。

李阳光领导小马智行感知团队在感知系统方面取得了显著成果,通过多样化传感器的配置和多传感器深度融合的方案,实现了对自动驾驶车周围环境的精确感知。在车路协同领域,他推动了多项示范场景的建设和应用,如广州南沙的自动驾驶示范场景、亦庄交通队执法赋能等,为车路协同技术的发展和应用提供了有力支持。

杨奎元2007年本科毕业于中国科学技术大学自动化专业,2012年获中国科学技术大学自动化博士学位。

博士毕业的同年,杨奎元加入微软担任研究员,在这里度过了5年的职业生涯。2017年7月,杨奎元从微软离职,成为了DeepMotion(深动科技)的首席科学家兼联合创始人之一。在深动科技,杨奎元度过了4年2个月的职业生涯。

2021年8月,小米收购深动科技,杨奎元也随之加入小米汽车,成为智能驾驶部门感知方向的专家工程师。

杨奎元曾在深动科技带领团队研发了多传感器融合感知模组、高精地图自动化构图、高精度定位等技术方案,在自动驾驶著名榜单KITTI、Cityscapes上多次取得优异成绩。他还发表了多篇顶级国际会议/期刊论文,诸如《DenseASPP for semantic segmentation in street scenes》、《Hard-aware deeply cascaded embedding〉等,他还获得了多项国际专利。由他孵化的多项基础技术已服务于高精地图自动化生产、4D时空数据自动化标注等领域。

董远强2010年毕业于美国密苏里大学哥伦比亚分校,获电子和计算机工程专业博士学位。

2011年9月,董远强加入UtopiaCompression,担任计算机视觉科学家,后于2015年11月离开UtopiaCompression。同年12月,董远强加入Nvidia,担任高级视觉算法工程师,在Nvidia度过了3年4个月的职业生涯。

2019年4月,董远强离开Nvidia加入腾讯驻美国团队,担任首席科学家并负责智能驾驶感知方面的工作把控。

2021年4月,董远强结束了在腾讯的工作生涯,1个月后正式加入小鹏汽车,担任智驾部门感知方向的首席工程师,彼时向当时的智驾感知总负责人王弢汇报工作。随着王弢的离职和淡出一线,董远强接管了小鹏汽车的智驾感知工作,成为该领域的负责人。2022年8月,董远强领导技术开发部的100+成员团队,团队人才涵盖感知、传感器融合、预测等领域。2023年11月,董远强正式成为小鹏汽车智驾感知的总负责人,并担任技术研发的掌舵者,推动中美研发部门的智驾项目交付。

董远强曾发表过多篇优秀paper,如《A Video-based Adaptive Intelligent Hemispherical Threat Detection System》,《An Intelligent Visual Sensing System for Unmanned Surface Vehicle》等。



#CLIP(Contrastive Language-Image Pre-training)

CLIP怎么“魔改”?盘点CLIP系列模型泛化能力提升方面的研究

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景,并梳理了近期发布的一些公众:在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。


为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。
  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。
  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。
  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。
  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。
  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。
  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。
  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。
  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。
  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。
  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配
  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。
  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。
  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。
  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。
  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。
  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。



#交互感知再升级

感知预测规划在Waymo24挑战赛中有哪些亮点?

赛事链接:https://cvpr2024.wad.vision/

CVPR 2024 Workshop on Autonomous Driving (WAD) 作为自动驾驶领域的重要盛会,随着自动驾驶技术飞速发展不断与时俱进,全面覆盖自动驾驶的各个领域,包括感知、行为预测以及运动规划等。其中的Waymo Open Dataset Challenges 的参赛者需利用Waymo提供的大规模开放数据集,开发并优化其自动驾驶算法,以应对复杂多变的交通场景。

2024CVPR Waymo挑战赛有以下赛道:

(1)运动预测:给定相应地图上过去1秒的历史agent以及此时间间隔的相关激光雷达和相机数据,预测未来8秒内最多8个代理的位置。可以选择使用激光雷达和摄像头数据。

(2)模拟agent:给定代理在相应地图上过去1秒的轨迹,以及可选的此时间间隔的相关激光雷达,为场景中的所有agent模拟32个逼真的联合预测。

(3)3D语义分割:给定一个或多个激光雷达距离图像和相关的相机图像,为每个激光雷达点生成语义类标签。

(4)占用和流量预测:根据最后一秒观察到的agent轨迹,预测所有观察到的和被遮挡的车辆的BEV占用和运动流量。

参赛作品往往致力于融合多个模型框架,从而使模型能够处理多模态输入数据(激光雷达和摄像头数据)。这些作品多在损失函数策略方面创新或使用多种损失函数来优化模型,通过更新锚点、恢复历史轨迹、采用多帧训练、改进场景编码等方法,提高模型与场景的交互性,从而提高模型对多个agent对象预测的稳健性,提升模型在复杂场景中的表现。除了改进模型架构设计以外,参赛者还会后续不断评估模型的性能,并根据评估结果对模型进行持续优化,这包括调整模型结构、优化超参数、改进数据预处理和数据增强方式等。

运动预测挑战 MOTION PREDICTION CHALLENGE

1st:MTR v3模型

MTR v3: 1st Place Solution for 2024 Waymo Open Dataset Challenge - Motion Prediction

Chen Shi, Shaoshuai Shi, Li Jiang, The Chinese University of Hong Kong (Shenzhen) , DiDi Global

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%201st%20Place%20-%20MTR%20v3.pdf

本文提出的解决方案名为MTR v3,是基于先进的MTR++框架进行扩展。通过引入原始LiDAR数据和动态更新的锚点来改进模型,同时采用简单的模型集成技术进一步提升性能。模型包括场景编码器网络和运动解码器网络,其中场景编码器网络的输入为历史轨迹、道路地图和原始LiDAR点云,之后通过LiDAR编码器分割网络提取体素特征,生成语义标签,并在BEV空间中进行编码,再使用Transformer编码器通过查询中心化的局部自注意力层来聚合特征。运动解码器网络首先从K个意图点(锚点)生成每个焦点代理的意图查询(Intention Querying),再输入解码器层,通过交叉注意力模块更新意图查询,以聚合来自代理特征、地图特征和LiDAR特征的信息。最后通过预测头(Prediction Head),使用多层感知机预测多模态未来轨迹,表示为高斯混合模型(GMM)。

实验过程中,文章进行了动态锚点与模型集成。动态锚点即采用动态更新和不同的锚点,根据预测的轨迹终点动态选择正意图查询,以适应特定场景,提高回归能力。并且,文章训练多个模型变体,在推理时采用模型集成策略,通过非最大抑制(NMS)选择前6个预测轨迹。实验结果显示,该在Waymo开放数据集运动预测挑战赛中排名第一,soft mAP为0.4967,优于其他方法。

关键技术与贡献:

LiDAR数据融合:通过引入原始LiDAR数据,提供细粒度的语义信息,改善了对行人运动的预测。

动态锚点更新:采用动态更新和不同的锚点,解决了传统方法中锚点稀疏导致的高回归误差问题。

模型集成策略:通过模型集成技术,进一步提升了最终的性能表现。

2nd:ModeSeq模型

Zikang Zhou, Jianping Wang, Yung-Hui Li, Yu-Kai Huang - City University of Hong Kong, Hon Hai Research Institute, Carnegie Mellon University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%202nd%20Place%20-%20ModeSeq.pdf

ModeSeq框架是一种基于顺序模式建模的多模态运动预测框架,利用RNN风格的Transformer模块顺序解码轨迹模式,解决了多模态真实轨迹缺失的问题,提高预测轨迹的多样性。ModeSeq框架的编码器采用QCNet中的因子化Transformer,获取具有旋转平移不变性的场景嵌入(scene embeddings)。ModeSeq的层由记忆Transformer模块和因子化Transformer模块组成,顺序解码多个轨迹模式。其中记忆Transformer通过注意力机制让当前查询特征关注之前解码的模式,建模模式间的顺序依赖;因子化Transformer利用时间Transformer、代理-地图Transformer和代理-代理Transformer进一步丰富查询特征。最后预测头使用多层感知机解码轨迹和置信度分数。ModeSeq通过堆叠多个ModeSeq层并进行迭代细化,提升预测性能,并在每个新层开始前,根据置信度分数对模式嵌入进行排序,确保解码顺序的合理性。

在训练策略优化上,文章提出Early-Match-Take-All(EMTA)训练策略,采用EMTA损失,优化最早匹配的轨迹,鼓励模型尽早解码匹配轨迹。回归损失基于Laplace负对数似然,优化最早匹配的轨迹。分类损失使用二元焦点损失(Binary Focal Loss)优化置信度分数,通过单调递减的标签分配鼓励模型先输出更自信的模式。实验结果显示,在验证集上,ModeSeq在mAP、Soft mAP和Miss Rate上优于QCNet,但在minADE和minFDE上略逊一筹。该方法在不牺牲过多minADE和minFDE的情况下,显著提高了mAP、Soft mAP和Miss Rate,为多模态问题提供了新的见解和解决方案。

3rd:RMP_Ensemble

Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Yuhang Han, Keng Peng Tee, Anthony Wong, Marcelo H. Ang Jr. - National University of Singapore, Moovita Pte Ltd

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%203rd%20Place%20-%20RMP_Ensemble.pdf

准确预测周围交通参与者的未来轨迹对自动驾驶车辆至关重要。当前预测方法依赖完整的历史轨迹数据,但在实际场景中,由于遮挡、传感器故障和恶劣天气条件,历史轨迹可能不完整。因此本文希望提出一个简单的恢复模块,旨在恢复不完整的历史轨迹,以增强预测鲁棒性。本文基于MTR框架进行修改,引入恢复模块,提出了RMP集成方法。除了使用当前交通灯信息外,还纳入了历史相对运动信息作为输入上下文。使用多尺度LSTM和PointNet-like网络处理时空信息,并通过多上下文门控(MCG)进行特征融合。恢复模块是通过局部注意力机制和MLP层恢复不完整的历史轨迹,并将恢复的信息集成到代理标记中。编码器对特征通过多尺度LSTM和MCG模块进行聚合和融合,利用局部注意力机制进行进一步特征提取。解码器与MTR解码器相同,但在损失计算之间应用了演化和不同的锚点技巧。总损失函数由MTR原始损失和恢复损失组成,旨在同时优化预测精度和恢复模块性能。其中恢复损失是通过L1损失计算恢复的历史轨迹与真实历史轨迹之间的差异。实验结果显示,使用Waymo Open Motion Dataset进行训练和评估,RMP集成方法在Soft mAP上排名第三,重叠率排名第一,ADE和FDE也表现出色。在车辆、行人和自行车类别上分别进行了详细评估,展示了RMP方法在不同场景下的表现。文章还通过随机掩盖历史时间戳来评估方法的鲁棒性,结果显示RMP方法在处理缺失历史数据方面显著优于MTR。

模拟agent挑战 SIM AGENTS CHALLENGE

1st:BehaviorGPT

Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue - City University of Hong Kong, University of Victoria, Hon Hai Research Institute, Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%201st%20Place%20-%20BehaviorGPT.pdf

BehaviorGPT在自动驾驶领域展现了卓越性能,在Waymo开放模拟代理挑战中,其0.7473的现实性得分和1.4147的minADE得分令人瞩目,且仅使用3M模型参数。该技术强调自动驾驶系统安全性评估的重要性,通过模拟实现低成本、大规模的离线测试。BehaviorGPT利用仅解码器自回归模型提高数据和参数效率,模拟逼真的agent,对验证自动驾驶系统至关重要。

BehaviorGPT采用NP3方法解决因果混淆问题,通过轨迹补丁级别的推理(reason at the patch level)促进长范围交互建模(long-range interactions modeling),提高预测准确性。该模型还通过混合模型捕捉智能体行为的多样性,利用链式法则分解状态分布,进一步提升了多智能体系统行为预测的能力。此外,BehaviorGPT引入相对时空表示法(relative spatial-temporal positional embeddings),通过QCNet模型在空间和时间上对称地建模补丁,处理多代理交互和动态环境。同时,通过维护输入元素间的相对位置嵌入,有效保持空间-时间关系,提高代理的反应性和预测准确性。

总之,BehaviorGPT通过创新的架构和算法,为自动驾驶领域的研究与发展提供了新的思路和工具。其高性能的模拟和准确的预测能力,将有助于推动自动驾驶系统的进一步完善和应用。

2nd:VBD

Zhiyu Huang, Zixu Zhang, Jaime Fernández Fisac, Chen Lv - Nanyang Technological University, Princeton University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%202nd%20Place%20-%20VBD.pdf

本文介绍了一种名为Versatile Behavior Diffusion Model(VBD)的交通模拟框架,该框架旨在模拟智能体在复杂交通环境中的逼真且可控行为。VBD模型通过结合场景编码器(query-centric Transformer encoder)、去噪器(Transformer denoiser)和行为预测器(Transformer-based multi-modal marginal trajectory predictor),能够有效模拟多代理的联合行为(scene-level joint behaviors of agents),并在高度交互的交通场景下降低碰撞风险。该模型利用地图和代理的历史状态作为条件输入,通过去噪和可控采样技术生成高质量的交通场景。此外,VBD模型还采用了一种基于动态函数的代理行为分析方法,将代理行为转化为物理状态,为行为预测提供了有力工具。通过编码多源输入,包括代理历史、地图信息和交通灯状态,VBD模型能够在复杂环境中实现准确的决策和预测。此外,该模型还采用了一种改进的场景编码方法,通过共享GRU网络和基于查询的Transformer层,实现场景元素间相互关系的高效编码。在Waymo 2024 Sim Agents基准测试中,VBD模型表现出竞争性的性能,为智能交通系统的研究提供了有力支持。

3rd:TrafficBotsV1.5

Zhejun Zhang, Christos Sakaridis, Luc Van Gool - ETH Zurich

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%203rd%20Place%20-%20TrafficBotsV1.5.pdf

TrafficBots V1.5是基于条件变分自编码器(CVAE, conditional variational autoencoder)和异构折线变换器(HPTR, Heterogeneous Polyline Transformer with Relative pose encoding)的先进交通代理闭环模拟基线方法。它通过为每个交通代理学习特定策略,根据历史数据预测其行动,并在Waymo OpenSim Agents Challenge 2024中取得显著成绩。V1.5引入共享决策策略,设定导航目的地和人格特性,并采用相对姿态编码和K-最近邻注意力模块(KNARPE, K-nearest Neighbor Attention with Relative Pose Encoding)优化Transformer性能。该方法摒弃了RNN,采用堆叠历史观测作为输入,结合PointNet处理时间数据,保留了HPTR的优势,同时提高了效率和准确性。通过计划性教师强制和采样场景过滤,TrafficBots V1.5在目标预测器上实现显著改进,尽管在交通灯状态预测方面存在局限,但整体性能通过多项优化措施得到提升。该方法为多代理交通模拟提供了新的可能性,并公开代码供研究者使用,为交通模拟领域的研究提供了有力基线方案。

三维语义分割挑战 3D SEMANTIC SEGMENTATION CHALLENGE

1st:PTv3-EX

Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao - The Univeristy of Hong Kong, Shanghai AI Laboratory, National University of Singapore, Nanyang Technological University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%201st%20Place%20-%20PTv3-EX.pdf

在2024年Waymo开放数据集挑战赛中,Point Transformer V3 Extreme凭借其前沿的多帧训练(multi-frame training)和无裁剪点策略(no-clipping-point policy),在语义分割赛道中荣登榜首。该模型不仅通过即插即用训练和推理技术显著提升了性能,还通过详细的训练设置和策略优化,充分利用了Waymo高分辨率LiDAR扫描和全面标注数据的优势。Point Transformer V3 Extreme的成功展示了其在自动驾驶领域内的技术实力和创新能力,为3D感知技术的发展提供了新的方向。该模型通过优化backbone设计、引入数据增强技术和无裁剪点策略,提高了处理复杂现实世界环境数据的能力,为语义分割领域的研究和应用提供了有价值的参考。此外,本文还探讨了点云数据的序列化方法和多帧训练策略,强调了它们在提升点云处理性能中的关键作用。

2nd:MixSeg3D

Qing Wu - Marvell Technology

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%202nd%20Place%20-%20MixSeg3D.pdf

2024年Waymo开放数据集挑战赛中,MixSeg3D以其独特的3D语义分割解决方案荣获第二名。该方法融合了MinkUNet稀疏卷积网络和LaserMix、PolarMix两种3D数据增强策略,有效提升了模型在复杂LiDAR点云数据中的感知能力。MixSeg3D不仅克服了训练数据多样性不足的问题,还显著提高了模型的泛化性和鲁棒性,为自动驾驶技术的环境理解和导航提供了强有力的支持。MinkUNet以其高效的稀疏卷积操作和稳健的特征提取能力,在处理大规模LiDAR点云数据时表现出色。而LaserMix和PolarMix的引入,进一步增强了模型对未知数据的适应能力。MixSeg3D的成功不仅为自动驾驶领域带来了新的技术突破,也为未来的3D语义分割研究提供了新的思路和方法。

3rd:vFusedSeg3D

Osama Amjad, Ammad Nadeem - VisionRD

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%203rd%20Place%20-%20vFusedSeg3d.pdf

VFusedSeg3D是由VisionRD团队开发的多模态融合系统,其利用相机和LiDAR数据的互补性,通过精心设计的网络架构在3D感知和分割精度上取得了显著进步。该系统结合了相机的丰富语义信息和LiDAR的精确深度感知,通过两个并行特征提取流和创新的融合技术,实现了对环境的全面理解。在验证集上,VFusedSeg3D达到了72.46%的mIoU,树立了新的性能基准。

系统采用了DLA34作为图像侧的主干网络,并引入了改进的语义特征聚合模块(SFAM)和语义特征融合模块(SFFM)来有效结合LiDAR和相机的特征。由于计算资源限制,系统采用了分阶段训练策略,成功解决了高网格分辨率导致的内存溢出问题。此外,通过全局变换和多种图像增强技术,增强了模型的泛化能力。总的来说,VFusedSeg3D以其高效的网络结构和多模态融合技术,为需要精确环境感知的应用提供了理想解决方案,展现了在3D感知领域的重要突破。

占用率和流量预测 OCCUPANCY FLOW CHALLENGE

1st:DOPP

Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, Hongyang Gao, Chen Lv - Nanyang Technological University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%201st%20Place%20-%20DOPP.pdf

本文提出并详细阐述了一种创新的DOPP系统及其MS-OccFormer模块,该模块通过多阶段对齐实现了高精度的占用流场预测,并结合了智能体边际运动预测的一致性意识。DOPP系统通过可微分的集成方式,有效提升了未来交通状态预测的精度,特别是在处理复杂交通场景时展现出强大的能力。MS-OccFormer模块则通过全局和局部交互,将占用预测和向后流预测与边缘预测特征相结合,进一步提升了预测精度。此外,该系统还采用了一种集成学习范式,持续更新预测目标,确保预测结果的连贯性和准确性。这些创新技术不仅为自动驾驶系统的安全运行提供了更为坚实的预测支持,同时也为处理多智能体预测中的一致性问题提供了新的解决方案。未来工作将围绕进一步优化预测性能,解决运动预测与占用预测不可解耦的挑战展开。

2nd:STNet

Gaeun Kim, Daeil Han, YeongJun Koh, Hanul Kim - Seoul National University of Science and Technology, Chungnam National University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%202nd%20Place%20-%20STNet.pdf

本文提出了一种创新的自动驾驶占用率和流量预测方法,该方法通过整合agent和静态特征,利用一维时间卷积和时空编码器构建多尺度特征图。该模型基于CAFormer-S18架构改造而来,通过空间和时间信息的融合以及多尺度聚合,有效处理包含时间维度的数据。解码器部分采用自回归设计,结合双线性插值和串联操作,以自回归方式预测未来帧。预测头部分利用卷积层和激活函数生成占用和流图,并通过多损失函数组合优化预测性能。该方法在Waymo开放数据集挑战中取得优异成果,充分展示了其在自动驾驶领域中的有效性。通过多尺度的特征提取和自回归的解码设计,该模型为自动驾驶的准确预测提供了强大的技术支持,对处理占用地图和流动场预测问题具有重要意义。

3rd:HGNET

Zhan Chen, Chen Tang, Lu Xiong - Tongji University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%203rd%20Place%20-%20HGNET.pdf

本文提出了一种创新的层次特征引导网络(HGNET, hierarchical feature guided network),用于复杂交通场景中多智能体行为的预测。HGNET基于Transformer架构,通过高效的特征提取和多模态交互建模,有效整合了视觉、历史轨迹和地图信息,显著提升了预测准确性。其中,特征引导注意力模块(FGAT)利用潜在引导效果,强化了特征间的相关性,而TimeSeries Memory框架则增强了预测的时间一致性和因果关系。HGNET在Waymo Open Motion Dataset 1上表现出色,尤其在占用流场轨迹预测方面。此外,该系统还通过LSTM和跨注意力Transformer编码器,全面捕获了交通代理与地图间的交互关系,进一步提升了预测性能。通过结合文本和视觉特征,以及引入层次特征引导解码器,HGNET为自动驾驶领域提供了有力的技术支持,尤其在处理被遮挡障碍物和提高预测连续性方面展现出巨大潜力。



#BEVGPT

BEVGPT展示自动驾驶『全知视角』,预测决策规划三合一!

预测、决策和运动规划对于自动驾驶至关重要。在大多数传统算法架构中,它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而,我们认为理想的算法是将它们整合到一个综合框架中,且这种整合过程不应受到复杂的输入表示(即输入解耦)和冗余框架设计的困扰。为了解决上述问题,我们重新思考了自动驾驶任务中各个模块的必要性,并将所需的模块纳入到极简的自动驾驶框架中。我们提出了BEVGPT,一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像(BEV)作为唯一输入源,并根据周围的交通场景做出驾驶决策。最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。

51c自动驾驶~合集10_自动驾驶_05

▲图1|BEVGPT整体框架

如图所示,BEVGPT采用两阶段训练过程。首先,我们使用大量自动驾驶数据来训练生成式大模型。随后,使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说,预训练阶段的目标是学习驾驶场景预测和决策,即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹,并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段,通过在线学习的方式实现模型微调,从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段,运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。

■2.1 框架设计

我们从人类驾驶员的角度重新评估每个模块的必要性,以设计自动驾驶系统框架。首先,人类驾驶员对环境地图有先验的知识,比如在使用导航软件时,每条道路的结构和路口位置都比较明显。其次,人类驾驶员并不会显示地追踪周围的其他车辆,并预测它们的未来轨迹。相反,他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后,他们会做出相应地驾驶决策。基于上述思考,我们设计了一个极简的自动驾驶框架,即包括决策,运动规划和驾驶场景预测,而把目标跟踪以及他车运动预测模块去掉了。在该框架中,决策输出的是自车未来T=4秒内的位置,在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取,我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得,如下图所示。

51c自动驾驶~合集10_自动驾驶_06

▲图2|驾驶场景预测

■2.2 轨迹表示

我们采用分段多项式轨迹来表示我们的微分平坦输出,即和。为了在后续的motion planning模块中minimum Jerk,我们选择五次多项式表示。假设轨迹总共由段组成。在这种情况下,便可以表示为下面的多项式:

这里的表示轨迹的段数,每段具有相同的时间间隔。

■2.3 运动规划

在我们的轨迹规划问题中,自车的初始状态和末状态已知。同时,决策模块的输出应当被包含在未来的轨迹中。另外,分段多项式轨迹的连续性也需要得到保证。因此,我们的运动规划问题被表达为了如下的minimum Jerk问题:

在这里,我们将自车的初始状态和最终状态考虑在内,同时确保了两个相邻轨迹段之间的连续性和光滑性,并且考虑了最大速度和最大加速度的限制,以确保动力学的可行性。

■3.1 数据集

我们采用了Lyft Level 5 Dataset,这是一个由Houston等人于2021年提出的自动驾驶数据集,包含了超过1000个小时的驾驶数据,采集跨度4个月,采集车辆是由20辆车组成的车队。关于数据处理,我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒(即240帧,时间间隔秒)的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。

■3.2 模型架构

GPT体系结构在自然语言处理(NLP)领域取得了很大的进展,它通过添加因果自关注掩码来修改变压器体系结构,从而自动回归生成预测tokens。由于其强大的理解和泛化能力,我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。

51c自动驾驶~合集10_自动驾驶_07

▲表1|BEVGPT超参数

■3.3 预训练

在预训练阶段,BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力,这里使用均方误差(MSE)作为Loss。

这里我们采用三角函数来平衡预测和决策的loss。

■3.4 在线微调

我们使用的是Woven Planet L5Kit进行自动驾驶仿真,以微调预训练模型。BEV输入模型后,输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹,而后得到BEV的预测。回看上面的loss公式,模型要fine-tuning,需要地图的信息,这里我们开发了一种经验光栅化器(experience rasterizer),以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换,就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过时间间隔的仿真后,就可以获得接下来BEV图像的真实数据。这部分的loss如下:

因为这里仿真器是按照预测的轨迹进行走的,所以轨迹那项的loss是0。我们使用Woven Planet L5Kit模拟器进行在线微调,以适应运动规划和精确的BEV生成。

我们采用以下指标来评估的模型的决策能力和运动规划能力:

●最终位移误差指标(FDE),指的是最终预测位置与参考位置之间的距离。

●平均位移误差指标(ADE),指的是时刻t之前所有预测位置与参考位置的均方误差。

●最终距离参考轨迹的距离指标(FDR),指的是时刻t预测位置与参考轨迹中最近点的距离。

●平均距离参考轨迹的距离指标(ADR),指的是时刻之前所有预测位置与参考轨迹中其最近位置的均方误差。

●L2误差(L2),在仿真过程中执行的轨迹和日志记录中的真实位置之间的均方误差。

●碰撞率(CR),它指的是模拟持续时间t内发生碰撞帧与全部帧的比例。

●越野率(OR),它指的是驶离道路帧数与全部帧的比例。判断指标定义为参考轨迹与自车之间的距离大于2米。

评价结果如下表所示,结果显示,我们提出的BEVGPT在决策和规划任务中优于许多现有的方案。

51c自动驾驶~合集10_自动驾驶_08

▲表2|实验结果

未来我们将在极端情况下测试所提出方法的鲁棒性,并进一步改进框架。未来研究的一个有潜力的方向是提高BEVGPT模型的实时性能,将其部署在自动驾驶汽车上。我们的目标是带来一个更安全、更可靠、更高效的自动驾驶框架。




#盘点CLIP系列模型泛化能力提升方面的研究

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。

为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。
  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。
  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。
  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。
  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。
  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。
  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。
  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。
  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。
  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。
  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配
  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。
  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。
  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。
  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。
  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。
  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景,并梳理了近期发布的一些公众:在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。

为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。
  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。
  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。
  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。
  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。
  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。
  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。
  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。
  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。
  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。
  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配
  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。
  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。
  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。
  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。
  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。
  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。