51c视觉~合集16

原创

qq6669490e54384 2024-08-13 22:40:19 ©著作权

文章标签 视觉 文章分类 计算机视觉人工智能

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#港大成立计算与数据科学学院，计算机+统计双剑合璧

刚刚，港大成立新的计算与数据科学学院，由计算机科学系和统计学系合并。马毅教授被任命为学院首任院长。

马毅教授官宣：香港大学计算与数据科学学院成立。

同时，马毅被任命为首任院长。

新学院的主要使命，就是通过全面改革和重新设计从本科一年级到研究生的整个课程体系，来革新AI和计算机科学的教育。

马毅直言：这是一项巨大的工程，但也是我们这一代教育者的责任。

计算与数据科学学院

由现有的计算机科学系和统计与精算科学系合并后，新成立的计算与数据科学学院拥有大约60名知名学者和800名研究生，提供14个学术课程。

港大之所以要做出这种跨学院整合，就是希望在计算技术、数学建模和统计推理之间，创造出强大的协同效应。

如果既掌握了计算机科学，又把握了统计学课程的精髓，学院的毕业生必将具备强大的分析和计算技能。

另外，新成立的学院还会作为一个活跃的跨学科学术和研究合作中心，促进与其他所有院系的合作，以充分利用现代数据科学和AI的潜力。

学院提供的授课式研究生课程，充分考虑了行业和就业市场的需求。

课程将涵盖多个主题，包括但不限于数据科学、人工智能、网络安全、统计学和软件工程。

同时，学院还会和行业伙伴密切合作，确保课程符合当前的行业需求。

课程设置

打开学院的课程设置列表，我们可以看到学院授予5个方向的硕士学位，分别是数据科学硕士、计算机科学硕士、电子商务与互联网计算硕士、金融科技与数据分析硕士和统计学硕士。

数据科学硕士（Master of Data Science）

数据科学硕士的课程结构包括广泛的统计学和计算机科学课程，提供两种学习模式：全日制模式为一年半学制，非全日制模式为两年半学制。

本专业的硕士，将接受数据科学原理和实践方面的培训。

申请者应具备微积分和代数、计算机编程以及初级统计学的知识，并且应至少在这三个科目或相关领域中完成过一门大学或大专证书课程。

计算机科学硕士（Master of Science in Computer Science）

计算机科学硕士课程，将为学生提供计算机科学领域的高级和深入知识，课程的最大特点就是多样性和灵活性。

课程分为四个方向——网络安全、金融计算、多媒体计算和通用方向，涵盖了从数据工程、云计算、区块链技术、深度学习到金融欺诈分析研究的广泛主题。

- 通用方向涵盖了一系列广泛、全面的计算机科学科目，有多种课程可供学生选择。

- 网络安全方向是一个多学科的研究领域和专业活动，涉及网络安全的最新技术。课程从技术、组织、人本导向和法律等不同角度，涵盖网络安全的各个方面。

- 金融计算方向研究用于金融的数据和算法，以及实现金融模型或系统的计算机程序的数学。金融计算强调实用的数值方法，侧重于直接应用于商业和金融分析的技术。重点将放在金融行业的计算方面。

- 多媒体计算方向专注于多媒体计算、通信、分析、可视化和应用。学生将获得理论和实践技能，用于开发创新和创造性的多媒体计算技术。

电子商务与互联网计算硕士（Master of Science in Electronic Commerce and Internet Computing）

电子商务与互联网计算硕士课程于1999年9月成立，是亚太地区首个结合商业与技术的课程。

香港在全球金融市场中拥有独特的地位，这门课程结合了香港的这项优势，它的目标是培养技术娴熟且具备商业头脑的人才，为香港的企业提供创新的季节方案。

另外，该专业还融入了一些先进、优秀的元素，帮助学生跟上信息技术的快速发展。

该专业希望，学生完成课程后，能够区分炒作与现实，有能力分析行业内新的发展，将其既有、合理的结构和概念进行整合，从而发现创业机会和市场机遇。

金融科技与数据分析硕士（Master of Science in Financial Technology and Data Analytics）

这门课程希望在不断变化的金融科技世界中，为学生培养职业生涯的必备技能。

课程汲取了工程、商业、法律和统计等多个领域的专业知识，形成了一个以技术为重点的跨学科课程。

通过这些课程，学生将获得在金融行业变化环境中所需的基本金融科技技能，以及对最新行业趋势的了解。

学习该门课程的学生，将掌握AI、区块链、大数据分析、金融欺诈分析等多项技术能力，应该能够胜任需要强大技术技能的各类金融行业工作。

统计学硕士（Master of Statistics）

申请统计学硕士的候选人，应具备矩阵和微积分、初级统计和线性建模的知识。

这门课程会对学生进行统计学原理和实践的严格培训。它非常强调应用，目标是通过计算机辅助和实践经验，为候选人在各个领域的深入学习、研究、咨询工作和管理做好准备。

课程对学生提供极大的灵活性，无论是希望获得普遍训练，还是希望在风险管理、数据分析或金融统计方面进行专业化训练的学生，都能找到自己适合的方式。

对于专业化主题，学生可以选择核心课程和选修课程。

学院预计，申请该课程的学生将来自各个学科。同时，学院还推荐在职人员申请，作为兼职学生参与，相似或不同背景的学生在互动中都会受益。

另外，课程也适合应届毕业生作为全日制学生来申请，以获得研究生学位。

马毅出任首任院长

马毅教授是IEEE、ACM和SIAM的会士，目前担任加州大学伯克利分校电气工程与计算机科学（EECS）系教授、香港大学数据科学研究所的首任所长、香港大学计算机科学系主任，以及香港大学计算与数据科学学院的首任院长。

他于1995年在清华大学获得自动化学士学位和应用数学学位。

在加州大学伯克利分校，他分别于1997年和2000年获得EECS硕士学位和数学硕士学位，并于2000年获得EECS博士学位。

在此之前，他曾于2000年至2011年在在伊利诺伊大学厄巴纳-香槟分校（UIUC）电气与计算机工程系担任助理教授和副教授（现为兼职教授）。

2009年至2014年，担任微软亚洲研究院计算机视觉组主任及首席研究员。2014年至2017年，担任上海科技大学信息科学与技术学院教授、执行院长。

此外，他还在Coordinated Science Laboratory的决策与控制小组和Beckman Institute的图像形成与处理小组担任研究教授。

学术服务方面，马教授自2012年起开始担任「IMA信息与推理杂志」的创刊副主编，自2018年起担任「SIAM数据科学数学杂志」（SIMODS）的创刊副主编。

此前，曾在2007年至2011年担任「IEEE模式分析与机器智能汇刊」（TPAMI）副主编，2010年至2014年担任「国际计算机视觉杂志」（IJCV）副主编，2013年至2017年担任「IEEE信息论汇刊」创刊副主编，以及「SIAM影像科学杂志」创刊副主编。

并且，还曾在2015年至2017年担任「IEEE信号处理杂志」的高级编委，在2010年和2011年担任「IEEE会刊」和「IEEE信号处理杂志」特刊的首席客座编辑。

在会议方面，他是2024年开办「简约与学习」（CPAL）的联合创始人之一，曾多次担任ICCV、CVPR和NIPS的领域主席，并担任ICCV 2013（澳大利亚）的程序主席和ICCV 2015（智利）的大会主席。

马教授的研究兴趣包括3D计算机视觉、高维数据的低维模型、可扩展优化与机器学习以及智能机器。他的工作在自然图像分割、稳健的人脸识别以及图像对齐和校正等领域有广泛应用。

最近的研究主题包括大规模3D几何重建与交互，以及低维模型与深度网络之间的关系。过去的研究主题包括高维数据的稀疏表示和低秩逼近、高维数据的聚类、压缩和分类，以及从图像重建3D结构。

马教授发表了超过一百篇经过同行评审的文章，并出版了两本广受欢迎的教科书：《An Invitation to 3-D Vision》（2003年），《Generalized Principal Component Analysis》（2016年）。

最新的教科书《High-dimensional Data Analysis with Low-dimensional Models》，由剑桥大学出版社于2022年出版。

学术荣誉方面，马教授于2016年被汤森路透的科睿唯安评为全球高被引研究者，并于2016年4月在《科学》杂志报道的Semantic Scholar中被评为全球计算机科学领域最具影响力作者的前50名。

他的博士研究与S. Soatto、J. Kosecka和S. Sastry一起在1999年国际计算机视觉会议（ICCV）上获得了David Marr最佳论文奖。

2009年，他与学生Shankar Rao、Hossein Mobahi和Allen Yang一起在亚洲计算机视觉会议（ACCV）上获得了Sang Uk Lee最佳学生论文奖，并在2015年获得了IMA信息与推理杂志最佳论文奖二等奖。

马教授在2003年获得了国家科学基金会（NSF）的教师早期职业发展（CAREER）奖，并在2001年春季、2002年秋季和2006年春季被列入伊利诺伊大学的优秀教师名单。

他在2009年获得了微软公司的金星奖，并在2012年获得了微软亚洲研究院的年度最佳研究团队奖。

近期论文

AI教父Hinton在90年代，就提出了「深度学习的本质可能就是压缩」的概念。

众多AI大佬，在各种场合对这个概念性的提法做出了一些经验性的总结，继续扩展了这一理论。

例如，前OpenAI首席科学家Ilya Sutskever曾在UC伯克利的一个AI理论讲座上分享到：「压缩可能就是学习的本质！」

近期，马教授和团队提出了一种白盒Transformer架构——CRATE。它通过基本原理构建，拥有丰富的理论框架，并在各种训练设置中实现了极具竞争力的性能。

具体来说，研究团队认为，数据表征学习的核心目标是将数据从高维度分布压缩到低维结构分布，从而实现有效的表征。

这种压缩可以通过「稀疏编码率减少」这个量化指标来衡量。

项目主页：https://ma-lab-berkeley.github.io/CRATE/

研究团队通过朴素的优化架构，将压缩和稀疏作为损失函数，可以迭代地将数据分布压缩到低维混合高斯分布模型，从而推导出类似Transformer的神经网络结构。

这就是构建类Transformer构架的第一性原理。而进一步证明压缩和去噪之间存在内在等价关系，就可以为构建Decoder提供理论依据，让编码器和解码器具有几乎相同的结构。

研究团队的实验结果表明，尽管架构较简单，CRATE在许多任务和数据集上都能与现有的Transformer模型获得类似的表现，同时其每一层和操作都可以明确解释。

分析结果表明，CRATE相对于标准Transformer确实具有更强的可解释性。

由于固有的数学可解释性，CRATE也为视觉Transformer（ViTs）提供了一种有趣的替代方案。

为了探究架构的可扩展性，研究人员提出了CRATE-α——在对稀疏编码块进行策略性但最小化修改的同时，设计了一种轻量级的训练方法。

项目主页：https://rayjryang.github.io/CRATE-alpha/

MSSA（Multi-head Subspace Self-Attention ）表示压缩块，ODL（Overcomplete Dictionary Learning）表示稀疏编码块

具体来说，CRATE-α主要做了三个修改：

1. 大幅扩展了通道，对稀疏编码块进行过参数化（overparameterized），使用过完备字典（overcomplete dictionary）对token表征进行稀疏化。

2. 解耦了关联矩阵，在稀疏编码块的最后一部中引入一个解耦字典（decoupled dictionary）

3. 添加了残差连接。

实验结果证明，CRATE-α能够随着模型尺寸和训练数据集的增大而扩展，性能可以持续提升。

例如，CRATE-α-B在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型，准确率提高了3.7%，达到了83.2%；进一步对模型进行扩展时，CRATE-α-L在ImageNet分类任务上达到了85.1%的准确率。

值得注意的是，模型性能的提升是在保持甚至增强了CRATE模型可解释性的同时实现的，因为更大尺寸的CRATE-α模型学到的token表征能够生成更高质量的无监督图像分割。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用

参考资料：

https://x.com/YiMaTweets/status/1822806291313782785

https://admissions.hku.hk/tpg/faculty/school-computing-and-data-science

#Defect Spectrum

港科大联手思谋新作：Defect Spectrum数据集重新定义AI工业质检

AI 技术应用落地的元年，工业是主战场，尤其是工业缺陷检测。

在“生产制造-缺陷检测-工艺优化-生产制造”的智能制造闭环链条中，基于AI的智能缺陷检测扮演着“把关者”的角色。但这个把关者长期以来却缺少一个称手的工具——样本量大、精度高、语义丰富的缺陷数据集。

近日，ECCV2024接收的一篇论文引起业界广泛关注，该工作提出了Defect Spectrum缺陷数据集及DefectGen缺陷生成模型，主攻工业智能检测，可解决模型无法识别的缺陷类别和位置问题，有效提升10.74%召回率，降低33.1%过杀率。

这是港科广和专注于智能制造领域的人工智能独角兽思谋科技联合发布的又一杰作。去年，该合作团队提出的《Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with Reflection》被选为ICCV最佳论文候选。

Project Page: https://envision-research.github.io/Defect_Spectrum/
Arxiv Page: https://arxiv.org/abs/2310.17316
Github Repo: https://github.com/EnVision-Research/Defect_Spectrum
Dataset Repo: https://huggingface.co/datasets/DefectSpectrum/Defect_Spectrum

突破传统限制，更贴近落地生产

高质量的数据集对CV技术和人工智能的发展起着至关重要的作用。如ImageNet不仅推动了算法的创新，还促进产业发展和进步。

在工业界，MVTec、VISION VI、DAGM2007等数据集帮助视觉学习算法更接近工业生产实际场景，但由于样本量、精度、语义描述的不足，始终限制着AI工业检测的发展。

Defect Spectrum数据集带着突破传统缺陷检测界限的任务而来，为工业缺陷提供了详尽、语义丰富的大规模标注，首次实现了超高精度及丰富语义的工业缺陷检测。

相比其他工业数据集，“Defect Spectrum”数据集提供了5438张缺陷样本、125种缺陷类别，并提供了像素级的细致标签，为每一个缺陷样本提供了精细的语言描述，实现了前所未有的性能突破。

51c视觉~合集16_视觉

相比其他工业数据集，Defect Spectrum精准度更高、标注更丰富

51c视觉~合集16_视觉_02

Defect Spectrum与其他数据集的数量、性质对比

从实际的工业生产来看，工厂对缺陷检测的要求细致，需要在控制缺陷件的同时保证收益率。然而，现有缺陷检测数据集常常缺乏应用所需的精确度和语义丰富性，无法良好支持实际生产。

例如，一件衣服的拉链齿出现了错位，虽然缺陷尺寸不大但却影响衣物功能，导致拉链无法正常使用，消费者不得不将其退回工厂进行修复。然而，如果缺陷发生在衣物的面料上，比如轻微的钩丝或颜色略有差异，这时就需要仔细权衡其尺寸和影响。小规模的面料缺陷可被归类在可接受的范围内，允许这些产品通过不同的分销策略销售，比如以打折价格进行销售，在不影响整体质量的同时保有收益。

传统数据集如MVTEC和AeBAD尽管提供了像素级的标注，但常常局限于binary mask，无法细致区分缺陷类型和位置。Defect Spectrum数据集通过与工业界四大基准的合作，重新评估并精细化已有的缺陷标注，对细微的划痕和凹坑进行了更精确的轮廓绘制，且通过专家辅助填补了遗漏的缺陷，确保了标注的全面性和精确性。

通过Defect Spectrum数据集这个强大的工具，工厂缺陷检测系统能够迅速识别、立即标记，并采取相关修复策略。

革命性生成模型，专攻缺陷样本不足

港科大和思谋科技研究团队还提出了缺陷生成模型Defect-Gen，一个两阶段的基于扩散的生成器。

51c视觉~合集16_视觉_03

Defect-Gen两阶段生成流程示意图

Defect-Gen专门解决当前数据集中缺陷样本不足的问题，通过利用极少量的工业缺陷数据生成图像与像素级缺陷标签，即使在有限的数据集上也能工作，为AI在复杂工业环境中的应用开辟了新的可能。

Defect-Gen具体通过两个关键方法提高图像的多样性和质量：一是使用Patch级建模，二是限制感受野。

为弥补Patch级建模在表达整个图像结构上的不足，研究团队首先在早期步骤中使用大感受野模型捕捉几何结构，然后在后续步骤中切换到小感受野模型生成局部Patch，可在保持图像质量的同时，显著提升了生成的多样性。通过调整两个模型的接入点和感受野，模型在保真度和多样性之间实现了良好的平衡。而生成数据同样可以作为数据飞轮的一部分，并加速其运转。

目前，Defect Spectrum数据集的5438张缺陷样本中，有1920张由Defect-Gen生成。研究团队对应用Defect-Gen生成模型的Defect Spectrum数据集进行了全面的评估，验证了Defect Spectrum在各种工业缺陷检测挑战中的适用性和优越性。

51c视觉~合集16_视觉_04

部分缺陷检测网络在Defect Spectrum数据集上的测评结果

51c视觉~合集16_视觉_05

Defect Spectrum数据集上的实际评估标准

51c视觉~合集16_视觉_06

Defect Spectrum在实际评估中的优异表现

比起原有的数据集，在Defect Spectrum数据集上训练的模型召回率(recall)提升10.74%，过杀率(False Positive Rate)降低了33.1%。

Defect Spectrum数据集的引入，犹如为工业生产注入了一剂强心针。它让缺陷检测系统更加贴近实际生产需求，实现了高效、精准的缺陷管理。同时为未来的预测性维护提供了宝贵的数据支持，通过记录每个缺陷的类别和位置，工厂可以不断优化生产流程，改进产品修复方法，最终实现更高的生产效益和产品质量。

目前Defect Spectrum数据集已应用于思谋科技缺陷检测视觉模型的预训练中，未来将与IndustryGPT等工业大模型融合，深度落地并服务于工业质检业务。AI技术落地驱动产业发展，也正是学术界和工业界共同努力方向。

#BioSAM2

跟最新热点，做最快paper！BioSAM2：SAM-2在医疗领域的应用落地

本文提出BioSAM 2，这是一个优化过的SAM 2基础模型，通过微调原始SAM 2实现。这个优化显著提升了SAM 2在生物医学图像和视频上的分割性能。在没有提示的情况下，作者的自动分割始终保持显著优势，远远超过最先进的 Baseline 基础方法。

医学图像分割及视频目标分割对于识别和测量生物结构，从而辅助诊断和分析疾病至关重要。自然领域近期的发展推动了像 Segment Anything Model 2（SAM 2）这样的基础模型的进步。
为了探索 SAM 2 在生物医学应用中的性能，作者设计了两个评估 Pipeline ，用于单帧图像分割和多帧视频分割，采用不同的提示设计，揭示了 SAM 2 在医学环境中的局限性。因此，作者开发了 BioSAM 2，这是一个根据 SAM 2 优化的高级基础模型，用于生物医学数据。
作者的实验表明，BioSAM 2 不但超越了现有最先进的基础模型性能，还可以与专业模型相媲美，甚至超过它们，证明了它在医学领域的有效性和潜力。

1 引言医学图像分割对于识别生物结构和测量它们的形态，有助于各种疾病的诊断和分析。然而，尽管医学影像技术取得了许多进步，分割仍然是一个巨大的挑战，因为医学图像的复杂性和进行精确标注所需的大量手动努力。传统方法通常需要详细的手工标注，这不仅是耗时的，而且还容易犯 human error。

最近，分割基础模型（如 Sam）的出现显着推动了天然图像分割领域的进步。SAM 在提示输入下展示了令人印象深刻的零样本分割性能，显示了出色的通用性，并成为了各种分割任务的新的标准[6]。为了将 SAM 的能力扩展到医学领域，已经提出了许多工作，其中 MedSAM 是一个代表。MedSAM 通过结合特定领域的知识修改了 SAM 的架构，以解决医学图像独特的挑战，如变化的对比度、噪声水平和人工制品的存在[11]。这种方法在医学图像分割方面取得了显著的改进，利用了 SAM 的基础模型，同时为医学应用进行了调整。

意识到需要将其能力扩展到更复杂的场景，SAM 2 开发了以包括视频输入的功能扩展 SAM。这使得 SAM 2 能够处理图像的时间序列，使其适合需要理解多个帧的时空连续性。通过处理空间和时间维度，SAM 2 在涉及自然图像和视频分割的各种任务上展示了零样本的惊人性能。

然而，SAM 2在医学分割任务上的潜力尚未完全探索。作者进行了全面的评估以研究其能力。具体而言，作者在6种医学模式和9个感兴趣目标的条件下评估了SAM 2的四个变体（Hiera-T, Hiera-S, Hiera-B+, 和Hiera-L）的性能。作者设计了两套评估 Pipeline ，分别针对单帧图像分割和多帧视频分割，包括各种不同的提示设计。为了进一步评估性能，作者将它与各种 Baseline 模型进行了对比，包括基于CNN、Transformer和SSM的模型，使用各种指标。作者的发现表明，SAM 2不能直接用于医学图像或视频分割。主要原因是自然数据与医学数据之间的显著领域差距以及SAM 2无法将分割区域与有意义语义类别关联。换句话说，SAM 2不能在医学领域执行语义分割，这限制了其在计算机辅助诊断中的应用。

在这些观察的基础上，作者进一步引入BioSAM 2，这是一个优化过的SAM 2基础模型，通过微调原始SAM 2实现。这个优化显著提升了SAM 2在生物医学图像和视频上的分割性能。值得注意的是，在没有提示的情况下，作者的自动分割始终保持显著优势，远远超过最先进的 Baseline 基础方法。

作者的贡献可以概括如下：

作者已开发了两个适用于6种医学模式和9个感兴趣目标的单帧生物医学图像和多帧生物医学视频的评估 Pipeline 。这些 Pipeline 全面评估了SAM 2在生物医学应用中的性能。
为了增强SAM 2在生物医学领域的适应性，作者引入了BioSAM 2，这是一个通过微调原始SAM 2实现的优化基础模型。这个改进显著提升了SAM 2的分割性能。值得注意的是，在不需要任何提示的情况下，作者的自动分割始终明显优于竞争最先进的 Baseline 基础方法。
实验结果表明，BioSAM 2在相同模态的医学数据上与专业模型训练的性能相匹配，甚至超过了。这些发现强调了BioSAM 2作为通用医学图像和视频分割的新范式具有巨大的潜力。

通过将BioSAM 2与医学影像分割任务相结合，作者可以预计在分割准确度和标注效率方面取得显著改进，最终为更好的临床结果作出贡献，并促进人工智能在医学影像领域的应用。本研究旨在推动当前医学影像分割技术的发展边界，探索先进的AI模型如BioSAM 2处理医学影像数据的全部潜力。

2 Related Work

医学图像分割。CNN基础和Transformer基础的模型在医学图像分割领域取得了显著进步。U-Net[17]，是一种显著的基于CNN的方法，特征为一个对称的编码器-解码器结构，并在跳跃连接中保留细节。增强版，如自适应的nnU-Net[13]，展示了在各种医学分割挑战中强大的性能。在基于Transformer的模型中，TransUnet[18]将视觉Transformer（ViT）[19]集成用于特征提取并将之与CNN配对进行解码，有效地处理全局信息。UNETR[15]，和Swin-UNet[20]将Transformer架构与U-Net相结合，以增强3D成像分析，并发掘Swin视觉Transformer块[21]。基于图神经网络（SNM）的模型如U-Mamba[22]已经用于在医学图像中进行高效的长序列数据分析。最近，SAM[6]，一种预训练于10亿面罩上的视觉基础模型，在各种分割任务上展现了惊人的零样本学习能力。受到SAM在自然图像中性能的启发，针对医学分割的适应性迅速出现[23, 24, 25, 26]。MedSAM[7]在11个模态的20万个面罩上对SAM进行了细调，而SAM-Med2D[27]使用了全面的提示，用于2D医学图像。SAMed[23]和MA-SAM[28]使用了PETL[29]进行细调，超越了一些现有的医学分割方法。

51c视觉~合集16_视觉_07

图2：根据不同的分割提示，SAM 2 和大型SAM 2的图像分割结果。

医学视频物体分割。许多语义分割模型依赖单张图像识别场景中的物体。这可能导致在多帧视频中特别是在需要时间上下文的多帧视频中，做出空间和时间上不准确的预测。为了应对这个问题，时空记忆网络（STM）[30]及其变体[31, 32, 33]使用内存网络从由所有 previous video sequences 组成的时间基缓冲中提取关键信息。在这个方法的基础上，DPSTT[34]集成了一个内存库并使用了解耦的Transformer来跟踪医学超声视频中的时间病变移动。然而，DPSTT需要大量的数据增强以避免过拟合，且处理速度较低。随后的FLANet[35]引入了一个集频率和位置特征聚合的网络，涉及大量的内存占用。手术视频的光流方法[36, 37]局限于使用图像对之间的特征，而无法利用扩展的时间上下文。

其他方法在时间解码器中使用结合2D编码器与3D卷积层[38]以及卷积长短时记忆单元（ConvLSTM）[39]。替代的方法通过在训练中使用损失函数强制时间一致性[40]，或者使用结合高帧率和低帧率模型分支来整合视频的不同部分的时间上下文[41]。最近引入的SAM 2[12]扩展了SAM的背部到3D，增强了在视频中“分割任何东西”的能力。具体来说，SAM 2配备了内存，它可以存储物体信息和之前的交互信息，允许它在整个视频中生成并纠正面罩预测。

3 Method

Preliminary Study of SAM 2

Segment Anything Model 2（SAM 2）是一种统一的基于 Transformer 的模型，适用于图像和视频分割。对于每个视频帧，分割预测利用当前提示和之前观察到的记忆。视频以顺序方式处理，每帧由图像编码器单独处理，而记忆注意力则将当前帧特征与过去帧的特征和预测的条件起来。遮挡解码器，可以 optionally 接收输入提示，预测该帧的分段 Mask 。最后，记忆编码器将预测结果和图像嵌入转换为可用于未来帧的格式，以确保多个帧的连续性。

图像编码器中的视觉 Transformer 使用层次 Mask 自编码器模型Hiera [42]进行预训练，实现多尺度特征解码。记忆注意力将当前帧特征与过去帧的特征和预测的条件起来。多个 Transformer 块堆叠，第一个块将当前帧的图像编码作为输入。每个块执行自注意，然后执行交叉注意力至帧和目标指针的内存。在SAM 2中，提示使用位置编码和两个可学习的标记表示前景和背景。遮挡解码器包括双向 Transformer 块，用于更新提示和帧嵌入。该模型为每个帧预测多个 Mask ，如果不加后续提示澄清的歧义则仅传播预测IoU最高的 Mask 。此外，辅助预测头确定当前帧中目标目标的存在。最后，记忆编码器通过使用卷积模块对输出 Mask 下采样，然后与图像编码器的无条件帧嵌入按元素求和来整合这个过程。这种方式保留的信息的记忆存储器中，在视频序列中保留了对目标目标的最重要的预测信息。

Medical Applications of SAM 2

基于SAFM 2在自然图像和视频中展示的令人印象深刻的全零样本学习能力，作者探讨了它在医疗应用中的性能。具体来说，作者设计了两条 Pipeline ：单帧图像分割和多帧视频分割，以评估SAFM 2在医疗背景下的零样本分割任务处理能力。

单帧图像分割。 作者的方法在非迭代方式下设计单帧图像分割，其中所有提示都无需从前置预测中获取反馈。首先，通过特定策略自动化生成点提示。从初始 Mask 中随机选择一个点作为提示。给定源自初始 Mask 的一组候选点 , 选定的点如下: .正如SAFM 2的文档[12]所指出的，使用单个点提示可能带来分割 ambiguity，因为模型可能将提示与多个有效 Mask 关联，而无法识别出预期的一个。尽管SAFM 2包含一个解决歧义的模块，该模块会根据置信得分生成多个 Mask 并对其进行排名，但使用多个点提示可显著减轻这个问题。因此，作者还评估了在初始 Mask 候选词中随机选择的附加点提示性能。这种从 Mask 中采样的方法将初始分割 Mask 视为可靠的结果，并利用提示选择不变性来增强分割精度，同时合并附加点提示。

多帧视频分割。 在评估视频分割时，作者采用离线和在线评估的混合模式。具体来说，作者选取前n帧作为交互帧，在这些帧上添加点击线索。多个点击线索可使模型更准确地确定目标的边界，实现更高的分割精度和可靠性。此外，多个交互帧可有效解决SAFM 2中出现的问题，即模型无法跟踪出现在未标注帧中的目标，使得它对视频场景更合理且有效。总体而言，作者的一次视频评估仅遍历一次视频，从而最终得到分割结果。

总之，在直接使用SAFM 2进行医疗图像和视频分割时，生成的 Mask 可能是模糊的，需要多个提示或迭代进行预测和校正。尽管SAFM 2具有很大的潜力，但它在为各种医疗图像/视频分割任务产生令人满意的分割结果时遇到了挑战。此外，由于SAFM 2的视频训练数据主要包含高分辨率视频，在处理低分辨率医学视频时，它可能完全无效果。鉴于这些局限性，本研究的目标是开发一个强大的分割基础模型，能够有效地解决各种分割目标。

BioSAM 2: Dedicated biomedical segmentation foundation model

为将SAM 2调整用于医学视频分割，选择适合的网络组件进行微调至关重要。SAM 2的结构包含几个关键元素：图像编码器、提示编码器、记忆注意力、 Mask 解码器和记忆编码器。可以微调这些组件的任何组合。对于作者进行的适应，提示编码器，它是处理给定提示信息的部分，从预训练模型中保留并因此将其冻结以保持其原始功能。相反，图像编码器和 Mask 解码器都被微调以增强SAM 2在医学影像领域适用性。这种适应策略如图3所示。

51c视觉~合集16_视觉_08

对于图像编码器，作者选择了一个微型配置，以在计算成本和性能效用之间取得平衡。作者从官方预训练权重开始训练SAM 2，并为图像和视频数据进行单独的会话。在训练过程中，作者采用AdamW优化器[43]并实现了图像编码器上的层衰减策略[44]，以提高其学习效率。对于 Mask 解码器，其配置简化为每帧生成一个 Mask ，因为提供的提示明确指定了期望的分割目标。

在损失设计中，作者使用dice损失和二进制交叉熵（BCE）损失的组合来监督模型预测。具体而言，和分别是预测和实际像素值, 是总像素数。dice损失定义为：

51c视觉~合集16_视觉_09

BCE损失为：

51c视觉~合集16_视觉_10

在训练过程中，作者使用这些损失的结合来优化模型参数：

51c视觉~合集16_视觉_11

如果实际数据中不包含某个帧的 Mask ，则不监督任何 Mask 输出，但始终监督预测是否应在帧中存在 Mask 的 Mask 预测头。

4 Experiments

实验概述

本实验分为四部分，旨在探讨深度学习和强化学习技术在人工智能领域的应用及其在实际问题中的性能表现。本实验将采用深度学习平台如TensorFlow和PyTorch，以及强化学习库如PyTorch-RL库实现。

实验内容包括：

实验一：手写数字识别
实验二：环境感知和导航
实验三：游戏策略学习
实验四：自适应机器人控制

实验一：手写数字识别

首先，作者将展示深度学习在手写数字识别任务上的应用。在这个实验中，作者将训练一个卷积神经网络（Convolutional Neural Network，CNN）来识别常见的数字手写体。通过这个实验，作者将了解深度学习如何提高识别精度。

实验二：环境感知和导航

接着，作者将进行环境感知和导航实验。在这个实验中，作者将使用深度强化学习技术，训练智能代理在复杂环境中自主导航。这个实验将展示强化学习在实际问题中的优越性能。

实验三：游戏策略学习

实验三作者将研究游戏策略学习技术。在这个实验中，作者将研究深度学习在博弈领域中的应用，如AlphaGo、StarCraft等。通过对这些游戏的分析，作者将了解到深度学习在解决实际问题中的潜力。

实验四：自适应机器人控制

最后一个实验将研究自适应机器人控制技术。在这个实验中，作者将使用深度强化学习来实现机器人在不同环境下的自适应控制。这个实验将进一步证明深度学习的广泛应用。

实验总结

通过本次实验，作者对深度学习和强化学习有了更深入的了解，这些技术在实际应用中都取得了显著的成果。在今后的研究中，作者可以进一步探讨如何将深度学习和强化学习技术相结合，以更好地解决实际问题。

Biomedical Image Segmentation

4.1.1 Datasets

为评估BioSAM 2的性能和可扩展性，作者采用了两个医学图像数据集，包括内窥镜图像数据集[45]和显微镜图像数据集[46]。

内窥镜图像：从MICCAI 2017年内窥镜图像挑战赛[45]中（EndoVis Challenge[45]），该数据集关注内窥镜图像中的仪器分割，包括大针头驱动器、主动力钳、单极弯剪钳、卡莱尔钳、双极钳、血管密封器和插入式超声探头等七种不同仪器。该数据集分为1800个训练帧和1200个测试帧。

显微镜图像：从NeurIPS 2022年细胞分割挑战[46]中（Cell Segmentation Challenge[46]）的数据集，该数据集用于细胞分割显微镜图像，包括1000个训练图像和101个测试图像。遵循U-Mamba[22]的处理方法，作者将其视为语义分割任务，关注细胞边界和内部结构而不是实例分割。

4.1.2 Experimental Setup

作者的实验设置与每个方法在官方仓库中的对应设置相同，以确保公平的比较。具体地，内窥镜和显微镜数据集的批处理大小为8。作者采用无权重组合Dice损失和交叉熵损失，用于所有数据集，利用AdamW优化器，初始学习率为1e-4。每个数据集的训练周期设置为200个周期。对于基于SAM的方法的评估，作者遵循其官方技术报告的实现细节。作者将不同的点作为提示，并将其输入到模型中。所有提示都随机选择对应图像的 Mask 。

在作者对BioSAM 2进行评估时，作者将与两种著名的基于CNN的分割方法进行比较：nnUNet [13]和SegResNet [14]。另外，作者还包含了与UNETR [15]和SwinUNETR [16]的比较，这两个基于Transformer的神经网络方法在医学图像分割任务上越来越受欢迎。U-Mamba [22]，最近的方法基于Mamba模型，也被纳入作者的比较，以提供对其性能的全面概述。对于每个模型，作者实现其推荐的优化器，以确保训练条件的一致性。为了保持所有比较的公平性，作者将在每个数据集上微调所有这些模型，并应用nnUNet [13]中的默认图像预处理。作者也通过直接允许它们推理图像对应的 Mask 来评估SAM和SAM 2的性能。为确保进行全面评估，作者使用三种提示测试了SAM 2的两个大小。

对于评估指标，作者使用Dice相似系数（DSC）和归一化表面距离（NSD）评估内窥镜图像中手段分割的性能。对于细胞分割任务，作者使用F1得分和NSD来评估方法性能。

4.1.3 Results

如图1所示，作者对各种SAM 2变体进行了深入分析。结果表明，随着点击次数的增加，性能明显提高，特别是在显微镜数据集上，F1指标从0.0654提高至最大值0.3566。同样，在内窥镜数据集上也有显著进步，DSC评分从最低的0.4115上升至0.5382，NSD评分从0.4227上升至0.5520。此外，作者在两个不同模型大小下评估了SAM 2的性能。较大的模型尺寸在点击总数相同的情况下，在大多数DSC和NSD评分上超过了小巧的变体，这表明较大的SAM 2模型具有更强的分割能力。

51c视觉~合集16_视觉_12

在与专门为医学图像分割设计的其他微调模型（例如nnU-Net）的比较中，SAM 2的零样本表现逊色。这一差异凸显了尽管SAM 2的迁移学习能力很强，但在医学图像领域仍然有巨大的提高空间。这强调了将SAM 2微调至最佳性能的必要性。此外，发现当SAM 2采用多个点击时，SAM 2的零样本结果超过了SAM，即使SAM使用了其最大的版本SAM_h。这强调了SAM 2先进设计和适应性的优势，与SAM相比。

表1还显示了作者的提出方法BioSAM 2的性能。BioSAM 2与SAM 2之间的比较分析揭示了巨大的改进，BioSAM 2实现的最小改进为0.0772，最大改进为0.5138。这表明BioSAM 2在仪器分割和细胞分割上的优越性能，并突显了SAM 2在医学图像领域的巨大潜力。SAM 2是一个通用模型，由于其通用设计而非专业设计，因此在医学领域需要适应，这是由于其对医学数据集的知识库有限以及输出 Mask 数量有限的限制。虽然SAM 2可以有效地分割图像级实例， But it struggles with accurately segmenting class-level instances. SAM 2可以轻松地划分两个细胞的边界，但不能确定它们是否属于同一类别。这些限制影响了SAM 2的性能，尤其是在多类别医学分割数据集上。BioSAM 2因此在这些方面发挥着关键作用，增强了模型处理医学图像分割任务的能力。

51c视觉~合集16_视觉_13

最后，根据表1，BioSAM 2在内窥镜数据集上取得了0.6251的DSC分数和0.6427的NSD分数。在显微镜数据集上，它获得了0.5792的F1分数和0.7436的NSD分数。这些结果超越了大多数竞争方法，并与最先进的模型具有可比性。这些性能验证了BioSAM 2在医学图像分割方面的优异性能，并证实了它有能力提供高质量的结果。

Biomedical Video Segmentation

生物医学视频分割部分的内容开始。

4.2.1 Datasets

为了验证SAM 2在生物医学视频上的性能，作者从医学场景中选择了两个数据集，包括来自EndoVis 2018 [47]和EchoNet-Dynamic [48]的数据集。

EndoVis 2018。 来自Robotic Scene Segmentation Challenge [47]。这个数据集包括使用da Vinci Xi系统在猪实验室中进行16次机器人肾切除术的视频数据，旨在支持手术机器人的机器学习研究。最初录制的频率为60 Hz，数据已降采样到2 Hz以降低标签成本，在去除最小运动序列后，每个程序有149帧。每一帧，以12801024的分辨率显示，包括来自左右眼相机的图像以及立体相机校准参数。

EchoNet-Dynamic。 EchoNet-Dynamic数据集[49] 包含10,030个标记的心电图视频，收集自2016年到2018年斯坦福大学医院日常临床护理。这个广阔的数据集为研究心脏运动和 chamber 尺寸提供了独特的资源，这对于诊断各种心血管疾病至关重要。数据集中的每个视频从心尖四腔视图捕捉心脏动力学，经过仔细裁剪和遮挡以消除任何无关文本和外部信息，确保仅关注心脏成像区域。该视频均统一缩放到112112像素，使用立方插值来标准化数据集。

4.2.2 Experimental Setup

在评估SAM 2在零样本条件下的性能时，作者选择了Jaccard指数和F-分数（记为）作为作者的评估指标。Jaccard指数描述了预测口罩和真实目标（gt）之间的交集与并集（IoU），而F-分数衡量了预测口罩边界和真实目标边界之间的对齐。

4.2.3 Results

SAM 2 与 SAM 相比最重要的突破在于其支持内部物体的视频跟踪能力。如图2所示，作者对 SAM 2 在医学视频中零样本分割的能力进行了详细而全面的评估。结果表明，点击计数有效增强了结果的准确性。只需要几个额外的提示，模型就可以准确地描绘出物体的边界。值得注意的是，EchoNet Dynamic [48] 显示了最大的改进。如图5所示，单击一次 SAM 2 就能分割出成像区域。然而，随着点击次数的增加，分数从单个数字增加到超过70。此外，当点击次数保持不变时，模型在大尺寸上表现得更好。

51c视觉~合集16_视觉_14

SAM 2 视频分割的一个重要问题是，如果目标物体未出现在标注帧中，则在视频中进行跟踪和分割变得不可行。作者通过增加交互帧的数量解决了这个问题。表3中的结果展示了这种方法带来的改善。通过增加交互帧，SAM 2 在3-点击场景下的性能得到了提高，甚至超过了仅使用第一帧的 Ground Truth Mask 的结果。作者观察到，即使同样的物体在交互帧中多次标记，它也能够提高后续分割结果。作者推测，这种信息注入帮助模型从不同视角更好地识别同一物体，从而实现更好的结果。总体而言，虽然 SAM 2 在医学视频中实现了零样本分割，但在某些医学场景中缺乏对医学内容的学习使其表现复杂。这强调了后续努力中在视频数据上训练 BioSAM 2 的重要性。

51c视觉~合集16_视觉_15

5 Conclusion

总之，作者的BioSAM 2开发在生物医学领域取得了重大进展。通过实现两个专门针对单帧生物医学图像和多帧生物医学视频的评估 Pipeline ，作者对SAM 2在不同医学场景和感兴趣的物体上的性能进行了严格的评估。作者的结果表明，增强的BioSAM 2不仅超越了当前最先进的底层方法，而且超过了专门针对相同医学方法训练的大多数专用模型的性能。这些发现确认了BioSAM 2作为一种新的生物医学分割方法，用于更高效、准确、适应性强的诊断技术的潜力。

#EAFormer

图像文本擦除无痕迹！复旦提出EAFormer：最新场景文本分割新SOTA！

为了在文本边缘区域实现更好的分割性能，本文提出了边缘感知Transformer（EAFormer），该方法明确预测文本边缘，并利用这些边缘来引导后续的编码器。

文章链接：https://arxiv.org/pdf/2407.17020

git链接：https://hyangyu.github.io/EAFormer/

亮点直击
为了在文本边缘区域实现更好的分割性能，本文提出了边缘感知Transformer（EAFormer），该方法明确预测文本边缘，并利用这些边缘来引导后续的编码器。
针对COCO_TS和MLT_S数据集的标注质量较低的问题，对这些数据集进行了重新标注，以提高EAFormer在这两个数据集上的实验结果的可靠性。
在六个场景文本分割基准上的广泛实验表明，所提出的EAFormer能够达到最先进的性能，尤其在文本边缘区域表现更佳。

场景文本分割旨在从场景图像中裁剪文本，这通常用于帮助生成模型编辑或去除文本。现有的文本分割方法通常涉及各种文本相关的监督以获得更好的性能。然而，大多数方法忽略了文本边缘的重要性，而文本边缘对下游应用至关重要。本文提出了边缘感知Transformer（Edge-Aware Transformers），简称EAFormer，以更准确地分割文本，特别是文本的边缘。

具体而言，首先设计了一个文本边缘提取器，以检测边缘并滤除非文本区域的边缘。然后，提出了一个边缘引导编码器，使模型更加关注文本边缘。最后，采用了一个基于MLP的解码器来预测文本mask。在常用基准上进行了广泛的实验，以验证EAFormer的有效性。实验结果表明，所提出的方法在文本边缘的分割上优于以前的方法。考虑到一些基准数据集（如COCO_TS和MLT_S）的注释不够准确，无法公平评估本文的方法，重新标注了这些数据集。通过实验观察到，当使用更准确的注释进行训练时，本文的方法能够获得更高的性能提升。

方法

本节详细介绍了所提出的EAFormer。首先，介绍EAFormer的提出动机。然后，详细说明EAFormer的每个模块，包括文本边缘提取器、边缘引导编码器和文本分割解码器。最后，介绍了本文方法的损失函数。

动机

不可否认，文本边缘对场景文本分割任务至关重要，尤其是对于其下游任务如文本擦除。准确分割文本边缘可以为文本擦除模型提供更多的背景信息，以填补文本区域。如下图1所示，利用一个预训练的修复模型，输入不同类型的文本mask，以在场景图像中擦除文本。通过实验观察到，文本边界框mask过于粗糙，无法为修复模型提供更多的背景信息。此外，边缘分割不准确的文本mask使得修复模型错误地将属于文本的像素视为背景，导致擦除效果不佳。只有提供具有准确边缘分割的文本mask时，修复模型才能生成令人满意的文本擦除结果。

尽管PGTSNet已经意识到文本边缘的重要性，并使用了二元交叉熵损失来检测文本边缘的像素，但它未能明确地将易于获取的文本边缘信息作为输入信息之一。为了验证其感知文本边缘的能力，对主干网络输出的特征进行了K均值聚类，其中K设置为3，分别代表背景、文本边缘和文本中心。通过下图2中的可视化结果，观察到该方法在感知文本边缘方面仍存在一定的不足。

此外，研究者们发现传统的边缘检测算法可以获得准确的文本边缘，这可能有助于场景文本分割任务。然而，由于传统的边缘检测方法无法区分文本区域和非文本区域，因此大多数边缘都被检测到了非文本区域。如果直接将边缘检测结果作为输入来辅助文本分割，可能会使文本分割模型产生混淆，从而对其性能产生不利影响。

边缘感知Transformer（EAFormer）

如下图3所示，所提出的EAFormer由三个模块组成：文本边缘提取器、边缘引导编码器和文本分割解码器。给定输入的场景文本图像 , 文本边缘提取器用于获得文本区域的边缘。然后, 文本图像和检测到的文本边缘被输入到边缘引导编码器中, 以提取边缘感知特征。最后, 文本分割解码器以编码器生成的特征作为输入, 生成相应的文本mask 。

文本边缘提取器。 由于文本边缘对场景文本分割任务至关重要, 研究者们提出了一个文本边缘提取器以获得文本区域的边缘。首先，使用传统的边缘检测算法Canny来获取整个输入图像的边缘。如前所述，中的非文本区域的边缘可能对文本分割产生负面影响。因此，在文本边缘提取器中引入了一个轻量级的文本检测模型来执行边缘过滤。具体而言, 首先使用类似ResNet的[16]主干网络提取多级视觉特征，其中表示ResNet-like主干网络第-层的特征（有关文本检测主干网络的更多细节介绍见补充材料）。然后，采用文本检测头来预测文本区域的mask ，可以表示为

51c视觉~合集16_视觉_16

其中, 和分别表示卷积层和拼接操作。借助文本区域的mask , 可以通过对文本区域mask 和检测到的边缘进行逐像素相乘，过滤掉非文本区域的边缘。因此，文本区域的边缘可以通过以下方式获得:

51c视觉~合集16_视觉_17

值得一提的是, 在进行乘法操作之前对施加了软argmax操作, 因为联合优化文本检测和分割分支可以实现更好的文本检测性能。然后, 经过过滤的文本边缘被输入到接下来的边缘引导编码器中, 以增强其区分文本边缘周围像素的能力。

边缘引导编码器。 由于SegFormer在语义分割中表现出色，采用它作为边缘引导编码器的基础框架。如前面图3所示，边缘引导编码器由四个阶段组成，过滤后的文本边缘在第一个阶段被合并。每个编码阶段包含三个子模块：重叠补丁embedding、有效自注意力和前馈网络。重叠补丁embedding用于提取每个补丁周围的局部特征。随后，这些特征被输入到自注意力层中，以挖掘像素之间的相关性。基本自注意力层的公式如下：

51c视觉~合集16_视觉_18

其中, 、和是通过对相同特征应用不同的embedding层获得的。为了减少计算成本, 遵循 [43]引入了空间降维操作来处理和。有关空间降维的更多细节见补充材料。最后, 对于第阶段, 使用前馈网络生成输出特征。与此不同的是，在第一个阶段的前馈网络之后额外引入了一个对称交叉注意力层, 以融合提取的边缘引导。具体而言, 对称交叉注意力层包括两个交叉注意力操作, 分别在第一个阶段的特征和边缘引导之间进行。一方面，被视为查询（Query），以提取边缘感知的视觉信息 , 其中被视为键（Key）和值（Value）; 另一方面，被用作查询（Query）,进一步挖掘有用的文本边缘信息，其中被视为键（Key）和值（Value）。

因此，第一个阶段的最终输出可以表示为：

51c视觉~合集16_视觉_19

其中, 代表上述的自注意力操作, 表示逐像素相加。随后, 和其他阶段的输出被输入到文本分割解码器中。

文本分割解码器。 类似于之前的方法, 采用几个MLP层来融合特征并预测最终的文本mask 。首先,通过相应的MLP层统一四个阶段输出的通道维度。然后, 这些特征被上采样到相同的分辨率, 并通过一个MLP层进一步融合。最后, 融合后的特征用于预测文本mask。假设第阶段特征的分辨率为 , 解码过程可以表示为:

其中, 表示MLP中输入特征和输出特征的通道数分别为和。Fuse 表示输入特征首先被拼接在一起, 然后通过MLP层在通道维度上进行降维。

损失函数

以前的文本分割方法通常引入各种损失函数来提高性能，这可能会带来选择适当超参数的困难。在所提出的EAFormer中，仅使用了两种交叉熵损失：文本检测损失和文本分割损失进行优化，它们可以表示为：

51c视觉~合集16_视觉_20

其中, 是用于平衡和的超参数; 和分别是和的真实标注。请注意, 用于的边界框级别监督可以从语义级别的标注中获得, 这意味着所提出的方法与之前的方法一样, 仅需要语义级别的标注。

实验

实施细节

所提出的方法使用PyTorch实现，所有实验都在8个NVIDIA RTX 4090 GPU上进行。采用AdamW优化器，所有实验中的初始学习率设置为，权重衰减设为0.01。批量大小设置为4。与之前的方法 [32,41,45] 一样，在训练阶段也采用了一些数据增强操作，如随机裁剪和翻转。不同于现有方法使用预训练模型来检测文本区域或识别字符，所提出的EAFormer中的所有模块都是联合训练的。换句话说，训练EAFormer时没有使用额外的数据集。Canny边缘检测的两个阈值分别设置为100和200。为了评估所提出方法的性能，同时使用前景交并比（fgIoU）和前景像素F值。fgIoU的度量标准采用百分比格式，F值采用小数格式。

实验结果

定量比较。 为了全面评估EAFormer，研究者们在英文和双语文本分割数据集上进行了实验。下表2显示了在五个英文文本分割数据集上的实验结果。

与之前的方法相比，EAFormer在大多数基准测试中在前景交并比（fgIoU）和F值上都有明显的提升。例如，在TextSeg数据集上，EAFormer在fgIoU和F值上分别超越了之前的SOTA方法TextFormer 0.64% 和0.6%。尽管原始的COCO_TS和MLT_S数据集有粗糙的注释，所提出的EAFormer仍然能表现出更好的性能，例如在COCO_TS数据集上比 TFT 提升了7.63%的fgIoU。考虑到基于不准确注释的实验结果不够令人信服，重新标注了COCO_TS和MLT_S的训练数据集和测试数据集。基于重新标注的数据集的实验结果显示在下表3中。实验表明，当使用注释更准确的数据集进行训练和测试时，EAFormer仍然能够实现显著的性能提升。与原始数据集的结果相比，重新标注数据集上的性能似乎下降了很多。

以下两个原因可能解释了这一现象：

数据集中有许多模糊的文本，这确实给模型处理文本边缘带来了挑战；
重新标注的测试数据集更为准确，评估中没有忽略的区域。

此外，还在双语文本分割数据集BTS上进行了实验，结果显示在下表4中。尽管PGTSNet不公平地引入了一个预训练的文本检测器，EAFormer在fgIoU/F值上仍然能实现1.6%/2.8%的提升，这验证了所提出方法的有效性。由于引入了一个轻量级的文本检测头，不可避免地增加了更多参数。评估了参数数量和推理速度。与之前的SOTA方法TextFormer（85M参数和每张图像0.42秒）相比，所提出的模型有92M参数，平均每张图像需要0.47秒。虽然参数数量略有增加，但本文的方法仍能显著提升性能。

定性比较。 研究者们还通过可视化将EAFormer与之前的方法在分割质量上进行了比较。如图5所示，所提出的EAFormer在文本边缘的表现优于之前的方法，这得益于引入的边缘信息。此外，对于COCO_TS和MLT_S，比较了基于原始和修改后注释的分割结果。尽管上表3表明，当使用重新标注的数据集进行训练和测试时，本文的方法性能有所下降，但下图5中的可视化结果表明，本文的模型在重新标注的数据集上能够实现更好的分割结果。

消融研究

超参数。 在训练EAFormer时，使用了两种损失函数进行优化。超参数用于平衡和的权重，适当的可能会带来更好的性能。因此，进行了几次实验来选择，范围为，，实验结果见下表 5 。当设置为 1.0 时，EAFormer在TextSeg数据集上达到了最佳性能，相比于基线模型，其fgloU/F值分别提高了和。表5的结果表明，当范围在时，对性能的影响较小。然而，如果设置为 0.1 ，则EAFormer的性能不佳，这可能是由于过小的使得文本检测模块难以收敛，从而进一步影响文本分割的性能。因此，在本文中，将设置为 1.0 。

边缘过滤和边缘引导。 在所提出的EAFormer中，文本边缘提取器中的边缘过滤和边缘引导编码器中的边缘引导是两个关键组件。为了评估这两种策略的性能提升效果，进行了消融实验，结果见下表6。请注意，当仅使用边缘过滤时，提取的边缘信息与输入图像拼接后输入到基于SegFormer的编码器中。如表6所示，引入边缘过滤可以显著提升性能。然而，如果仅引入边缘引导，本文的方法性能较差。一个可能的原因是非文本区域的边缘引入了更多的干扰信息，导致模型无法有效利用提取的边缘来辅助文本分割。因此，边缘过滤和边缘引导对本文的方法都是必要的，当两者都被采用时，EAFormer能够实现SOTA性能。

讨论

过滤非文本区域的边缘。 在文本边缘提取器模块中，提出了过滤非文本区域边缘信息的方法，以避免这些信息对模型性能的负面影响。在消融实验部分中，可以得知，过滤非文本区域的边缘信息可以明显提高性能。通过可视化（见补充材料），观察到，当所有边缘信息用于辅助分割时，模型会错误地认为具有边缘信息的区域应该被分类为前景。因此，为了给模型提供明确的边缘引导，所提出的方法仅保留文本区域的边缘信息作为输入。

在不同层引入文本边缘。 在边缘引导编码器中，通过对称交叉注意机制仅在第一阶段提取增强的边缘特征信息。众所周知，低层特征对文本边缘信息更为敏感。在下图6中对不同阶段的特征进行聚类结果的可视化，结果表明只有第一阶段的特征关注边缘信息。因此，在早期阶段引入检测到的边缘是合理且有效的。还尝试在其他阶段引入边缘引导进行实验。实验结果表明，检测到的边缘引入的阶段越高，EAFormer的性能提升越小。特别是，当在第三或第四阶段引入检测到的边缘时，EAFormer的性能甚至低于基线。

利用现成的文本检测器。 在文本边缘提取器中，采用了一个轻量级的文本检测器，包括一个基于ResNet的骨干网络和一个MLP解码器。实际上，可以利用一个在文本检测数据集上预训练的现成文本检测器，这可以帮助EAFormer在实际应用中取得更好的性能。由于这可能对之前的方法不公平，只探讨了EAFormer的性能上限。在实验中，使用预训练的DBNet 替换轻量级文本检测器模块，EAFormer在TextSeg上的性能可以达到新的SOTA水平（fgIoU/F值分别为90.16%和95.2%）。

与之前边缘引导方法的区别。 实际上，将边缘信息融入分割中是一个被广泛探索的策略。然而，本文的方法与之前的工作仍有一些区别。首先，BCANet和 BSNet需要边缘监督，而本文的方法直接使用Canny提取边缘。尽管EGCAN也使用Canny，但本文的方法额外引入了边缘过滤以保留有用的边缘信息，这特别为文本分割设计。此外，EGCAN在所有编码器层中融合边缘信息，而本文的方法通过设计的对称交叉注意机制仅在第一层融合边缘信息。

局限性。 为了过滤非文本区域的边缘，引入了一个轻量级的文本检测器，这可能会略微增加可学习参数的数量。此外，仅利用了现成的边缘检测算法Canny来提取文本边缘，而没有使用更先进的深度学习边缘检测方法。引入SOTA边缘检测方法可能会进一步提高本文方法的性能。

结论

本文提出了边缘感知Transformer（Edge-Aware Transformers），称为EAFormer，以解决文本边缘处文本分割不准确的问题。具体而言，采用传统的边缘检测算法Canny来提取边缘。为了避免涉及非文本区域的边缘，引入了一个轻量级文本检测模块，用于过滤掉无用的边缘，以进行文本分割。此外，基于SegFormer，提出了一个边缘引导编码器，以增强其感知文本边缘的能力。考虑到某些数据集的低质量标注可能影响实验结果的可信度，对这些数据集进行了重新标注。在公开可用的基准测试上进行了广泛的实验，SOTA结果验证了EAFormer在文本分割任务中的有效性。

#SC4D

基于稀疏控制点的单视角视频到4D生成及运动迁移框架

本篇分享论文SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer，华中科技大学、阿里达摩院提出 SC4D: 基于稀疏控制点的单视角视频到 4D 生成及运动迁移框架。

项目主页：https://sc4d.github.io/
代码仓库：https://github.com/JarrentWu1031/SC4D
论文链接：https://arxiv.org/abs/2404.03736

1. 背景

1.1 任务设置

4D生成目标在于生成一个动态的物体或场景，当给定一个时间相关的相机轨迹时，通过对得到的4D目标进行投影可以渲染出相应的动态视频。本文针对的任务为从一个单视角视频中生成对应的动态物体，由于输入是单视角视频，目标物体有大面积不可见区域，保持生成动态物体与参考视频的高对齐度、时空一致性和动作的合理性十分具有挑战。

1.2 相关方法

由于当下真实4D数据的稀缺，直接生成4D物体是非常困难的。得益于近两年2D/3D基础生成模型的发展，通过对2D/3D模型的蒸馏来实现4D生成成为当下主流的方案。Consistent4D[1]，4DGen[2]通过SDS[3]方式对Zero123[4]中的先验知识进行蒸馏，并提出了相应的约束保持时域一致性。

2. 本文方案

2.1 研究动机

本文认为，4D表征对于单动态物体优化过程十分重要。在早前的工作中，Consistent4D[1]和4DGen[2]分别使用动态NeRF和稠密4d高斯作为表征。

然而，由于NeRF的隐式特性，以及稠密高斯运动学习的困难性。上述工作在与参考视频的高对齐度、时空一致性和动作的合理性上难以达到较好的平衡。

受启发于近期的动态场景重建工作SC-GS[5]，本文提出了一种基于稀疏控制点的单视角视频到4D物体的框架SC4D，通过对动作和外观的分离建模，减少了两者在学习过程中的模糊性和冲突。

对于在学习过程中由于控制点和稠密高斯的不对齐导致的形状外观退化问题，本文提出了一种适应性高斯（AG）初始化方法以及高斯对齐（GA）损失，保证了最终4D结果的优越性。

2.2 Video-to-4D生成

51c视觉~合集16_视觉_21