Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

原创

liferecords 2024-05-13 18:09:42 博主文章分类：LLM ©著作权

文章标签 数据集 Text 迭代 文章分类 计算机视觉人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者liferecords的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

相关链接：arXiv 关键字：Hierarchical Text Segmentation、Unified Model、Segment Anything Model

摘要

本文介绍了Hi-SAM，这是一个利用Segment Anything Model (SAM)进行层次化文本分割的统一模型。Hi-SAM在四个层次的文本分割中表现出色，包括笔画、单词、文本行和段落，同时还能实现布局分析。具体来说，首先通过参数高效的微调方法将SAM转换为高质量的文本笔画分割（TSS）模型。使用这个TSS模型以半自动的方式迭代生成HierText数据集中四个文本层次的统一标签。随后，基于这些完整的标签，我们启动了基于TSS架构的端到端可训练的Hi-SAM，它配备了定制的层次掩码解码器。在推理过程中，Hi-SAM提供了自动掩码生成（AMG）模式和可提示分割模式。在AMG模式下，Hi-SAM首先对文本笔画前景掩码进行分割，然后采样前景点以生成层次化文本掩码，并在过程中实现布局分析。至于可提示模式，Hi-SAM只需单击一个点即可提供单词、文本行和段落掩码。实验结果表明，我们的TSS模型达到了最先进的性能：在Total-Text上的fgIOU为84.86%，在TextSeg上的fgIOU为88.96%。此外，与之前在HierText上进行联合层次检测和布局分析的专家相比，Hi-SAM取得了显著进步：在文本行级别上PQ提高了4.73%，F1提高了5.39%，在段落级别布局分析上PQ提高了5.49%，F1提高了7.39%，训练周期减少了20倍。代码可在Hi-SAM上获得。

核心方法

参数高效微调：将SAM转换为TSS模型，通过微调而不是完全重新训练来提高效率。
迭代标签生成：使用TSS模型半自动地生成统一的文本层次标签。
端到端训练：Hi-SAM基于TSS架构，通过定制的层次掩码解码器进行端到端训练。
自动掩码生成（AMG）模式：Hi-SAM首先分割文本笔画前景掩码，然后采样前景点生成层次化文本掩码，并实现布局分析。
可提示分割模式：Hi-SAM允许用户通过单击来提示生成特定单词、文本行和段落的掩码。
性能优化：通过引入全局提示和高分辨率掩码特征，提高了对文本笔画细节的分割质量。

实验说明

实验使用了Total-Text、TextSeg和HierText数据集，评估了Hi-SAM在不同层次的文本分割任务上的性能。使用的主要评价指标包括前景像素的交并比（fgIOU）、全景质量（PQ）、F1分数、精确度（P）、召回率（R）和紧密度（T）。

实验结果数据

数据集/模型	SAM-TSS-B	SAM-TSS-L	SAM-TSS-H
Total-Text fgIOU	-	84.59%	84.86%
TextSeg fgIOU	87.15%	88.77%	88.96%
HierText fgIOU	73.39%	78.37%	79.27%

*表格中的“-”表示该模型未在对应数据集上进行测试。

结论

Hi-SAM通过最少的定制将SAM转变为一个尖端的文本笔画分割模型，SAMTSS。它能够半自动地生成高质量的文本笔画标签，帮助统一HierText中四个文本层次的注释。基于这些进步，我们引入了Hi-SAM——一个用于层次化文本分割的开创性统一模型。它在多个层次上无缝运行，从笔画到段落，同时在不需要任何专用模块的情况下进行布局分析。它在自动掩码生成和交互式可提示分割模式下展示了卓越的性能。广泛的实验结果无疑突出了我们提出的方法与现有代表性方法相比的优越性能。我们希望这项工作能够为实际文本图像中的层次化文本分割铺平道路，并激励该领域的进一步探索。

请注意，表格中的百分比数值是从原文中直接提取的，实际的实验结果可能会有更多的细节和上下文，例如具体的数据集大小、测试条件等。此外，表格中的“-”表示原文中未提供对应的比较数据。

上一篇：Paint by Inpaint: Learning to Add Image Objects by Removing Them First

下一篇：Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Genera

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯