阿里AnyText：多语种图像文字嵌入的突破

原创

努力犯错AI 2024-01-16 08:01:26 ©著作权

©著作权归作者所有：来自51CTO博客作者努力犯错AI的原创作品，请联系作者获取转载授权，否则将追究法律责任

随着Midjourney、Stable Difusion等产品的兴起，文生图像技术迅速发展。然而，在图像中生成或嵌入精准文本一直是一个挑战，尤其是对中文的支持。阿里巴巴的研究人员开发了AnyText，这是一个多语言视觉文字生成与编辑模型，旨在解决这些难题。

阿里AnyText：多语种图像文字嵌入的突破_UI

精准文本生成，AnyText能够在图像中生成或编辑精准文本，其对生成文字的把控可与专业PS相媲美。用户可以自定义规划文字出现的位置，以及图片的强度、力度、种子数等。
多语言支持，AnyText特别强调对中文的支持，同时还支持日文、韩文、英语等多种语言。这使得模型在电商、广告平面设计、电影制作等领域中尤为有用。

阿里AnyText：多语种图像文字嵌入的突破_UI_02

AnyText采用了文本控制的扩散流程，包括辅助潜变量和文本嵌入两个重要模块。辅助潜变量模块用于生成或编辑文本的潜在特征，而文本嵌入模块则利用OCR模型将笔画数据编码为嵌入向量。

阿里AnyText：多语种图像文字嵌入的突破_多语言_03

阿里AnyText：多语种图像文字嵌入的突破_多语言_04

为了克服这些挑战，阿里巴巴的研究团队开发了AnyText模型和AnyWord-3M数据集。

AnyWord-3M数据集，AnyWord-3M是一个包含300万个图像-文本对的数据集，提供了中文、英文、日文、韩文等多种语言的OCR注释。这个数据集中的文本行超过900万行，字符和词汇总量超过2亿，覆盖了广泛的语言类型。
文本控制扩散损失，为了提升图像中嵌入文本的精准度，AnyText采用了文本控制扩散损失，这有助于控制生成的文本在指定位置和样式上的准确性。
文本感知损失，文本感知损失的作用是进一步增强生成文本的准确性，通过比较生成文本的特征表示与真实图像中相应区域的特征表示之间的差异。

阿里AnyText：多语种图像文字嵌入的突破_数据集_05