Towards Flexible Multi-modal Document Models

原创

wx655e00954c933 2023-11-25 22:47:47 博主文章分类：论文 ©著作权

©著作权归作者所有：来自51CTO博客作者wx655e00954c933的原创作品，请联系作者获取转载授权，否则将追究法律责任

矢量图形文档通常指的是使用矢量图形软件创建的图形文件，这些文件以矢量形式存储图像，可以在任意大小下无损放大而不失真。常见的矢量图形文件格式包括SVG（可缩放矢量图形）、AI（Adobe Illustrator文件）、EPS（可扩展的标记语言文件）等

BERT（Bidirectional Encoder Representations from Transformers）是一种自然语言处理模型，由Google团队在2018年提出。它采用了Transformer模型的编码器结构，并使用双向训练来学习上下文相关的词向量表示。BERT模型在多项自然语言处理任务上取得了最先进的效果，例如问答、文本分类和命名实体识别等任务。由于其强大的表现能力和良好的可迁移性，BERT成为了当前最流行的自然语言处理模型之一。

剔除实验（Ablation Study）是一种常见的科学研究方法，用于评估某个系统或模型中各个组成部分的重要性。在剔除实验中，研究者会逐步移除模型的一些组件或功能，并观察其对整体性能的影响。

通过进行剔除实验，研究者可以了解每个组件的贡献程度，确定哪些部分对模型的性能至关重要，以及哪些部分的影响相对较小。

剔除实验通常用于深度学习模型和机器学习模型的研究中，以评估不同的模型架构、损失函数、特征工程等方面的影响。通过逐渐剔除组件并对比实验结果，研究者可以得出结论，指导模型的改进和优化。

剔除实验是一种有力的工具，帮助研究者理解模型的工作原理和关键因素，从而更好地设计和优化模型，提升其性能和效果。

4 实验部分

4.1 数据集

我们主要使用两个包含矢量图形文档的数据集Rico[7]和Crello[52]来评估FlexDM。我们基本上遵循[52]中使用的设置。由于内存限制，我们将丢弃包含超过50个元素的文档。位置、大小和颜色信息被离散化，以增强多个元素的隐式对齐。我们描述了每个数据集的概述。Rico[7]:数据集收集来自移动应用程序的UI设计。我们遵循之前的作品[27,30]，排除了标签不在最常见的13个标签中的元素。我们将数据集分为45,012 / 5,565 / 5,674个样本，用于训练、验证和测试分割。Crello[52]:该数据集提供了来自在线设计服务的设计模板。Crello包含各种设计格式，如社交媒体帖子，横幅广告，博客标题或印刷海报。我们将数据集分为18,738 / 2,313 / 2,271个样本，用于训练，验证和测试分割。各属性的定义请参考原文[52]。对于图像和文本特征，我们使用CLIP提取768维特征[41]。我们还额外提取分类字体信息(称为字体)。我们根据属性将属性分成若干组。TYPE表示类型属性。POS表示位置和大小属性。IMG表示图像属性。TXT表示文本属性。ATTR表示上面没有列出的属性，这些属性对细粒度的外观有很大的影响。

4.2 任务

我们仔细选择任务来评估我们的模型在各种设计任务中的表现。我们选择这样的评估任务:(i)它们是实用的，(ii)它们具有各种输入/输出模式的组合，以及(iii)掩蔽比是适度的。我们施加掩蔽比要求是因为极端的掩蔽比使得任务太困难或琐碎而无法解决，并且使基线比较不可能。元素填充(ELEM):这个任务是预测一个可以增强文档的新元素。在训练和评估期间，我们屏蔽了完整文档中单个元素的所有属性。属性预测:这项任务是立即预测文档中缺失的属性，这是非常具有挑战性的。在训练和评估过程中，我们对一个完整的文档应用属性屏蔽，使其成为被屏蔽的输入。我们选择一个4.1节中讨论的属性组，并对该组中的所有属性应用属性屏蔽。我们将每个组级预测任务视为一个单独的任务。注意，我们不考虑TYPE预测，因为它太琐碎和不现实。因此，Rico和Crello分别有两个(POS和ATTR)和四个(POS、ATTR、IMG和TXT)属性预测任务。

4.3. 评价指标

对于每个任务，我们定量评估重建性能。每个文档的得分S计算方法如下:

Towards Flexible Multi-modal Document Models_DM

其中，s k∈[0,1]是第k个属性的评分函数。如果属性是分类的，则s k是一个指示函数，当x * k i和x * k i相同时取1，否则取0。对于图像和文本特征是我们实验中唯一的数值属性，我们使用[0,1]尺度的余弦相似度。

4.4. 训练细节

我们在编码器、Transformer块和解码器中使用256维潜在表示。对于Transformer块，我们使用DeepSVG[5]中的一个。我们对所有的dropout层应用0.1的dropout概率。

在所有实验中，我们以256个序列的批处理大小训练模型500次。我们使用学习率为1e-4的Adam， β1 = 0.9， β2 = 0.99, L2权衰减为1e-2。在Rico的实验中，我们让FlexDM将位置嵌入作为额外的输入，因为否则模型将无法区分具有完全相似属性集的元素，这在POS预测中经常发生

4.5. 定量评价

我们基于我们提出的框架测试了三个模型，以阐明显性多任务学习和预训练的贡献。

Ours-IMP:与BERT[9]等标准掩码语言建模一样，我们在训练期间随机掩码15%的字段。由于这种随机训练被称为内隐多任务学习[42]，我们称之为our - imp。

Ours-EXP:通过对每个任务对应的掩蔽模式进行采样，在单个模型中显式地联合训练所有任务。为简单起见，第4.2节中介绍的T个任务在一个mini-batch中均匀采样。

Ours-EXP-FT:这是我们的整个模型。我们使用在IMP上训练的模型权值，并对模型进行微调。其余的训练与our - exp相同。

我们将这些模型与以下基线进行比较，其中一些是从现有的特定于任务的模型中改编而来的，以最小的修改适应我们的多任务、多属性和任意屏蔽设置。

专家:我们针对每个任务单独训练网络。

注意，这个变体中使用的参数数量比我们的模型大T倍。

Towards Flexible Multi-modal Document Models_数据集_02

表1。两个数据集的定量评价。分数越高，表现越好。前两个结果分别以粗体和下划线突出显示。LGAN++是LayoutGAN++的缩写。

Towards Flexible Multi-modal Document Models_数据集_03

图4。使用Rico数据集填充元素的结果。红色虚线框表示要预测的目标元素

Most-frequent::我们计算训练数据集的统计信息。对于分类属性，我们计算出现次数并选择最频繁的类别。对于数字属性，我们计算平均值，因为我们使用的数字属性仅是图像和文本特征。

BERT[9]:我们将所有字段转换为单个序列，并用Transformer块处理它们。这将评估3.3节中讨论的逐元素嵌入的效果。

BART [28]: BART采用基于编码器-解码器的序列到序列模型，通过掩码语言建模对文本生成模型进行预训练。我们用BART的模块替换Transformer模块。

CVAE[21,27]:最近用于条件布局生成的方法，如LayoutVAE[21]和NDN[27]以自回归的方式使用条件VAE[45]。我们用[21,27]中使用的CVAE变体替换了Transformer块和解码器部分，并以逐个元素的方式预测字段。请注意，除了CVAE模块之外，完整版本的NDN还包含关系预测和布局优化模块。由于其具体的方法，我们省略了完整的NDN管道评估。

CanvasVAE [52]: CanvasVAE用于无条件生成。虽然直接比较是不可能的，但我们使CanvasVAE适应我们的设置，类似于其他基线。

表1总结了所有模型的性能。

我们的完整模型(Our - exp - ft)几乎与Expert模型相当，同时在参数数量上更有效。我们的imp表现出中等的性能，从而为我们的sexp - ft中的微调提供了更好的初始权重。我们可以看到，与our - exp相比，大多数比较基线的表现明显更差。结果表明，在具有挑战性的环境中，应用现有的Transformer模型进行序列建模或条件布局生成模型是不够的。Rico中的pos预测是例外情况，其中大多数方法都失败了，因为与文献[24]中的基准设置相比，元素数量更多(最多9个)。

4.7. 剔除实验

在本节中，我们在Crello数据集中进行了几个剔除实验，如表2所示。我们证明了我们的设计选择对FlexDM的最终性能有重要的影响。

特定于任务的嵌入:先前关于在单个Transformer中统一多个任务的工作[17]使用特定于任务的小型可学习查询嵌入来显式地提供当前任务的信息。我们将查询作为henc 0附加在henc = {henc 1, henc 2，…，即S}，并训练模型。结果表明，嵌入的好处是边际的。我们推测该模型隐式地从我们的设置中的屏蔽输入中捕获任务信息。

注意:本文通过训练无自注意的模型，研究了自注意对元素间关系建模的重要性。我们将层数增加到8层，以大致匹配our - exp的参数总数。正如预期的那样，结果清楚地表明了对元素间关系建模的重要性。

附加损失:我们在Eq.(4)中的目标函数只考虑重构。有人可能会认为，将LayoutGAN++[24]中使用的对抗性损失纳入其中可以改进模型。虽然我们尽了最大的努力来执行和调整额外的对抗损失，但我们并没有发现对抗训练有明显的好处。

Towards Flexible Multi-modal Document Models_数据集_04

图5。FlexDM的预测(在Crello上训练的our - exp - ft)。FlexDM通过一个基于transformer的模型共同处理各种各样的设计任务。在ATTR/TXT/IMG预测的输入中，分配[MASK]的目标字段使用固定的默认值(即，黑色为文本颜色，灰色为图像和固体填充，' text '为文本)进行可视化。在POS预测中，我们还显示了元素的布局。元素的颜色和类型之间的对应关系如下:绿色=矢量形状，品红=图像，紫色=文本，黄色=实体填充。最好用变焦和彩色观看。

表2。Crello数据集的剔除研究结果。前两个结果分别以粗体和下划线突出显示。

Towards Flexible Multi-modal Document Models_数据集_05

4.8. 与特定任务基线的比较

在本节中，我们将展示数据驱动的屏蔽字段预测模型可以匹配甚至超越特定于任务的方法。我们在两个任务中执行实验:1)单个文本样式和2)单个文本框放置。由于每个任务使用部分重叠的属性集，我们为每个单个任务训练模型以进行公平比较。请注意，我们无法将其与2.3节中讨论的上下文图像填充[47]进行比较，因为它们的任务设置仅从训练期间使用的预定义集合中检索图像。

4.8.1单一文本样式

Zhao等人[56]提出了一种基于mlp的模型来预测单个文本框所需的字体属性(即字体emb)。(颜色和大小)，在网页设计中给定的上下文。我们认为每个设计都是一个包含一个文本和两个图像元素的文档，并将所有上下文信息视为元素中的属性，以便我们可以直接应用FlexDM。

我们实现Zhao等人[56]，有以下细微的区别，因为代码不是公开的。我们将颜色和大小分别量化为16个和64个箱子。我们没有使用外部数据集应用数据增强，因为用于增强的数据集不可用。我们在表3中显示了结果。度量标准是字体颜色和大小的准确性，以及字体类型的余弦相似度，后者由低维嵌入表示。我们可以清楚地看到，我们的模型与特定于任务的模型是相当的。

4.8.2单个文本框的放置

Li等[29]提出在给定文本框的自然图像和长宽比的情况下预测单个文本框的大小和位置。我们在Crello数据集中进行比较，因为用于他们的模型训练和评估的数据集是不可公开的。我们根据交联(IoU)和边界位移误差(BDE)来评估性能[29]。如表4上半部分所示，我们的模型明显优于Li等[29]的模型。为了衡量多模态特征对预测的贡献，我们排除它们中的每一个并训练模型。表4下半部分的结果表明，这些特征有助于提高性能。部分结果如图6所示

图6。单文本框放置与SmartText+的定性比较[29]。最好用变焦和彩色观看。

Towards Flexible Multi-modal Document Models_DM_06

表3。CTXFont数据集字体属性预测模型比较[56]。报告了三次运行的平均值和标准差。这些值乘以100倍以获得可见性。

表4。Crello数据集中单个文本框放置模型的定量评价。样本分为两组:没有其他文本框可用(Single)和一些文本框可用作为上下文(Multiple)。

Towards Flexible Multi-modal Document Models_数据集_07

5：限制与讨论

随着图像和文本生成质量的惊人提高，人们可能希望直接生成图像和文本。然而，基于检索的生成仍然是一种实用的选择。例如，由于客户的要求，设计师经常需要使用私人收藏或公共图片库服务(如Adobe stock或Shutterstock)中的图像。

此外，由于人工智能生成图像的法律和伦理问题存在争议，一些人避免使用生成的图像或文本。

我们的模型不支持不能作为遮罩字段预测框架的设计任务。我们不考虑无条件生成;例如，生成不需要输入的完整文档。将FlexDM扩展到无条件场景需要我们应用生成公式而不是bert风格的掩模建模，我们将这种公式留给未来的工作。然而，我们相信我们的模型很好地适用于存在初始设计材料的通用应用程序场景。

当输入文档有更多的元素时，模型的性能会下降。更大的模型或数据集是否能缓解这个问题值得研究。开发其他评估指标将有助于进一步的分析，因为当前的指标只是评估重建性能。在条件生成中，输入上下文可能对应于多个可能的输出，特别是当输入上下文是稀疏的(例如，标签集)时。对布局生成模型中的可变性进行建模[18,21,24]将是一个令人兴奋的方向。