1 迈向灵活的多模态文档模型

原创

wx655e00954c933 2023-11-27 10:24:10 博主文章分类：论文 ©著作权

文章标签 字段 DM 数据集 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者wx655e00954c933的原创作品，请联系作者获取转载授权，否则将追究法律责任

写作思路

引言部分：介绍了矢量图形文档的重要性和设计任务的复杂性，提出了构建灵活的多模态文档模型的目标，并概述了论文的主要贡献。
相关工作：回顾了与设计任务相关的研究工作，包括布局生成、字体推荐和着色等方面的研究。
方法部分：详细介绍了FlexDM模型的架构和训练策略。描述了如何将设计任务转化为掩码多模态字段预测问题，并介绍了模型的预训练和显式多任务学习过程。
实验部分：描述了使用Rico和Crello数据集进行的实验设置。介绍了数据集的预处理方法和任务选择策略，并详细说明了评估指标和训练细节。
实验结果：展示了FlexDM在不同设计任务上的性能表现，并与基线模型进行了比较。通过定量评估和定性分析，验证了FlexDM的有效性和灵活性。
讨论和分析：对实验结果进行讨论和分析，探讨了不同建模方法对任务性能的影响，并提出了未来的研究方向和改进空间。
结论部分：总结了论文的主要贡献，并强调了FlexDM模型在多模态文档设计任务中的潜力和应用前景。
参考文献：列出了论文中引用的相关文献。

1 迈向灵活的多模态文档模型_数据集

1 迈向灵活的多模态文档模型_字段_02

FlexDM模型框架的详细结构如下：

模型输入：完整的矢量图形文档，包括元素的位置、大小、颜色等属性信息。
模型结构：FlexDM采用Transformer-based模型结构，其中包含编码器、Transformer块和解码器。
隐变量表示：模型使用256维的隐变量表示，用于编码和解码文档信息。
任务设置：模型针对不同的设计任务进行训练和评估，包括元素填充和属性预测等任务。
训练细节：模型使用Adam优化器进行训练，批大小为256，学习率为1e-4，使用了位置嵌入来区分具有相似属性的元素。
评估指标：模型的性能通过计算重建得分来进行量化评估，其中包括属性的准确性和图像/文本特征的相似度等指标。

总体而言，FlexDM模型框架是一个基于Transformer的模型，用于处理矢量图形文档中的设计任务，并通过隐变量表示和任务设置来实现元素填充和属性预测等功能。

论文将模型与以下几个模型进行了对比：

Most-frequent：这是一种基于训练数据集统计的方法，对于分类属性，选择出现频率最高的类别，对于数值属性，计算平均值。
BERT [9]：将所有字段转换为单个序列，并使用Transformer块进行处理。
BART [28]：BART使用基于编码器-解码器的序列到序列模型进行预训练的文本生成模型。
CV AE [21, 27]：这是一种基于自动编码器的图像生成模型。
CanvasV AE [52]：这是一种基于自动编码器的图像生成模型，用于设计模板生成。
Ours-IMP：在训练过程中随机屏蔽15%的字段，进行隐式多任务学习。
Ours-EXP：通过对每个任务采样相应的屏蔽模式，将所有任务在单个模型中进行显式联合训练。
Ours-EXP-FT：在Ours-EXP的基础上，使用在Ours-IMP上训练的模型权重进行微调。

这些模型在两个数据集上进行了定量评估，并使用了不同的评估指标进行比较。

摘要

用于生成图形文档的创造性工作流程涉及复杂的相互关联的任务，例如对齐元素、选择适当的字体或使用美观和谐的颜色。在这项工作中，我们试图建立一个整体模型，可以共同解决许多不同的设计任务。我们用FlexDM表示的模型将矢量图形文档视为一组多模态元素，并使用统一的体系结构学习预测屏蔽字段，如元素类型、位置、样式属性、图像或文本。通过使用显式多任务学习和域内预训练，我们的模型可以更好地捕获不同文档字段之间的多模态关系。实验结果证实，我们的单一FlexDM能够成功地解决多种不同的设计任务，同时实现与特定任务和昂贵的基线相竞争的性能。

1 介绍

矢量图形文档由文本或图像等多种多模态元素组成，是当今视觉传达的主要媒介。图形文档是通过许多不同的设计任务创建的，例如，填充背景图像、更改字体和颜色、添加装饰或对齐文本。

当熟练的设计师根据他们的设计知识和专业知识执行任务时，新手设计师往往很难做出决定，以创建有效的视觉呈现。为了帮助这些新手设计师，已经提出了基于从已完成的设计中学习设计知识的模型的交互式框架[12,38]。

我们目前的工作提出了可以在这样的系统中使用的模型，特别侧重于开发可以在设计任务之间灵活切换的整体模型。

设计任务的特点是:1)种类繁多1 .代码和模型见:

可能的行动和2)多模态元素之间复杂的相互作用。如上所述，设计人员几乎可以对矢量图形文档的外观进行任何编辑，从基本布局到细微的字体样式。虽然已经有一些研究解决了单一模态的特定任务，如布局生成[3,13,23,26,30]，字体推荐[56]或着色[22,40,54]，但在现实的设计应用中，我们认为有必要建立一个灵活的模型，能够以有原则的方式考虑多个设计任务，从而在创造性工作流程中做出自动化决策。

在这项工作中，我们将元素的某个属性作为一个字段，并将各种设计任务制定为统一的屏蔽字段预测，这是受到最近的屏蔽自编码器[9,15]和多任务模型[19,36]的启发。

关键思想是利用掩蔽模式在单个模型内的不同设计任务之间切换;例如，元素填充可以表示为预测新添加元素的所有字段。我们灵活的文档模型，用FlexDM表示，由一个编码器-解码器架构和一个多模态头部组成，用于处理可视元素中的不同字段。在使用随机掩蔽策略进行预训练后，我们通过显式多任务学习训练FlexDM，其中我们以与目标设计任务相对应的掩蔽模式的形式随机采样任务。

我们在图1和图2中展示了FlexDM的概述，重点是设计任务和掩蔽模式之间的对应关系

通过我们精心设计的实验，我们表明，使用Rico[7]和Crello[52]数据集，我们提出的FlexDM在五个设计任务的基线上表现良好。我们还研究了不同的建模方法如何影响消融研究中的最终任务性能。最后，我们以最小的修改将我们的框架应用于先前研究的几个设计任务，并表明性能匹配甚至超过当前特定任务的方法。

我们的贡献可以概括如下。

•我们在一组视觉元素中通过屏蔽多模态场预测为矢量图形文档制定了多个设计任务。

•我们建立了一个灵活的模型，通过多任务学习在一个基于transformer的模型中共同解决各种设计任务。

•我们的经验证明，我们的模型构成了各种设计任务的强大基线。

1 迈向灵活的多模态文档模型_字段_03

图1所示。我们提出的FlexDM模型可以解决的设计任务示例，该模型旨在处理由任意数量的元素(例如，文本)组成的矢量图形文档。每个元素都由多模态字段组成，这些字段表示其属性属性(例如，文本内容、位置、字体颜色等)。

2 相关工作

2.1. 矢量图形生成

人们对矢量图形越来越感兴趣，以实现易于解释和编辑的无分辨率/无伪影渲染，例如可缩放矢量图形(SVG)[8]。

以矢量格式对文档建模比笔画或路径级别的矢量图形要复杂得多[5,14,35]，因为每个元素都包含多模态特征，如文本和图像。CanvasVAE[52]解决了文档级无条件生成矢量图形的问题，但它不是一个多任务模型，不能解决元素填充等特定的设计任务。Doc2PPT[11]在给定更长更详细的多模态文档的情况下生成幻灯片，但它是一个总结任务，不能推断不完整文档中缺少什么。

获取从多模态大规模数据中学习到的下游任务的可转移表示是一个越来越流行的问题。最接近我们设置的领域是文档理解[32,49 - 51]和UI理解[4,16]，其中数据由具有多模态属性的元素组成。

尽管具有可泛化的表示，但所有方法都对每个下游任务(主要是分类)微调不同的参数。相反，我们的目标是在单个模型中解决设计创建的许多基本任务。

2.2. 多任务学习

多任务学习(Multi-task learning, MTL)[2,6,10]旨在同时解决不同的任务，并在这些任务之间共享信息和计算，这对部署至关重要。

MTL方法通过(i)在共享主干顶部的多个轻量级头[25,55]和(ii)有效使用特定于任务的参数[33,43,44]，实现了性能和计算成本之间的良好权衡。相反，我们的模型从输入字段的掩蔽模式中获得任务信息，我们的经验表明，额外的特定于任务的参数是不必要的。

训练一个泛化到许多不同任务的单一模型一直是一个长期的目标。12-in-1[37]和UniT[17]处理视觉和语言领域的多个任务，任务特定参数较小。以更统一的方式，percepver[20]和percepver IO[19]将不同的模式视为相同的数据格式，OFA[48]和unified -IO[36]在序列到序列框架中考虑类似的尝试，导致单一模型或架构没有特定于任务的调优。这些作品给了我们很大的启发，我们开始探索如何统一矢量图形文档领域的设计任务

2.3. 图形设计的计算辅助

自动图形设计有着悠久的历史[1,34,53]。最近的方法依赖于基于学习的公式，其中主要的重点是预测给定标签集的布局[21,30]或以无条件的方式[3,13]，并避免了早期工作中看到的能量函数的手动设计[39]。一些作品还采用位置/关系约束[24,27,31]或文本描述[57]来进行更精细的设计控制，但不适用于更复杂的场景。相比之下，我们的多任务方法解决了许多条件任务，这要归功于输入和目标中灵活的多模态字段。

考虑多模态特征是必不可少的，超越了智能图形设计辅助的布局生成。Wang等[47]从每个元素的布局信息和关键词中检索图像，通过强化学习获得视觉上令人愉悦的视觉设计。Zhao等[56]通过考虑元数据的背景图像来预测网页上文本的字体属性。Li等人[29]考虑显著性，预测背景图像上单个文本框的位置和大小。我们证明，我们可以应用我们的灵活模型来解决这些任务，几乎不需要修改，并且我们的模型与特定于任务的良好调优方法相比表现良好。

3.方法

我们首先在3.1节中描述矢量图形文档的正式定义和符号。然后，我们在第3.2节和第3.3节中介绍了掩模场预测的思想和模型。最后，我们将在3.4节中描述如何训练FlexDM。

3.1. 初步

1 迈向灵活的多模态文档模型_数据集_04

图2。上图:由五个元素组成的矢量图形文档的示例。该数组用于说明文档的数据结构。每一列对应一个视觉元素。每行对应于组成元素的一个属性或一组属性。下图:设计任务和掩模模式之间的对应关系，用于掩模场预测

文档结构:在这个作品中，一个矢量图形文档X由一组元素X = (X1, X2，…)组成。每个字段x k i可以是分类变量或数值变量，例如元素类型、位置、文本内容或图像嵌入。为了便于解释，我们用2d阵列来说明X，如图2顶部所示。注意，数组中的顺序无关紧要，因为X是集合的集合。由于在优化过程中处理高维数据(如原始图像和文本)是计算密集型的，因此我们使用预训练模型从这些数据中提取x k i的低维数值向量。

特殊标记:与掩码语言模型[9]类似，我们使用一些特殊标记来表示x k i。

[NULL]:当x k i不可避免地缺失时出现(例如，图像元素的字体类型)，或者在训练的小批量中填充可变长度序列。

[MASK]:当x k i被屏蔽用于预测时出现

3.2. 掩模场预测

给定一个包含[MASK]作为上下文的不完整文档X，我们的目标是预测所有用[MASK]填充的字段的值，并生成一个完整的文档X。

我们将这个问题称为掩模场预测，其中模型必须考虑到掩模场之间不同的多模态关系来预测掩模场。虽然掩蔽方法类似于掩蔽语言模型[9]，但有一个关键的区别在于，我们处理的是一组无顺序的多模态项目(即文档X)。因此，我们设计的架构是:1)有效地捕获矢量图形属性的域间关系，2)确保模型在没有通常用于建模有序序列的位置编码的情况下工作。

3.3. FlexDM架构

1 迈向灵活的多模态文档模型_数据集_05

图3。FlexDM的架构。E、T和D分别是编码器、变压器块和解码器的缩写。

如图3所示，我们的架构由三个模块组成;编码器，变压器块和解码器。给定一个文档，我们首先使用编码器将一组部分掩码字段(例如，位置或字体)投影到嵌入中，然后将输出提供给中间Transformer块。最后的解码器接收变换后的嵌入并将其投影回原始域空间。

Transformer只阻塞处理S个嵌入，当有N个属性时，与直接使用现成Transformer[46]处理S×N字段的体系结构相比，这是有效的。下面，让我们用θ表示所有的模型参数。

编码器:编码器接受文档输入X并将其嵌入到henc = {henc 1, henc 2，…，hencS}具有元素操作。编码器首先将每个字段x k i映射为一个固定维度的向量，带有fenc,k，然后将元素中的所有字段相加，生成第i个元素的潜在向量:

1 迈向灵活的多模态文档模型_DM_06

其中，k是一个嵌入函数，当x k I是一个分类变量时，它为每个类别id检索可学习的密集嵌入，或者当x k I是一个数值变量时，它是一个简单的线性投影层。我们以与分类变量相同的方式处理特殊令牌(即，[NULL]和[MASK])

1 迈向灵活的多模态文档模型_数据集_07

变压器块:变压器块将hdec作为输入，并将其转换为hdec = {h dec 1, hdec 2，…， hdec S}。我们堆叠这些中间块来处理复杂的元素间关系。我们的模型可以堆叠任何现成的Transformer层来构建trans模块:

1 迈向灵活的多模态文档模型_DM_08

解码器:最终的解码器接受hdec并将它们解码回文档。， x_x)，其中x_x = {x_k i | k∈E}。对于分类变量和数值变量，我们通过线性层f dec,k来计算每个x * k i:

1 迈向灵活的多模态文档模型_字段_09

损失:我们使用重建损失来训练我们的模型。让我们用X *表示不完整文档X的真值，同时用M表示一组元组，表示X中[MASK]令牌的索引。损失函数定义为:其中lk是第k个属性的损失函数。对于每个l k，我们对分类变量使用softmax交叉熵损失，对数值变量使用均方误差。

1 迈向灵活的多模态文档模型_字段_10

3.4. FlexDM训练

屏蔽域预测允许我们通过改变屏蔽模式来表示具有不同输入/输出格式的不同设计任务。这种模式既可以是确定性的，也可以是随机的。图2的底部说明了示例任务和相应的屏蔽模式。虽然我们可以用掩码域预测制定任意任务，但我们考虑了代表性设计任务的几个子集，以便在第4节中进行评估和分析。

我们在下面描述典型的掩蔽模式。

请注意，已经用[NULL]填充的字段将永远不会优先于屏蔽操作被替换。元素屏蔽随机选择元素并屏蔽元素内的所有字段;也就是说，我们可以通过单元素掩蔽来制定元素填充任务。属性屏蔽随机选择属性并屏蔽所有元素的字段;例如，所有元素的屏蔽位置和大小变成了布局预测，屏蔽字体变成了字体预测。随机屏蔽策略在不考虑数据结构的情况下，以一定概率对字段进行屏蔽，类似于BERT[9]。

预训练:为了学习初始模型，我们采用了一种普通随机掩蔽的预训练，类似于BERT的预训练策略[9]。一个区别是，我们的预训练发生在相同的域内数据集中，而不像通常的设置，模型在不同领域的更大数据集中进行预训练，然后在目标数据集中对目标任务进行微调。我们在第4节中表明，这种域内预训练适度地提高了最终的任务性能。

明确的多任务学习:上面的随机掩蔽预训练是任何任务的坚实基线。Radford等人[42]假设，这种隐式多任务训练导致大型语言模型具有惊人的强零射击性能。然而，随着属性和元素数量的增加，随机掩蔽策略实际上以极低的概率产生任何任务。相反，我们采用显式屏蔽策略来最大化所有目标任务的性能。在训练过程中，我们从目标任务中随机抽取一个任务，抽取一个完整的文档X *，并使用与该任务相关的掩蔽模式生成三元组(X, X *， M)。当训练FlexDM时，我们重复这个过程来构建每个小批。

4 实验

4.1. 数据集

我们主要使用两个包含矢量图形文档的数据集Rico[7]和Crello[52]来评估FlexDM。

我们基本上遵循[52]中使用的设置。由于内存限制，我们将丢弃包含超过50个元素的文档。位置、大小和颜色信息被离散化，以增强多个元素的隐式对齐。我们描述了每个数据集的概述。

Rico[7]:数据集收集来自移动应用程序的UI设计。

我们遵循之前的作品[27,30]，排除了标签不在最常见的13个标签中的元素。我们将数据集分为45,012 / 5,565 / 5,674个样本，用于训练、验证和测试分割。

Crello[52]:该数据集提供了来自在线设计服务的设计模板。Crello包含各种设计格式，如社交媒体帖子，横幅广告，博客标题或印刷海报。我们将数据集分为18,738 / 2,313 / 2,271个样本，用于训练，验证和测试分割。

各属性的定义请参考原文[52]。对于图像和文本特征，我们使用CLIP提取768维特征[41]。我们还额外提取分类字体信息(称为字体)。

我们根据属性将属性分成若干组。TYPE表示类型属性。POS表示位置和大小属性。IMG表示图像属性。TXT表示文本属性。ATTR表示上面没有列出的属性，这些属性对细粒度的外观有很大的影响。

4.2. 任务

我们仔细选择任务来评估我们的模型在各种设计任务中的表现。我们选择这样的评估任务:(i)它们是实用的，(ii)它们具有各种输入/输出模式的组合，以及(iii)掩蔽比是适度的。我们施加掩蔽比要求是因为极端的掩蔽比使得任务太困难或琐碎而无法解决，并且使基线比较不可能。

元素填充(ELEM):这个任务是预测一个可以增强文档的新元素。在训练和评估期间，我们屏蔽了完整文档中单个元素的所有属性。

属性预测:这项任务是立即预测文档中缺失的属性，这是非常具有挑战性的。在训练和评估过程中，我们对一个完整的文档应用属性屏蔽，使其成为被屏蔽的输入。

我们选择一个4.1节中讨论的属性组，并对该组中的所有属性应用属性屏蔽。我们将每个组级预测任务视为一个单独的任务。注意，我们不考虑TYPE预测，因为它太琐碎和不现实。因此，Rico和Crello分别有两个(POS和ATTR)和四个(POS、ATTR、IMG和TXT)属性预测任务。

4.3. 评价指标

对于每个任务，我们定量评估重建性能。每个文档的得分S计算方法如下:

其中，s k∈[0,1]是第k个属性的评分函数。如果属性是分类的，则s k是一个指示函数，当x * k i和x * k i相同时取1，否则取0。对于图像和文本特征是我们实验中唯一的数值属性，我们使用[0,1]尺度的余弦相似度。

1 迈向灵活的多模态文档模型_数据集_11

4.4. 训练细节

我们在编码器、Transformer块和解码器中使用256维潜在表示。对于Transformer块，我们使用DeepSVG[5]中的一个。我们对所有的dropout层应用0.1的dropout概率。

在所有实验中，我们以256个序列的批处理大小训练模型500次。我们使用学习率为1e-4的Adam， β1 = 0.9， β2 = 0.99, L2权衰减为1e-2。在Rico的实验中，我们让FlexDM将位置嵌入作为额外的输入，因为否则模型将无法区分具有完全相似属性集的元素，这在POS预测中经常发生。

4.5. 定量评价

我们基于我们提出的框架测试了三个模型，以阐明显性多任务学习和预训练的贡献。

ours- imp:与BERT[9]等标准掩码语言建模一样，我们在训练期间随机掩码15%的字段。由于这种随机训练被称为内隐多任务学习[42]，我们称之为our - imp。

ours- exp:通过对每个任务对应的掩蔽模式进行采样，在单个模型中显式地联合训练所有任务。为简单起见，第4.2节中介绍的T个任务在一个mini-batch中均匀采样。

ours-exp-ft:这是我们的整个模型。我们使用在IMP上训练的模型权值，并对模型进行微调。其余的训练与our - exp相同。

我们将这些模型与以下基线进行比较，其中一些是从现有的特定于任务的模型中改编而来的，以最小的修改适应我们的多任务、多属性和任意屏蔽设置。

expert:我们针对每个任务单独训练网络。

注意，这个变体中使用的参数数量比我们的模型大T倍。

表1。两个数据集的定量评价。分数越高，表现越好。前两个结果分别以粗体和下划线突出显示。LGAN++是LayoutGAN++的缩写。

1 迈向灵活的多模态文档模型_字段_12

Most-frequent:我们计算训练数据集的统计信息。对于分类属性，我们计算出现次数并选择最频繁的类别。对于数字属性，我们计算平均值，因为我们使用的数字属性仅是图像和文本特征。

BERT[9]:我们将所有字段转换为单个序列，并用Transformer块处理它们。这将评估3.3节中讨论的逐元素嵌入的效果。

BART [28]: BART采用基于编码器-解码器的序列到序列模型，通过掩码语言建模对文本生成模型进行预训练。我们用BART的模块替换Transformer模块。

CVAE[21,27]:最近用于条件布局生成的方法，如LayoutVAE[21]和NDN[27]以自回归的方式使用条件VAE[45]。我们用[21,27]中使用的CVAE变体替换了Transformer块和解码器部分，并以逐个元素的方式预测字段。请注意，除了CVAE模块之外，完整版本的NDN还包含关系预测和布局优化模块。由于其具体的方法，我们省略了完整的NDN管道评估。

CanvasVAE [52]: CanvasVAE用于无条件生成。虽然直接比较是不可能的，但我们使CanvasVAE适应我们的设置，类似于其他基线。

表1总结了所有模型的性能。

我们的完整模型(Our - exp - ft)几乎与Expert模型相当，同时在参数数量上更有效。我们的imp表现出中等的性能，从而为我们的sexp - ft中的微调提供了更好的初始权重。我们可以看到，与our - exp相比，大多数比较基线的表现明显更差。结果表明，在具有挑战性的环境中，应用现有的Transformer模型进行序列建模或条件布局生成模型是不够的。Rico中的pos预测是例外情况，其中大多数方法都失败了，因为与文献[24]中的基准设置相比，元素数量更多(最多9个)。

4.6. 定性评价

1 迈向灵活的多模态文档模型_字段_13

图4。使用Rico数据集填充元素的结果。红色虚线框表示要预测的目标元素。

我们在图4中展示了元素填充任务中Rico数据集的完整FlexDM (our - exp - ft)的预测质量。对于Rico，我们显示了一个指示位置和类型信息的彩色地图。在图5中，我们展示了我们的完整FlexDM (our - exp - ft)对所有目标设计任务的预测。为了可视化预测的低维图像和文本特征，我们根据CanvasVAE[52]，使用测试子集中的资产进行最近邻搜索来检索实际图像和文本。

1 迈向灵活的多模态文档模型_数据集_14

图5。FlexDM的预测(在Crello上训练的our - exp - ft)。FlexDM通过一个基于transformer的模型共同处理各种各样的设计任务。在ATTR/TXT/IMG预测的输入中，分配[MASK]的目标字段使用固定的默认值(即，黑色为文本颜色，灰色为图像和固体填充，' text '为文本)进行可视化。在POS预测中，我们还显示了元素的布局。元素的颜色和类型之间的对应关系如下:绿色=矢量形状，品红=图像，紫色=文本，黄色=实体填充。最好用变焦和彩色观看。

4.7. 切除实验

在本节中，我们在Crello数据集中进行了几个切除实验，如表2所示。我们证明了我们的设计选择对FlexDM的最终性能有重要的影响。

表2。Crello数据集的消融研究结果。前两个结果分别以粗体和下划线突出显示

1 迈向灵活的多模态文档模型_字段_15

特定于任务的嵌入:先前关于在单个Transformer中统一多个任务的工作[17]使用特定于任务的小型可学习查询嵌入来显式地提供当前任务的信息。我们将查询作为henc 0附加在henc = {henc 1, henc 2，…，即S}，并训练模型。结果表明，嵌入的好处是边际的。我们推测该模型隐式地从我们的设置中的屏蔽输入中捕获任务信息。

1 迈向灵活的多模态文档模型_DM_16

注意:本文通过训练无自注意的模型，研究了自注意对元素间关系建模的重要性。我们将层数增加到8层，以大致匹配our - exp的参数总数。正如预期的那样，结果清楚地表明了对元素间关系建模的重要性。

附加损失:我们在Eq.(4)中的目标函数只考虑重构。有人可能会认为，将LayoutGAN++[24]中使用的对抗性损失纳入其中可以改进模型。虽然我们尽了最大的努力来执行和调整额外的对抗损失，但我们并没有发现对抗训练有明显的好处。

4.8. 与特定任务基线的比较

在本节中，我们将展示数据驱动的屏蔽字段预测模型可以匹配甚至超越特定于任务的方法。我们在两个任务中执行实验:1)单个文本样式和2)单个文本框放置。由于每个任务使用部分重叠的属性集，我们为每个单个任务训练模型以进行公平比较。请注意，我们无法将其与2.3节中讨论的上下文图像填充[47]进行比较，因为它们的任务设置仅从训练期间使用的预定义集合中检索图像。

4.8.1单一文本样式

Zhao等人[56]提出了一种基于mlp的模型来预测单个文本框所需的字体属性(即字体emb)。(颜色和大小)，在网页设计中给定的上下文。我们认为每个设计都是一个包含一个文本和两个图像元素的文档，并将所有上下文信息视为元素中的属性，以便我们可以直接应用FlexDM。

我们实现Zhao等人[56]，有以下细微的区别，因为代码不是公开的。我们将颜色和大小分别量化为16个和64个箱子。我们没有使用外部数据集应用数据增强，因为用于增强的数据集不可用。我们在表3中显示了结果。度量标准是字体颜色和大小的准确性，以及字体类型的余弦相似度，后者由低维嵌入表示。我们可以清楚地看到，我们的模型与特定于任务的模型是相当的。

表3。CTXFont数据集字体属性预测模型比较[56]。报告了三次运行的平均值和标准差。这些值乘以100倍以获得可见性

1 迈向灵活的多模态文档模型_字段_17

4.8.2单个文本框的放置

Li等[29]提出在给定文本框的自然图像和长宽比的情况下预测单个文本框的大小和位置。我们在Crello数据集中进行比较，因为用于他们的模型训练和评估的数据集是不可公开的。我们根据交联(IoU)和边界位移误差(BDE)来评估性能[29]。如表4上半部分所示，我们的模型明显优于Li等[29]的模型。为了衡量多模态特征对预测的贡献，我们排除它们中的每一个并训练模型。表4下半部分的结果表明，这些特征有助于提高性能。部分结果如图6所示。

表4。Crello数据集中单个文本框放置模型的定量评价。样本分为两组:没有其他文本框可用(单个)和一些文本框可用作为上下文(多个)

1 迈向灵活的多模态文档模型_数据集_18

1 迈向灵活的多模态文档模型_字段_19

图6。单文本框放置与SmartText+的定性比较[29]。最好用变焦和彩色观看。

5 限制与讨论

随着图像和文本生成质量的惊人提高，人们可能希望直接生成图像和文本。然而，基于检索的生成仍然是一种实用的选择。例如，由于客户的要求，设计师经常需要使用私人收藏或公共图片库服务(如Adobe stock或Shutterstock)中的图像。

此外，由于人工智能生成图像的法律和伦理问题存在争议，一些人避免使用生成的图像或文本。

我们的模型不支持不能作为遮罩字段预测框架的设计任务。我们不考虑无条件生成;例如，生成不需要输入的完整文档。将FlexDM扩展到无条件场景需要我们应用生成公式而不是bert风格的掩模建模，我们将这种公式留给未来的工作。然而，我们相信我们的模型很好地适用于存在初始设计材料的通用应用程序场景。

当输入文档有更多的元素时，模型的性能会下降。更大的模型或数据集是否能缓解这个问题值得研究。开发其他评估指标将有助于进一步的分析，因为当前的指标只是评估重建性能。在条件生成中，输入上下文可能对应于多个可能的输出，特别是当输入上下文是稀疏的(例如，标签集)时。对布局生成模型中的可变性进行建模[18,21,24]将是一个令人兴奋的方向。