香港城市大学研发发型合成新框架！手绘草图妙变逼真秀发

转载

AI算法与图像处理 2022-01-06 15:05:01

【导读】你见过手绘草图秒变逼真秀发吗？香港城市大学提出的新网络SketchHairSalon就可以，不但头发结构外观真假难辨，而且细节也清晰无比，只是通过简单寥寥几笔素描，想拥有什么样的发型都不在话下。

现有的解决方案通常需要用户提供的二进制掩码来指定目标发型。这不仅会增加用户的劳动成本，而且也无法捕捉复杂的头发边界。这些解决方案通常通过方向图编码头发结构，然而，这对编码复杂结构并不是很有效。

其实，彩色头发草图已经含蓄地定义了目标头发形状和头发外观，比方向图更灵活地描述头发结构。基于这些观察，香港城市大学提出了SketchHairSalon，一个两阶段框架，直接从手绘草图生成真实的头发图像，描绘所需的头发结构和外观。

并且还提供了设计界面，如下图所示，包括Hair Structure Specification（头发结构定制）、Hair Shape Refinement（头发形状优化）、Hair Appearance Specification（头发的外观定制）、Sketch Auto-completion（自动完成草图）等功能。

香港城市大学研发发型合成新框架！手绘草图妙变逼真秀发_数据集

设计思想

为了解决现有算法存在的问题，作者观察到头发草图本身包含了足够的信息来描述局部和整体层面上所需发型的结构、外观和形状。例如，对于一个波浪发型，一笔可以代表一个局部和连贯的头发束，而两笔可以用来形成一个t型结。彩色的笔画能够表明头发图像的局部外观。

此外，描绘发型结构的草图已经含蓄地定义了头发区域的整体形状，最好是沿着毛发区域的边界自动推断局部和柔软的细节，因为这些细节很难由用户指定，而且耗时。在这种情况下，由于支持软边界，毛发哑光比二进制掩模更适合描述毛发区域。

基于以上关键观察，作者提出了SketchHairSalon，一个新颖的深度生成框架，直接从一组彩色笔画合成真实的头发图像。它包括两个关键阶段:素描到亚光生成和素描到图像生成。

第一阶段侧重于从输入的头发草图生成头发哑光，以减少草图到头发生成的模糊性。用户可以选择输入非毛发笔画，这些笔画被用作额外的条件来指导哑光的生成。

第二阶段根据给定输入草图和生成的头发哑光，设法合成一个逼真的头发图像。同时将自我注意模块应用到这两个阶段的网络中，以学习更多的对应关系。

为了训练这两个阶段的网络，作者还提出了一个新的头发草图-图像数据集，其中包含了数以千计的头发图像和相应的手工注释的头发草图，以描述底层的头发结构。每个头发图像也与自动生成的头发哑光相关联。

网络架构

该网络框架由两个主要网络组成:

素描到亚光网络(简称S2M-Net)
素描到图像网络(简称S2I-Net)

香港城市大学研发发型合成新框架！手绘草图妙变逼真秀发_公众号_02

素描到亚光网络(S2M-Net)

香港城市大学研发发型合成新框架！手绘草图妙变逼真秀发_数据集_03

S2M-Net以素描图????????????????????????????????????????????????Sm∈R512×512×1作为输入，其中包含头发和非头发的笔画，其中有色笔画设置为一种颜色(例如，蓝色)，非笔画设置为黑色(如图4 (d)所示)，即可输出头发哑光M????'∈512×512×1（图4（a））。

为了准备用于训练S2M-Net的数据集，首先通过距离图从GroundTruth真实的头发遮光物中提取头发轮廓(图4 (b))。头发的轮廓从头发区域被稍微推开(从3到8像素随机设置)。

然后，通过随机擦除大部分头发轮廓推导出非头发笔画，以平衡训练中非头发笔画和头发笔画的密度。描边宽度随机设置为3到15像素，以定义非毛发区域的大小，避免过拟合。

最后，将非毛发笔画和毛发笔画在草图中融合在一起，表示为????????(如图4 (d)所示)，然后送入S2M-Net。

另外，该部分网路采用了带有自注意模块的编码器-解码器生成器，在解码器的前三层中，在每个反卷积层之后重复应用三个自注意模块，以关注全局和高层翻译。

考虑到自注意力计算随着特征图空间尺寸的增大呈指数级增长，所以就没有在后一层插入任何自注意模块。

素描到图像网络(简称S2I-Net)

在S2M-Net之后，我们得到了一个合成的头发掩模M????’，明确了目标头发的形状。如图5(下)所示，S2I-Net与S2M-Net类似，关键的区别在于它包含了背景混合模块，同上面这个网络不同，这里采用彩色草图来代表头发结构和外观。

背景区域????????在头发哑光????'的引导下，在特征层上与合成头发区域混合，表示为：

香港城市大学研发发型合成新框架！手绘草图妙变逼真秀发_公众号_04