设计智能之adobe探秘-肖像设计

论文

https://dcgi.fel.cvut.cz/home/sykorad/Fiser17-SIG.pdf

项目主页

http://dcgi.fel.cvut.cz/home/sykorad/facestyle.html


这一篇超级可爱也是我准备使用的一个案例。

因为我要给我的idol Charles Leclerc还有Fiete Arp应援 设计他们头像的T恤。

但是定制Q版漫画版价格非常昂贵。又找不到其他会画画的粉丝。怎么办

这个肖像设计软件就可以帮我们解决的。


8790156-f26149342f5c02cb.png
范例

不过这篇文章神奇之处主要在于是用在视频上。

而且比Neural Style transfer的方法做的更真切更像真的手绘版本哦。


保存视频输入例子的主题特点和视觉丰富性。 这个方法执行非参数纹理,保留了艺术范例的更多当地纹理细节并且不会出现style transfer里面由对齐引起的图像扭曲伪像。 我们的方法允许创建 less than full temporal coherence的视频[Ruder et al。2016年]。 通过引入一个可控的时间动态量,它更接近于每一帧都独立创建真正的手绘动画的外观。


文章首先回顾了一下发展历史。

Neural Style Transfer在肖像风格化的应用:

Selim等人[2016]扩展了这项技术以在风格化头像时提供更好的结果。在他们的系统中,额外的空间约束改善了风格化肖像之间和它的真实副本的相似性。他们将风格图像与目标照片对齐, 并计算一组增益图来修改其神经网络响应以抑制表面局部差异。


局限性Limitations:

虽然他们的基于神经的风格转移产生令人印象深刻各种风格的结果,它有一个关键的局限性。对于样式包含丰富的纹理信息,该方法往往会扭曲局部视觉特征。在某些情况下,合成的整体外观输出变得与原始风格显著不同

这个问题源于原文Gatys等人的方法。基于参数纹理的变体合成[Portilla and Simoncelli 2000],已经被证明会产生这种问题[Efros和Freeman 2001]。 Fišerat al[2016]证明非参数纹理合成可以缓解这个问题,但不清楚如何将这种基于类比,专为3D渲染而设计的风格转移技术的方法用于人像的风格化。

Selim等人的方法的另一个问题是它需要完美的源样式与目标照片对齐(变形)。当风格化的肖像的面部比例相当可观时,从目标图像中的那些明显的纹理失真可能出现在风格化的输出中(参见图2,最下面一行)。

最后,与其他工作类似([Ruder et al。 2016],Selim等)其进行 视频序列风格化时完全保留时间连贯性,导致在风格元素好像是纹理映射到主体的脸上。 这与真正的手绘动画的外观形成鲜明对比。手绘会表现出一定的temporal flickering - 例如,参见比尔普林普顿的作品,亚历山大彼得罗夫的“老人与海”,或最近制作的Loving Vincent。 由于艺术媒体的物理特性使得高频细节非常难以控制,手绘动画倾向于仅在粗略水平上保持时间连贯性(temporal coherence)。 塑造一种动画是逐帧手绘的感觉需要一定的时间不连贯性[Fišeret al。2014。

真正的手工制作的动画,其中一定的时间噪声总是可见的[Noris et al。 2011]。该Color Me Noisy方法由Fišer等人提出。 [2014]使用随机化变体的分层纹理合成算法引入时间噪声转换成现有的序列[Wexler等人。 2007年]。他们用子采样版本的目标帧初始化合成并合成剩余的高频细节。这种方法的一个关键缺点是低频输出序列的内容需要事先知道。Wexler等人的纹理合成方法往往无法保存风格的纹理丰富性。由于这些限制Color Me Noisy不适合我们的肖像风格化场景。

除了转移传统艺术媒体风格的技术,为了拍摄肖像,还有一些方法可以传输特定的图像照片外观。虽然他们的目标不是艺术在内部他们使用强度均衡等工具水平和局部对比度增强,也可以用在我们的领域。

Our approach also shares ideas with methods for novel view synthesis and constrained texture transfer that further extend the original texture-by-numbers concept of Hertzmann]. However, none of these approaches provide a solution for faithful artistic style transfer for facial animations.

输入:   风格化好的肖像的风格示例图像S    a style exemplar image S of a stylized head portrait 

              人的面部表情的目标视频序列T.      a target video sequence T of a human facial performance.

假设:  主体面对相机并且不被其他物体遮挡

任务: 产生一个风格化序列O. 它能够传达风格S的视觉属性并尊重主体的面部特点,使主体可以从风格化序列中被很容易的识别。另外我们需要O来跟踪T的运动在一个时间上的一致,而在同时让用户控制时间噪声的量。为了解决这个任务,我们应用了引导纹理合成[Fišeret al。2016],它有能力保留细节的纹理细节样式。 这种方法基于非参数纹理合成[Kwatra et al。2005; Wexler等人 2007],其中构成通过查找和混合适当的源补丁来识别目标图像。

但是,与仅使用RGB的标准纹理合成不同值作为指导,我们的源和目标中的单个像素图像包含额外的引导通道。 这些使得源补丁的选择朝向更适合目标图像中的特定语义区域的优选子集(例如,参见纹理数字Herzmann等人的应用[2001])。在指导纹理合成的框架内,我们的目标是设计一套适合头像人像的引导通道(guidance Channel),以可控的时间动态量方式实现丰富的,语义上有意义的风格转换。

制作引人注目的风格转移结果,指导渠道需要满足一些要求。Fišer等人[2016]显示艺术家通常使用独特的风格针对风格化场景中的不同语义区域。这适用我们的领域;例如,在图3的画中画刷额头中的笔画比眼睛中的笔画大得多。受此启发,我们生成了Segmentation Guide : Gseg(图3)将头部细分为头发,眉毛,鼻子,嘴唇,口腔,眼睛和皮肤部分(见3.2节)。为了进一步鼓励局部风格转换的一致性,我们引入了Position Guide : Gpos鼓励源补丁转移到类似相关目标位置(参见第3.3节)。保留基本阴影线索可保持适当的面部比例并且相当有助于人类视觉系统识别主体的身份[Sinha et al。 2006年]。但整体外观的风格和目标可能相当不同。为缓解这种差异,我们重新调整目标图像中的强度水平和局部对比值使得其尽可能接近风格示例但仍然保留原始阴影线索。(we remap intensity levels and local contrast values in the target image to be as close as possible to those in the style exemplar while still preserving the original shading cues.)然后将修改过的图像用作Appearance Guide 额外的外观指南Gapp(见第3.4节)。

最后,为了制作视觉上令人愉悦的视频,需要有可由用户控制的Time Guide(时间引导)。在我们的场景中尽量保留手绘序列的外观,表现出一定量的时间抖动。(In our scenario we try to preserve the appearance of hand-drawn sequences, which exhibit a certain amount of temporal flickering.)模拟这样的我们结合了LazyFluids [Jamriška等人。 2015]与来自Color Me Noisy [Fišeret al。 2014] 引入Time Guide Gtemp(参见第3.5节)。

为了生成目标帧T i的分割引导G seg(图5a)我们评估了当前最先进的基于神经的技术[Jackson等人。 2016年刘等人。 2015],但发现它们对于我们的目的不够准确(见图6)。相反,我们使用了不同的方法,利用封闭式matting为整个头部和皮肤区域创建软蒙版[Levin et al。 2008]。它需要一个将像素分类的粗略三维图作为输入。这个分类就是把像素分为确定在区域内部,确定在外面,或者不确定。

为了创建头部区域三维图(图5b),我们首先侵蚀和扩大从自动肖像分割获得的前景蒙版[Shen et al。 2016](图5c)。这一步有助于分离被假设是绝对位于头部区域内部和外部的像素。从颈部分离脸部区域,我们会进一步修改三维图使用检测到的下巴landmark[Kazemi and Sullivan 2014](图5d)。我们把这个landmark作为一个不确定像素的粗线,并且把不连续的颈部标注为绝对在外面 (We render this landmark as a thick line of uncertain pixels and mark the disconnected neck as being definitely outside.)最后我们应用封闭matting以获得最终的软蒙版。为了构建皮肤区域三分图(图5f),我们使用一个简单的统计皮肤模型。 正如Gong和Sakauchi [1995]所观察到的,分离彩色和亮度分量有助于人体皮肤的分割。 因此,我们将图像转换为YCBCR色彩空间,用CB和CR分量的直方图fit(匹配)具有多元高斯分布的脸颊像素。

有了它,我们可以确定每个像素成为皮肤像素的可能性(图5g)。然后,我们将可能性图归一化并考虑全部0.5以上的像素成为皮肤的一部分并调整其三维图估计值(图5f),从中我们生成皮肤区域的软蒙版(图5h)。面部和皮肤面具的像素差异有效分割头发区域(图5i中的橙色)。蒙版其余部分 - 眼睛,嘴唇,口腔,鼻子和眉毛 -使用检测到的面部标志进行估计(图5d)。因为标记的位置可能不准确,我们通过使用分散曲线模糊分割边界[Orzan等人。 2008](图5i)]避免hard transition。类似的方法也可以应用于创建分割引导Gseg。然而在这种情况下的风格形象可以和真人的外表存在着显著区别,所以这种自动流水线的一部分,比如标志和皮肤检测可能会失败。在这种情况下,用户通过纠正来帮助系统三维图和指定更好的标记位置。尽管需要额外的手动干预,它只需要完成一次就可以重复使用整个序列。


8790156-f9128603dbd6ed88.png


3.3 Positional Guide 位置指导

样式示例的位置指南Gpos非常简单;每个像素对它的(x,y)坐标进行归一化,范围为0-1。要为目标图像生成Gpos,我们使用检测到的面部风格图像中的标记以及目标框架中相应的标记。我们使用移动最小二乘变形[Schaefer et al。 2006]来扭曲示例的Gpos图像,其中目标图像Ti中的面部标志的位置及其连接被用作控制线来为结果指定约束变形场。

3.4 Appearance Guide 外观指导

为了生成外观指导Gapp,我们把目标图像Ti和样式S转换为灰度。然后我们使用该方法修改全局强度水平和局部目标图像Ti的对比值与风格示例S中的那些值相匹配。为了平衡保留主体身份和保留样式的纹理丰富性这两方面的考虑,我们添加了一个额外的权重通道,以增强Gapp在某些像素上的影响。我们的实验表明,眼睛和口腔区域需要具有更接近目标的外观图像,因此我们使用更高的权重的外观指导提供更有说服力的风格化结果。第3.6节讨论眼睛和嘴巴的合成的进一步改进。我们的权重设计也为用户提供了额外的艺术控制,使得他们能够获得目标图像和风格中主体身份的平滑过渡。更高的权重Gapp使结果更接近目标图像(图11)。

3.5 时间指南

对于完全时间一致性,我们可以应用这种方法,并用一个新的框架作为综合指导。但是,因为我们想保留手绘序列的外观,而手绘序列表现一定数量的时间动态,我们也考虑到由Fišer等人的一个观察,也就是在真正的手绘序列中的时间一致性仅在较低频率下被保留。

在Color Me Noisy情景中,Fišer等人假设source(源)的低频率内容和目标的内容是相同的,这样的话就允许合成从某个分辨率水平开始。然而,这在我们的情况下是不满足的,因为风格示例可能和目标更加显著不同。相反,我们提出了一个不同的解决方案。它遵循Color Me Noisy原则来保存时间在较低频率上的一致性,但不需要源和目标匹配。Advection之后,我们模糊化风格S和以前风格化合成帧Ot-1,并将它们用作时间指导Gtemp。然后通过改变cut-o模糊内核的频率(宽度)控制时间抖动的量。这种解决方案的另一个优点是它可以解耦控制来自合成的其他方面的时间噪声的量。这将在第4节中展示。

For full temporal coherence, we could have applied the approach of Jamriška et al. [2015], in which the previously synthesized frame Ot−1 is advected by the underlying motion field (we estimate it using SIFT ow [Liu et al. 2011]) and used as a guide for the synthesis of a new frame. However, since we would like to preserve the appearance of hand-drawn sequences, which exhibit a certain amount of temporal dynamics, we also take into account an observation made by Fišer et al. [2014], that in real hand-drawn sequences the temporal coherence is preserved only at lower frequencies.

 In the Color Me Noisy scenario, Fišer et al. assume that the low frequency content of the source and target are the same, allowing the synthesis to be started at a certain resolution level. This is, however, not satisfied in our scenario since the style exemplar can differ significantly from the target. Instead we propose a different solution that follows the Color Me Noisy principle to preserve the temporal coherence at lower frequencies, but does not require the source and target to match. We blur the style exemplar S and the previously synthesized frame Ot−1 after advection, and use them as a temporal guide Gtemp. The amount of temporal flickering is then controlled by varying the cut-off frequency (width) of the blurring kernel.Another advantage of this solution is that it decouples control over the amount of temporal noise from other aspects of the synthesis as will be demonstrated in Section 4.

3.6对口腔和眼睛进行特殊处理

风格示例嘴巴紧闭时需要进行特殊处理,但目标帧显示主体的牙齿。指导通道迄今为止使用唇的补丁来纠正牙齿,导致不自然和不吸引人结果(图7b)。为了提高质量,我们创建了一个增加了Gapp权重,使用面部检测标志的特殊蒙版(图7d)。这张map让我们可以指导合成,把风格示例中比较明亮的纹理区域转成牙齿。

Special handling is required when the style exemplar has a closed mouth, but the target frame shows the subject’s teeth. The guidance channels described so far bias the synthesis towards using lip patches for the teeth, leading to an unnatural and unappealing result (Fig. 7b). To improve the quality we create a special mask with increased weight of Gapp using the detected facial landmarks (Fig. 7d). This map allows us to guide the synthesis to transfer lighter texture areas of the style exemplar to the teeth, even if they are distant, creating a more plausible result (Fig. 7c).Our experimentation showed that even minor defects in the eye stylization lead to disturbing results, and without modification the eyes often do not resemble the style exemplar (Fig. 7b). To address this we synthesize the eyes separately, based on a special set of guiding channels with only a hard segmentation and a normal map (Fig. 7e, f, g). We construct these channels using the method of Johnston et al. [2002]. After synthesizing the face, we blend in the synthesized eyes using a soft mask of the target head to produce the final output (Fig. 7c).

3.5 合成

Once we have the guiding channels (Gseg, Gpos, Gapp, Gtemp) we can run the guided texture synthesis algorithm of Fišer et al. [2016]. A key advantage of this technique is that it adaptively encourages uniform utilization of source patches and thus suppresses the “washout” effect [Jamriška et al. 2015] inherent to other texture synthesis techniques based on the original texture optimization strategy [Kwatra et al. 2005; Wexler et al. 2007].

In our solution we also need to address a “oating texture” artifact described by Fišer et al. [2014], which is the formation of distracting coherent islands of patches that become visible when a sequence of images produced by non-parametric texture synthesis is played back.

To break those islands for every stylized frame Fišer et al. modify the style exemplar using a randomized free-form deformation. This change guarantees that the newly synthesized frame cannot contain the same static region of pixels as the previous frame. However, a fundamental issue here is that free-form deformation in fact breaks the low-level textural consistency of the used artistic media. To alleviate this drawback in our solution we only slightly rotate the style exemplar to match the dominant rotation of the subject’s face in the target sequence. This makes the change of style exemplar consistent with the global orientation difference between the style exemplar and target patches. We estimate the closest relative rotation that aligns corresponding source and target chin landmarks to have a minimal distance in the least squares sense using the closed-form solution described in Schaefer et al. [2006].

猜你喜欢

转载自blog.csdn.net/weixin_34388207/article/details/87636640