CycleGAN发明人新作:AI实现艺术Cinemagraph,绝妙的“静图之上,视频未满”效果!...

文章来源  新智元  编辑:桃子

【导读】百度百科:“Cinemagraph,静态照片中神奇的细微运动技术。顾名思义(cinema是电影摄影,graph是图片)是动态摄影和静态图片的结合,这项艺术最早就是从cinemagraphs 这个网站流出,来自NYC的Jamie 和Kevin两个艺术家 。”
最新AI模型Text2Cinemagraph,只需短短一行字,就可以让艺术大师的作品动起来。

CV大佬朱俊彦的新论文,让动画师感觉危了。

只需要一句话,模型就能将其生成一个风格一致,画质细腻的动画。

以梵高星之夜为参考,创作一个山前小溪流过的画面。

b666f8d5694761330a61340c2b507632.gif

又或以阿夫列莫夫的风格,创作一个瀑布从山间飞跃而下的景观。

ed580e821c0927be87bde9eb53a2687a.gif

近日,来自CMU和Snap机构的研究人员,构建了一个根据文本描述创建电影画面的全自动方法——Text2Cinemagraph。

f871ba741357b026153e00d2e67257bc.png

论文地址:https://arxiv.org/pdf/2307.03190.pdf

另外,研究人员展示了2个扩展功能,为现有绘画制作动画,以及使用文本控制运动方向。

不如,我们先看一波演示吧。

演示来袭


上面梵高星之夜的小溪流向,动动嘴就能控制。

比如,从左到右。

5b366d072ee89dc3b4aefea54d377ed6.gif

再从右到左。

ae587673e1d385c5e632042bb35a591a.png

同样风格下的,不同景观。

a24ef78a6c5303fe071cfbec12cabe28.gif

‍电影画质的,海上帆船。

471ac212743127f4d46d6ddeb9a6b8bc.gif

日落时,梵高绘画风格的,山丘之间落下的大瀑布,4K。

4553c455f111fce3f5060ef43253d56a.gif

毕加索风格,一座小木屋,有一艘船漂浮在湖上。

fe762ba949d0b4a0f0a65db399a0afcf.gif

超逼真的插图,灯塔被海怪袭击,触手包裹整个塔楼。

8b37d386821bf6bbebf7506f184eb6d7.gif

超现实和梦幻般的瀑布场景

d79fcf81ea7279343cee4022f6888588.gif

Text2Cinemagraph项目


当前,现有的单图像动画方法,在艺术输入方面存在不足。

而最新的基于文本的视频方法经常会引入时间上的不一致性,难以保持某些区域的静态。

为了应对这些挑战,研究人员提出了从单个文本提示,合成孪生图像(image twin)的想法,即一对艺术图像及其像素对齐。

艺术图像描绘了文本提示中详细描述的风格和外观,而现实图像则大大简化了布局和运动分析。

00b006c64f8571e64f08e5b197e54348.png

利用现有的自然图像和视频数据集,Text2Cinemagraph可以准确地分割现实图像,并根据语义信息预测合理的运动。

然后,预测的运动可以转移到艺术图像中,以创建最终的电影动画。

具体来讲,给定一个文本提示 c,用Stable Diffusion生成孪生图像,一个艺术图像x在文本提示中描述的样式中,和一个现实的对应物d0bd214c5cd5c25d21dd1e5c772fec5e.png使用修改后的提示416765a1a2a12f1b37b4d3eff4eb5da1.png。孪生图像有相似的语义布局。

然后,研究人员从艺术图像生成过程中,获得的自注意力映射中提取运动区域的二进制掩码M。

使用掩码和逼真的图像,来预测光流67483c0de440ce1a77c74e0c7fd294d8.png与流预测模型1fb6e94e701377946a797aaccdd2cde4.png.

由于孪生图像有非常相似的语义布局,可以使用光流6d224ca481f8fe8e0c8558170a2e8134.png与视频生成器7f39af93df152f0b07825fea55959ead.png让艺术图像动起来。

值得一提的是,这项研究的所有实验都基于Stable Diffusion。

95a3b93ff5e35a96cb522d9bcfd8c6ab.gif

研究者比较了真实的光流效果。

与SLR-SFS、Holynski等人的研究单图像动画方法相比,Text2Cinemagraph所有帧平均的真实光流。

总体而言,最新方法能预测出更合理的运动,与目标区域更吻合。

d8bd7a99774b76b7b262c1dfeb3d8292.png

另外,通过用户偏好调查显示,大多数参与者都赞成Text2Cinemagraph。

46cbf4ae473f3119e78fc1e54e5c1668.png

最后,研究人员还演示了两个扩展功能:为现有绘画制作动画和使用文本控制运动方向。

为现有绘画制作动画

如下是在俄罗斯博物馆展出的The Ninth Wave (1850)。

5e744ce12fa1330f170747b07d7ca654.gif

由Albert Bierstadt创作的布面油画Minnehaha Falls。

0742fec1503c858597b8a6790d208b0f.gif

作者介绍


Jun-Yan Zhu(朱俊彦)

01fe13979d8e5d55794078adf9c29cb5.png

朱俊彦现任CMU计算机学院机器人研究所的助理教授,是计算机图形学领域现代机器学习应用的开拓者。

在加入CMU之前,他曾是Adobe Research的研究科学家。

他曾在MIT CSAIL做博士后,与William T. Freeman、Josh Tenenbaum和Antonio Torralba一起工作。

他还在加州大学伯克利分校获得博士学位,在Alexei A.Efros的指导下。并在清华大学获得学士学位,与Zhuowen Tu,Shi-Min Hu和Eric Chang一起工作。

参考资料:

https://text2cinemagraph.github.io/website/

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

3cf984a1757ab2c6ab48962f09b5f751.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!    

猜你喜欢

转载自blog.csdn.net/lgzlgz3102/article/details/132439976