本文将介绍如何利用AIGC生成多张风格一致的图片的技术。对此,本文挑选了两篇比较有代表性的方法:Style Aligned方法和Story Diffusion方法,本文会对这两种方法的原理和技术细节进行介绍。然后,我们展示了相关方法应用在家装领域上的一些效果,并分析了目前效果的优点与不足。最后我们对本文内容进行了总结,并讨论了该类方法未来的应用前景。
▐ Style Aligned 方法
▐ Story Diffusion 方法
实测效果
我们在家装场景中对Style Aligned方法的效果进行了测试。我们将一件家具的多张视角图片作为一个batch输入到Style Aligned中,然后对这些家具填充背景。Style Aligned的输出如下图所示,可以看到同一批图片中,不同视角下的家具在整体装修上的风格是可以保持一致的。但是,进一步观察,这些图片在空间结构和物体细节上还是无法精准的保持一致的,这可以作为未来研究的一个方向。
结语
本文介绍了两种生成多张风格一致图片的AIGC技术,即Style Aligned方法和Story Diffusion方法。Style Aligned方法通过共享self-attention机制实现图片间特征对齐,而Story Diffusion方法则利用Consistent Self-Attention在语义隐空间实现主题一致性。实验结果显示,这些方法能够较好地保持同批图片的整体风格一致性,但在保持空间结构和细节方面的一致性仍有提升空间。总的来说,这些技术为AIGC生成连贯性图像序列提供了有益探索,对于视频/漫画等应用场景具有重要意义。
[1] Amir Hertz, Andrey Voynov, Shlomi Fruchter and Daniel Cohen-Or. Style Aligned Image Generation via Shared Attention. In CVPR, 2024.
[2] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng and Qibin Hou. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434, 2024.
我们是淘天集团-场景智能技术团队,一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破,创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。