Talking face 是一种计算机图形学和人工智能的技术,可以实现将一段音频转换为逼真的人脸动画。它可以用于视频游戏、虚拟主持人、语音助手等应用中,使人机交互更加自然和生动。
1- SadTalker-Video-Lip-Sync
*基于SadTalkers实现视频唇形合成的Wav2lip。通过以视频文件方式进行语音驱动生成唇形,设置面部区域可配置的增强方式进行合成唇形(人脸)区域画面增强,提高生成唇形的清晰度。使用DAIN 插帧的DL算法对生成视频进行补帧,补充帧间合成唇形的动作过渡,使合成的唇形更为流畅、真实以及自然。
https://github.com/Zz-ww/SadTalker-Video-Lip-Sync
2- GeneFace
*GeneFace: 基于NeRF的使用任意语音音频生成逼真的说话人视频。NeRF神经辐射场用来提高图像的3D真实性和保真度。
https://github.com/yerfor/GeneFace
3- one-shot-talking-face
*重点在提升说话人的语音和视觉动作之间的一致性。作者开发了一个Audio-Visual Correlation Transformer (AVCT)模型,通过关键点密集运动场表示语音驱动的说话动作。同时引入音素来表示语音信号,从而使AVCT可以自然地适应不同的演讲者。
https://github.com/FuxiVirtualHuman/AAAI22-one-shot-talking-face
更多信息:
已更新至知识库
合作联系