让照片跳起舞!阿里开源了:AnimateAnyone!

2024-07-18 03:21:37
171

在数字时代,我们见证了技术的飞速发展,尤其是在人工智能领域。

兵马俑跳科目三、奶牛猫跳洗澡舞等视频我想大家都在短视频平台看到过,这背后使用的技术就是:AnimateAnyone

AnimateAnyone是什么?

AnimateAnyone来自阿里通义实验室,是针对可控动画生成领域的一项研究工作。输入一张图片,和一个舞蹈视频,它能够将静态图像转换成连贯、可控制的视频。

AnimateAnyone是一个开源框架,它利用扩散模型,结合了ReferenceNet、Pose Guider姿态引导器和时序生成模块等先进技术,能够在保持图像一致性、可控性和稳定性的同时,生成高质量的动态视频。

AnimateAnyone的工作原理

想象一下,我们有一种方法可以把一个人的照片变成动画。首先,我们用一个叫做“Pose Guider”的工具来记录这个人的姿势序列,就像是在告诉电脑这个人要怎么动。然后,我们加入一些“多帧噪声”,这就像是给电脑一些关于动作流畅度的提示。

接下来,有一个叫做“Denoising UNet”的部分来清理这些噪声,确保视频看起来不会乱七八糟。这个“Denoising UNet”有三个特别的注意力区域:空间注意力、交叉注意力和时间注意力。这就像是让电脑在不同的方向上专注,以便更好地理解动画应该怎么生成。

图片

我们还会用到一张参考图片,从中提取细节特征和语义特征。细节特征帮助电脑理解图片的具体内容,而语义特征则帮助电脑理解图片的整体意义。这些特征被用来增强空间注意力和交叉注意力。

最后,时间注意力就像是电脑的记忆,它帮助电脑理解动画中的时间流逝。所有这些信息最终都会被一个叫做“VAE解码器”的工具转换成视频片段。

图片

如何使用?

代码已开源,可以本地部署,或者线上体验。

部署方法:

需要本地具有python环境,要求3.10以上。

  •  
  •  
  •  
  •  
  •  
  •  
  •  
# [Optional] Create a virtual envpython -m venv .venvsource .venv/bin/activate# Install with pip:pip install -r requirements.txt  # For face landmark extractiongit clone https://github.com/emilianavt/OpenSeeFace.git
 
代码地址

https://github.com/MooreThreads/Moore-AnimateAnyone

项目地址:

https://humanaigc.github.io/animate-anyone/