Shap·E: Generating Conditional 3D Implicit Functions 阅读笔记

Shape·E是一个从图像或者文本生成3D模型的生成模型。
Shape·E生成的是隐函数的参数。隐函数指的是Nerf(Neural Radiance Fields)和STF(Signed Distance Functions and Texture Fields)。他们可以将3D坐标映射到特定于位置的信息,如密度和颜色。通过隐函数,可以渲染出3D物体,或者得到3D物体的textured mesh。
与显式生成模型Point·E(直接从文本生成点云)相比,Shape·E收敛得更快,并且达到了相当或更好的样本质量。

Shap·E的训练分两个阶段:
第一步,训练一个编码器-解码器,该编码器将3D模型映射到隐函数(implicit function)的参数,隐函数的参数通过解码重构出3D模型;
第二步,训练条件扩散模型生成编码器输出的隐函数的参数。条件可以是图像(图像生成3D模型)或者文本(文本生成3D模型)。
在测试阶段,用条件扩散模型生成隐函数的参数,再通过解码器解码,得到3D模型。

3D编码器-解码器

条件扩散模型

猜你喜欢

转载自blog.csdn.net/icylling/article/details/130721095