SIGGRAPH 2023 国际峰会表彰！新昌源自主研发的3D数字人驱效果突出

如果你关注算法生成的头像，你可能会担心这些问题：创建我自己的头像需要什么？

我们给出的答案是：用手机拍一个**就够了！重建手机拍摄的高保真3D虚拟数字图像一直是一项具有挑战性的任务，主要是因为难以准确控制表情，尤其是一些夸张的表情和一些微表情。这是因为现有的算法往往依赖于有限的线性表情系数来参数化表情，而这种线性表情很难对丰富的面部表情细节进行建模。

事实上，来自清华大学和新昌源科技的研究人员已经提出了一种新的方法，潜伏**atar，它利用深度网络和神经辐射场技术学习到的潜在特征，有针对性地解决了上述两个难点。研究结果发表在图形学顶级会议 SIGGRAPH 2023 上。便捷的捕捉设备，高保真化身，栩栩如生的表情控制，一切皆可潜伏**atar完成！

接下来，让我们来看看它是如何做到的。

*家。表达可控的神经辐射场。

潜在**atar的核心思想是摒弃现有的基于线性表达式库的表达式建模方法，转而利用深度网络的隐藏空间来实现表达式的建模。为此，潜在**atar首先构造一个表情隐空间，以及一个将面部区域图像映射到面部隐空间的编码器。然后，从表达式潜在变量生成由三平面神经辐射场表示的神经辐射场，如下图所示。三平面和神经辐射场的引入，使得网络学习到的隐蔽空间具有三维感知能力，通过简单的重构损失，隐蔽空间可以捕捉到目标任务的高频面部纹理细节，从而很好地处理夸张的表情和微表情。与之前的方案相比，由于表情潜在变量是端到端地从输入单目中学习的，因此潜伏**atar摆脱了人脸模板的跟踪和表情问题，从而实现了更丰富、更准确的表情建模。

交叉标识驱动。

由于上述构造的人头数字头像是由学习到的表情隐变量控制的，因此当使用另一个驾驶员驾驶时，需要先将他的人脸图像映射到该数字头像的相应表情隐变量上。

为此，Latent**ATAR引入了一个由共享编码器和两个独立解码器组成的Y形网络架构。共享编码器接收一个头像和一个新的驾驶员面部图像作为输入，学习共享表情的潜在变量。映射多层感知器在两个潜在变量空间之间架起了一座桥梁。

通过这种方式，潜在**atar 实现了另一个人来驱动构建的数字化身。所以我们在文章开头看到了结果。它不仅可以实现高保真的图像渲染，还可以保证驾驶员的表情能够准确传递，一些夸张的表情、微妙的表情和情绪也能准确传达。

实验结果。作者还将 Latent**ATAR 与之前其他单眼头部数字头像重建算法进行了比较，包括 NerFace、IM**ATAR、DeepVideoPortraits （DVP）和旨在消除三平面表达改善的基线 Coeff+Tri-Plane。从定性结果来看，潜伏**atar合成的化身具有最高的真实感，表情一致性和夸张表情的建模能力最好，也具有更强的鲁棒性。此外，定量结果也证明了Latent**ATAR在数值评估中能够取得最佳效果。

最近的单目**重建方法都使用3DMM人脸模板作为头像表情控制的驱动信号，在跟踪和拟合3DMM人脸模板时通常会引入误差，导致表情不准确。因此，在后期制作中对人头的数字化身进行动画制作时，难免会出现表情模糊或不一致的情况。潜在**ATAR也从**中重建头部数字头像，但不需要3DMM，而是直接从训练数据中学习隐式表达式潜在变量。因此，合成的虚拟图像在各种夸张的表情下都能栩栩如生，大大改善了目前数字人驱动的僵硬、不真实、不生动的表情问题。

新昌源科技有限公司总部位于杭州，与北京清华大学产学研基地、深圳清华大学虚拟研究院虚拟数字人中心三地联动，专注于数字人相关技术研究和人才培养。未来将覆盖更多场景和需求，携手众多行业伙伴，推动“AIGC+数字人”多场景落地，逐步普及消费级数字人，为各行各业提供强大而全面的技术支持。

引用。 yuelang xu, hongwen zhang, lizhen wang, xiaochen zhao, huang han, qi guojun, and yebin liu. latent**atar: learning latent expression code for expressive neural head **atar. in acm siggraph 2023 conference proceedings, 2023

项目主页：柳叶斌com/h**atar

SIGGRAPH 2023 国际峰会表彰！新昌源自主研发的3D数字人驱效果突出

相似文章

2024年，不会有新的顶流

中北大学最新研究成果发表于国际顶级期刊《腐蚀科学》

Donatella国际顶级护肤品牌

东莞某医院的研究成果被国际顶级期刊《自然》分刊收录。

2023“鼎谷杯”全国设计大赛落下帷幕