如果你关注算法生成的头像,你可能会担心这些问题:创建我自己的头像需要什么?
我们给出的答案是:用手机拍一个**就够了!重建手机拍摄的高保真3D虚拟数字图像一直是一项具有挑战性的任务,主要是因为难以准确控制表情,尤其是一些夸张的表情和一些微表情。 这是因为现有的算法往往依赖于有限的线性表情系数来参数化表情,而这种线性表情很难对丰富的面部表情细节进行建模。
事实上,来自清华大学和新昌源科技的研究人员已经提出了一种新的方法,潜伏**atar,它利用深度网络和神经辐射场技术学习到的潜在特征,有针对性地解决了上述两个难点。 研究结果发表在图形学顶级会议 SIGGRAPH 2023 上。 便捷的捕捉设备,高保真化身,栩栩如生的表情控制,一切皆可潜伏**atar完成!
接下来,让我们来看看它是如何做到的。
*家。 表达可控的神经辐射场。
潜在**atar的核心思想是摒弃现有的基于线性表达式库的表达式建模方法,转而利用深度网络的隐藏空间来实现表达式的建模。 为此,潜在**atar首先构造一个表情隐空间,以及一个将面部区域图像映射到面部隐空间的编码器。 然后,从表达式潜在变量生成由三平面神经辐射场表示的神经辐射场,如下图所示。 三平面和神经辐射场的引入,使得网络学习到的隐蔽空间具有三维感知能力,通过简单的重构损失,隐蔽空间可以捕捉到目标任务的高频面部纹理细节,从而很好地处理夸张的表情和微表情。 与之前的方案相比,由于表情潜在变量是端到端地从输入单目中学习的,因此潜伏**atar摆脱了人脸模板的跟踪和表情问题,从而实现了更丰富、更准确的表情建模。
交叉标识驱动。
由于上述构造的人头数字头像是由学习到的表情隐变量控制的,因此当使用另一个驾驶员驾驶时,需要先将他的人脸图像映射到该数字头像的相应表情隐变量上。
为此,Latent**ATAR引入了一个由共享编码器和两个独立解码器组成的Y形网络架构。 共享编码器接收一个头像和一个新的驾驶员面部图像作为输入,学习共享表情的潜在变量。 映射多层感知器在两个潜在变量空间之间架起了一座桥梁。
通过这种方式,潜在**atar 实现了另一个人来驱动构建的数字化身。 所以我们在文章开头看到了结果。 它不仅可以实现高保真的图像渲染,还可以保证驾驶员的表情能够准确传递,一些夸张的表情、微妙的表情和情绪也能准确传达。
实验结果。 作者还将 Latent**ATAR 与之前其他单眼头部数字头像重建算法进行了比较,包括 NerFace、IM**ATAR、DeepVideoPortraits (DVP) 和旨在消除三平面表达改善的基线 Coeff+Tri-Plane。 从定性结果来看,潜伏**atar合成的化身具有最高的真实感,表情一致性和夸张表情的建模能力最好,也具有更强的鲁棒性。 此外,定量结果也证明了Latent**ATAR在数值评估中能够取得最佳效果。
最近的单目**重建方法都使用3DMM人脸模板作为头像表情控制的驱动信号,在跟踪和拟合3DMM人脸模板时通常会引入误差,导致表情不准确。 因此,在后期制作中对人头的数字化身进行动画制作时,难免会出现表情模糊或不一致的情况。 潜在**ATAR也从**中重建头部数字头像,但不需要3DMM,而是直接从训练数据中学习隐式表达式潜在变量。 因此,合成的虚拟图像在各种夸张的表情下都能栩栩如生,大大改善了目前数字人驱动的僵硬、不真实、不生动的表情问题。
新昌源科技有限公司总部位于杭州,与北京清华大学产学研基地、深圳清华大学虚拟研究院虚拟数字人中心三地联动,专注于数字人相关技术研究和人才培养。 未来将覆盖更多场景和需求,携手众多行业伙伴,推动“AIGC+数字人”多场景落地,逐步普及消费级数字人,为各行各业提供强大而全面的技术支持。
引用。 yuelang xu, hongwen zhang, lizhen wang, xiaochen zhao, huang han, qi guojun, and yebin liu. latent**atar: learning latent expression code for expressive neural head **atar. in acm siggraph 2023 conference proceedings, 2023
项目主页:柳叶斌com/h**atar