随着年底的到来,半年前苹果在头显Vision Pro领域的大动作,距离正式发布越来越近了。
虽然在过去的半年里,大家的注意力都集中在Vision Pro可能带来的全新沉浸式体验上,但其中也隐藏着许多关于虚拟人的探索:
从五年前率先推出3D面部动作捕捉的Animoji,到上周发布的可以生成真人数字孪生的Hugs,苹果决心为虚拟人探索一条不同的道路。
而这些多年积累的技术,也将在Vision Pro上迎来一个高光时刻——不得不说,苹果将以半年的周期处理好元宇宙的生命周期,为元宇宙注入新的可能性。
苹果的最新版本"hugs"虚拟人技术,全称Human Gaussian Splats,即Human Gaussian Synthesis,该技术是基于3D高斯Splatting(3DGS)和SMPL人体模型,通过融合两种先进技术,创造出更加生动逼真的数字角色。
与传统虚拟形象生成技术相比,HUGS的主要优势之一是其高效的数据处理能力,可以在短短约2至4秒**(50-100帧)内生成完整的数字虚拟形象,大大减少了创建虚拟形象所需的原材料量。
当然,目前在捕捉细节方面还存在局限性,但通过算法,Hugs可以自动填充未捕捉到的元素,保证了数字克隆的整体质量。
此外,HUGS生成的速度是另一个优势:苹果发布了相关的**,声称HUGS可以在30分钟左右完成数字人类的生成,比目前市场上的其他同类产品快100倍左右。
除了需要更少的材料和更快的生成速度外,Hugs 还显着提高了渲染质量和速度:Hugs 能够以 60 fps 的速度实现高质量渲染,同时还可以处理动态场景中的复杂挑战,例如在动画过程中避免伪影和协调运动。
虽然动作设计有点幽灵,但正如你从演示中看到的那样**,目前对拥抱的使用被利用了"由技术生成的数字人类在动作流畅性和角色真实感方面已经接近完成的身体。
这也预示着苹果在数字渲染领域向前迈出了重要一步,特别是在动态场景中创建和渲染人类数字孪生的能力方面。 因此,使用Vinsion Pro,可以通过相关技术快速生成数字人类,并基于这些技术进行多样化的应用。
除了与 Vinsion Pro 的潜在组合可能性外,Hugs 的这些功能还使其成为电影制作、游戏开发、虚拟现实等领域的宝贵工具,尤其是在需要快速、高质量渲染动态人类角色的场景中。
借助 HUGS 技术,创作者和开发者可以更自由地创作新颖的姿势和观点,为数字创作开辟了新的可能性。
当然,这一突破并非一蹴而就——近年来,苹果在虚拟人相关技术上的诸多探索,成为Vinsion Pro未来图景的基石。
回顾苹果的虚拟人相关动作,2024年的animoji无疑是其中的关键一步。
Animoji 于 2017 年在 Apple 秋季发布会上首次亮相,Animoji 与 iPhone X 一起亮相,展示了当时一种新的交互方式
该技术通过 iPhone 的前置 TrueDepth 摄像头系统准确捕捉用户的面部动作,例如嘴巴、眉毛和眼球运动,并将这些表情实时映射到各种动画角色上,例如独角兽、机器人或猫头鹰。 用户可以选择不同的动画角色来录制和发送带有语音的动画信息,可以准确模拟和反映用户的表情和声音。
而后来发生的故事,我们已经很熟悉了:随着技术的不断进步,动话表情也被用于更广泛的场景,比如社交网络和生产。 与此同时,其他类似的产品开始疯狂地涌现,通过面部捕捉生成自己的头像的热潮每隔一段时间就会重演一次。
同时,随着时间的推进,苹果在虚拟人相关技术的探索上也取得了进一步的进步——很多技术细节都充满了阿尼莫吉的影子。
根据目前的消息,苹果会提前在Vision Pro上输入用户的3D人脸数据,并生成一个自身的3D建模和渲染,即一个接近一对一还原的虚拟人,为了让虚拟人更加逼真,苹果将使用一种名为“情感识别”的新技术。
该技术旨在通过摄像头分析用户的面部表情和情绪。 根据该专利,需要面部识别技术来识别该系统中的用户,以便提供定制操作,而这项技术实际上源自苹果早年。
该技术最初是为 Siri 应用程序开发的。 当时,为了减少被误解的语音请求数量,苹果试图通过分析用户情绪来进一步提高准确性。 在早期的专利申请中,苹果正在开发一种新方法,通过将面部分析添加到Siri或其他系统的未来版本中,帮助Siri解释用户请求。
随着Vision Pro的问世,之前已经铺就的情感识别技术无疑即将迎来更大的用途。
除了努力打造更逼真的虚拟人,苹果也开始探索虚拟人的潜在应用场景。
Apple 最近为元宇宙**购物体验申请了专利,这是一项创新技术,旨在彻底改变购物方式——在虚拟环境中,用户可以直接与各种虚拟产品互动,就像在现实生活中一样。
该技术使用计算机生成图像 (CGI) 和扩展现实 (CGR) 技术将数字零售体验提升到一个新的水平,允许用户通过虚拟通信会话与远程销售人员实时互动。
例如,用户可以从虚拟电视上拿起虚拟智能手机并体验其所有功能,以一种使虚拟对象看起来与真实物理对象一样逼真的方式进行交互。 此外,该专利还提出了在VR环境中的应用场景,包括虚拟零售店、虚拟桌子和产品展示。 这些应用程序不仅限于在现实世界中展示产品,还可以包括虚拟位置,例如历史位置或虚构场景。
通过这项专利,苹果旨在解决购物中缺乏即时反馈和互动性的问题,让用户即使在家中或任何远程环境中也能享受面对面的购物体验。 用户可以通过简单的手势在 CGR 环境中启动零售体验,或交互式体验虚拟产品演示,而销售人员可以远程操作产品以突出其特性和功能。
在不久的将来,Vision Pro用户将能够体验高度逼真的化身,并在更身临其境的环境中与他们互动,从而开辟了在娱乐、教育和远程通信中体验它们的新方式。
至此,苹果的虚拟人之路已经清晰地展现出来:即以真实的数字化身为主要方向,通过对动作、细节、情感、场景等的改进,让数字人无限接近现实。
与目前超写实的虚拟人或**虚拟人不同,苹果选择的路径更接近于通过真实材料构建真实数字克隆的路径。
虽然目前真人可以很逼真,但其应用更多是在2D平面,也就是在手机、电脑等的显示屏上,生成的内容主要是口播,而摄像头的范围基本局限于上半身,以面部动作为主, 身体其他部位的运动受到限制。
在Vision Pro即将开启的空间计算时代,对现实生活中的数字人及其全身运动的要求将达到前所未有的高度。
此前,《元地平线世界》中**角色的低俗幼稚,以及只能展现虚拟角色上半身的怪异感,成为其开发过程中的两大障碍:
一方面,低幼稚感的形象自然会让虚拟空间更加好玩,从而阻碍其生产力的扩张另一方面,展示角色上半身的怪异很容易破坏身临其境的体验。
显然,苹果认知中的虚拟人乃至虚拟世界,一定是以无限接近现实世界为目标的。
ios 17.2 更新后 Space** 录制功能的正式亮相也是实现这一目标的关键一步。 虽然目前的功能只能录制 1080p 60 fps 的内容,但根据已经体验到的反馈,它已经可以实现接近现实世界的沉浸感。
虽然HUGS生成30分钟数字人的时间还有些长,但情感识别功能的具体应用效果,以及购物等场景能在多大程度上满足人们的期待,还需等待Vision Pro售后揭晓,而空间的分辨率限制**1080P距离耳机的高标准要求还有一定的距离。内容为8K甚至16K,但关于真实数字人类和真实场景构建的虚拟世界的谜题越来越多。
经过相关技术的进一步完善和整合,只需要一段**的时期,就能构建出一个场景真实、人物逼真的虚拟世界,其实比想象的要近一些。