摘要:欲了解更多关于李伟科技术在AI Agent + AR中的思路,以及CES展会的更多内容,VRAR Planet未来将发布对如怡的现场采访,大家可以继续关注。
2024年CES消费电子展(CES2024)将于北京时间1月10日至1月13日在拉斯维加斯举行。 本届CES展会以“All Together All On”为主题,聚焦“AI+”,强调全球消费电子产品的融合与协同。
在今年的CES2024上,发布与“AI+”相关的新技术的国内外公司并不多,这说明去年ChatGPT模式的爆发确实引领了整个行业的变革。 不过,根据VRAR星球前记者的反馈,除了大模型之外,很多海外公司更愿意强调另一个基于大模型延伸的应用——AI代理代理。
AI Agent在海外是一个非常感兴趣的话题,毕竟比尔·盖茨专门为此写了一篇长篇博文。
其中,比尔·盖茨有几个观点可以细细品味:
在不久的将来,任何在线的人都将能够拥有远远超出当今技术水平的人工智能代理;
人工智能代理将改变每个人与计算机交互的方式,并将导致计算机领域最大的革命,因为我们输入命令来点击图标;
AI 代理更智能。 他们积极主动,能够在您提出请求之前提供建议; 能够跨应用程序执行任务; 随着时间的推移而改进的能力;
在计算机行业,代理将成为支持应用程序和服务的下一个平台。
AI智能体已经吸引了全球各行各业的关注,学者、科技巨头、创业公司已经开始在一般或垂直行业和细分场景中,用不同的交互方式和能力来训练自己的智能体。
究竟是什么让比尔·盖茨和其他大佬蜂拥而至? 最简单的描述其实是——托尼·斯塔克在《钢铁侠》中的AI助手贾维斯。
虽然AI的概念最初就出来了,但所有带有“智能”字样的终端设备都会说,在推广的时候,要为用户打造属于自己的“Jarvis”。
不可否认,像贾维斯这样的人工智能助手确实满足了人类对智能伙伴的所有想象,可靠、聪明,甚至有点幽默,同时,贾维斯的情感让他更像一个人,而不是一个简单的系统。 然而,很长一段时间以来,在现实中出现的各种语音助手中,还没有一个拥有超智能、属于用户的“贾维斯”。
而类似贾维斯的智能助手的宣传,也受到了后续爆发的各种技术下的市场浪潮的冲击,直到2023年AI代理的出现。
根据开放AI的定义,AI代理是一个以大型语言模型为大脑驱动的系统,不仅具有理解和感知的能力,还具有记忆、计划、行动和使用工具的能力,是一个可以根据环境变化做出自主决策和自动化复杂任务的系统。
目前,大多数代理仍然通过计算机或手机上的应用程序与用户进行通信。 但在未来,所有可穿戴设备都可能成为代理的载体。
例如,AR设备,被称为下一代智能终端。 虽然从2023年开始,全球宣布将配备大机型的AR厂商并不多,但目前,李伟科科技是唯一一家明确提出AI代理概念并重点关注的AR厂商。
在本次CES展会上,VRAR Planet前面的记者也见到了李伟科科技,我们和李伟科科技创始人兼CEO如怡就代理这个话题进行了简短的聊聊。
在CES上,Ru Yi向用户展示了Meta Lens S3的功能
CES海外用户体验 李伟科科技Meta Lens S3
从技术趋势来看,探索大模型应用的创业公司基本都是在做代理,所以目前承载大模型和AI代理没有太大区别,但各公司前期布局和切入点的差异决定了后期代理能力的差异。
目前市面上大部分AR厂商主要集中在语言和视觉上,让AR眼镜能够更好地理解用户,理解用户的话,理解用户看到的一切。 代理还可以根据用户的历史偏好和交互来个性化“增长”。
例如,如果你想让代理帮你规划行程,它会像私人秘书一样,帮你规划行程,根据你目前的预算和过去的喜好直接预订航班和酒店,并在你到达目的地时充当导游,提供当地的交通信息和导航, 推荐和讲解当地的景点和活动,甚至帮你进行实时语言翻译等。 代理只需几秒钟即可完成所有这些规划和服务。
如怡表示,目前他们刚刚开启的City Walk功能是,在带来Meta Lens S3之后,无需查询各种策略,只需告诉小可玩需求在零以下(李伟科戴AR眼镜的智能助手),路线可以自动生成,让用户按照AR眼镜规划的路线开启City Walk, 并提供沿途吃喝玩乐的所有建议。路过景区时,小可会自动呈现景区背后的故事并讲解; 如果旅途中饿了或困了,可以通过零下小可找到用户所在位置附近的店铺,导航到店铺。
李伟科用户带来Meta Lens S3 City Walk
当然,这只是基于语言和视觉模型的AI代理的能力之一。
在去年的采访中,李伟科创始人兼CEO如怡表示:李伟科科技将基于多模态融合交互模型,为用户打造属于自己的“Jarvis”。
如怡提到的多模态融合交互模型强调,通过多方位大模型的集成协同工作,提供更全面、更丰富的交互体验。 例如,除了语言模型和计算机视觉模型外,还可以添加音频处理模型、情感分析模型等。
举个简单的例子,一个简单的语言模型仍然很难识别一些情感表达
从我们人类的角度来看,因为“的存在,这其实更像是一种撒娇的语气。 如果情感分析模型融合在大型语言模型之上,人工智能不会给出这种“面向机器”的答案。
如果音频处理模型是叠加的,智能体可以通过对方说话的语气和语气来判断对方的情绪,并可以给用户一些对话建议。
目前,越来越多的国内外企业加入了代理建设和应用的蓝海。 据海外**报道,Microsoft、谷歌、Meta和亚马逊都在准备将AI大模型应用于智能眼镜等可穿戴设备。
Meta 最近还展示了将 AI Agent 集成到 Ray-Ban Meta 智能眼镜中的有效性。 智能眼镜可以通过AI语音助手描述用户看到的内容,也可以通过识别后眼镜上的摄像头告诉用户如何匹配。
Microsoft的HoloLens还计划让AI代理直接识别对象,让用户拍摄Hololens的照片并将其发送给AI代理。 同时,用户还可以通过对话从AI代理那里获得更专业的信息。
亚马逊还表示,它可能会推出一款能够运行多模态人工智能的新设备。 可以看出,在大模型掀起的人工智能热潮中,大模型将成为底层基础设施。 但哪些终端设备将是大型机型的最佳载体? 手机、耳机、智能眼镜还是AR眼镜? 还有很多未知数。
在对智能体应用的探索中,如怡坚持了几个观点:
1.作为下一代智能终端,AI模型与AR眼镜的深度融合将大大提升后者的感知、认知和交互能力,从而创造全新的用户体验。
2.AI Agent将成为AR眼镜的核心能力,它不仅仅是交互那么简单,它可能是整合手机上所有应用程序的能力,也可能是一个系统。
3.在AI智能体的拟人化方面,如易认为,AI智能体应该具有特定的形象,而不是“虚无”或被想象成一个对象,从而在人与AI智能体之间建立情感联系,为用户提供更加身临其境的服务。
可以看出,李伟科科技在智能体的应用和探索方向上与国内外其他厂商不同:即AI智能体的拟人化。
目前,国内外研究AI代理的公司,无论是Meta、Microsoft还是其他厂商,在AI代理的外在形象和个性塑造方面几乎为零。
不过,在李伟科科技之初,瞄准了数字人李伟科AI家族的偶像包装,打造了李伟科AR眼镜的“灵魂”,打造了个性十足、背景故事完整的数字人类IP,获得了全网200w粉丝关注。
李伟科AI家族。
AI大模型的融合,就是为了让数字人李伟科的AI家族“活起来”。 毕竟,当AI智能体不再是一串**,而是一个拥有一些爱好、情感和特定形象的“人”时,整个交流的体验将完全不同。
现阶段,李伟科科技的重点是不断训练自研多模态交互大模型的能力,快速迭代提升智能体的能力,让数字人李伟科AI家族在拟人化或专业知识方面更加丰富。 至于AI代理在医疗、教育等方面的专业知识,李伟科科技可能会开发更多的数字人,或者选择其他代理进行合作。
当然,如沂并不否认,距离大家想象的AI代理还有一段距离,就算是与AR眼镜的融合,短期内也未必会有太大的飞跃。 不过,代理的出现正在为整个行业构建新的可能,李伟科将在大模型红利下继续探索代理的最佳AR应用场景。
欲了解更多关于AI Agent + AR中李伟科技术的想法以及CES展会的更多内容,VRAR Planet未来将发布对如怡的现场采访,大家可以继续关注。
温兴仁.
竖起大拇指,然后走吧