聪明的东西
编译 |徐珊
编辑 |鹏云
大模之战席卷了整个2024年,紧接着,各大科技巨头似乎都瞄准了AI可穿戴设备,尤其是智能眼镜!
智东12月18日报道称,据悉,Meta、谷歌、Microsoft、OpenAI等科技巨头正准备将AI大模型应用于智能眼镜等配备摄像头的可穿戴设备。 他们认为,智能眼镜等硬件将成为AI大模型的合适载体,因为多模态AI大模型可以处理声音、**等多种类型的信息。
最近,各大科技巨头一直在尝试将人工智能功能整合到不同的移动设备中。 据知情人士透露,OpenAI 最近将“GPT-4 with Vision”物体识别软件嵌入到社交公司 Snap 的产品中。 这可能会为Snap的智能眼镜Spectacles提供新功能。
Meta 上周二还展示了其自己的 AI 集成到 Ray-Ban 智能眼镜中的有效性。 智能眼镜可以通过AI语音助手描述用户所看到的内容,同时能够告诉用户哪件衬衫适合哪条裤子,并具有一系列新功能,例如将西班牙语报纸翻译成英语。
亚马逊 Alexa AI 助手团队中还有一个团队正在开发一种具有感官功能的新 AI 设备。 此外,与大多数手机制造商一样,谷歌已经开始尝试在手机中使用AI功能。
今年 6 月,苹果 Vision Pro 头显正式亮相,计划明年发布**。 然而,根据The Information,该设备最初可能不具备多模态AI功能。
当一场新的移动终端革命开始,苹果、Microsoft、OpenAI、Meta等科技巨头将如何布局新的战场? 他们如何在主要硬件上突出自己的AI优势? 哪些新的AI硬件可能成为AI大模型的最佳载体? 通过最新的爆料,我们可以看到,一场AI硬件创新大战正在打响。
在《双子座》中,上周刚刚发布的一个大型人工智能模型展示了人工智能如何根据模仿者的动作猜测电影的名字。 它还显示了详细信息,例如如何猜测地图、如何处理手动问题等。
虽然内容可能会被编辑,但它也揭示了谷歌想要传达的基本思想:创建一个始终相同的人工智能,并且可以通过人们正在观看和收听的内容为用户提供直接反馈或帮助。 据一位直接了解谷歌消费者硬件战略的人士称,谷歌可能需要数年时间才能提供这种体验,因为实施基于环境的计算将是耗电的。
谷歌眼镜。 现在,谷歌正在重新设计其Pixel手机的操作系统,希望嵌入更小的Gemini型号,并升级其移动AI助手Pixie的体验,例如告诉用户他们可以购买他们刚刚拍摄的产品。
基于谷歌在搜索技术上的长期布局,The Information认为,基于周边环境信息,学习人们需要或想要的学习习和**AI设备似乎很适合谷歌。 虽然谷歌眼镜在十年前就失败了,但谷歌也推动安卓手机厂商通过手机摄像头扫描环境,将图像推送给谷歌,然后基于云系统进行分析,从而形成了“谷歌镜头”图像搜索应用。
熟悉该战略的人士表示,该公司最近取消了眼镜式设备的开发,但仍在为此类设备开发软件。 知情人士称,谷歌计划将其图像搜索软件授权给硬件制造商,类似于它使用其人工智能模型为三星等手机制造商开发Android移动操作系统的方式。
随着多模态AI模型的蓬勃发展,Microsoft的研究人员和产品团队也开始尝试升级他们的语音助手,并尝试在一些小型设备上运行AI功能。
根据专利申请和知情人士的说法,该型号可以支持一些价格实惠的智能眼镜或其他硬件。 Microsoft 计划在其 AR 头显 Hololens 上运行 AI 软件。 用户将头戴式设备前置摄像头对准物体,拍下照片**并将其发送给由 OpenAI 提供支持的聊天机器人,聊天机器人可以直接识别物体。 同时,用户还可以通过对话从聊天机器人中获取更多信息。
hololens
苹果的Vision Pro有很多新的多模态功能,但AI大模型的进展略显落后于其他模型。 目前,没有迹象表明Vision Pro在发布时将具有复杂的物体识别或其他多模态AI功能。
但苹果花了数年时间完善Vision Pro的计算机视觉功能,以便该设备能够快速识别周围环境。 这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。 也许,苹果正在开发一种可以识别图像和**的多模态大模型。
vision pro
但与其他公司正在开发的眼镜相比,Vision Pro体积大、重量重,不适合在日常户外场景中使用。
另一方面,据报道,苹果今年早些时候暂停了自己的AR眼镜的开发,专注于其头显的销售。 目前尚不清楚AR眼镜的开发何时会恢复。
Meta 首席技术官安德鲁·博斯沃思 (Andrew Bosworth) 周二在 Instagram 帖子中表示,一些雷朋眼镜用户将能够直接在智能眼镜端访问 AI 模型。
ray-ban
Meta 的一些领导者将 Ray-Ban 眼镜视为 AR 眼镜的“先驱”。 该设备可以将数字图像与周围的现实世界融合在一起。 按照原计划,Meta计划在未来几年内推出AR眼镜,但计划遇到了一系列困难。 具体而言,有报道称,智能眼镜难以吸引用户,下一代显示器的发展遇到了困难。
但多模态人工智能模型的到来似乎让博斯沃思和他的团队重新焕发了活力,他们明白,眼镜可以在短期内为客户带来一系列新的人工智能功能。
今年夏天,在亚马逊一年两次的产品规划中,Alexa团队的工程师提出了一种能够运行多模态AI的新设备。
据直接了解该项目的人士称,该团队特别专注于减少在设备上处理人工智能计算和内存(如图像、**和语音)的需求。 目前尚不清楚该项目是否获得资金,也不清楚该设备打算为客户解决什么问题,但它与该公司的Echo语音助手设备系列是分开的。
此前,Alexa团队还开发了一种名为Echo Frames的智能音频眼镜。 该设备不支持屏幕显示或摄像头。 目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。
这不是硅谷巨头第一次设计这种带有摄像头的可穿戴设备。 谷歌、Microsoft和其他科技巨头此前已经开发了AR头显。 他们希望能够让数字屏幕出现在头戴式设备的半透明屏幕上,提供分步指导来帮助用户完成任务。 然而,由于光学设计的复杂性,大多数产品的反应并不好。
OpenAI推出的多模态大型语言模型,可以通过视觉识别让AI知道人们在看什么,在做什么,并能提供关于这些行为和事物的进一步信息。 当大型语言模型开始轻量级化时,一些小型设备也可以配备模型,这些模型可以对用户请求提供即时反馈。 考虑到人们对隐私和安全的重视,人们可能需要一段时间才能接受智能眼镜,以及一些内置摄像头的人工智能设备。
The Information认为,带有AI助手的智能眼镜可能会成为与智能手机一样具有变革性的产品。 它不仅可以作为导师指导学生做数学题或问题,还可以随时向周围的人提供环境信息,例如翻译广告牌、告诉用户如何解决汽车故障等。
苹果公司前工程经理、人工智能搜索公司Objective首席执行官巴勃罗·门德斯(Pablo Mendes)表示:“大型人工智能模型对一切事物都是必不可少的,它们将在计算机、手机和其他设备的底层架构中发挥作用。
在ChatGPT掀起的第三轮人工智能热潮中,多模态大模型属于底层基础设施,ChatGPT属于直接应用,这是明确的答案。 但ChatGPT可以在哪些设备上最大限度地发挥其应用潜力,哪些设备是大型语言模型的最佳载体? 这些都成为OpenAI、Microsoft、Google等科技巨头现在开始探索的方向。
从The Information的最新爆料来看,带摄像头的智能眼镜已经成为众多巨头探索的重要方向,一些企业已经开始探索开发新的可穿戴AI设备。 或者,尝试在手机上适配各种AI模型。
事实上,不仅仅是科技巨头有这种想法。 在中国,许多AR眼镜制造商也认为这是机会所在。 “机器人和AR眼镜可能是这波人工智能模型的最大受益者。 一位关注AI行业十余年的业内人士表示。
但在同样的设计思路下,谁能最终调优出最好的轻量级AI模型呢? 谁能打造出最实用的智能眼镜? 我们将继续关注科技巨头的进展,以找出答案。
*:the information