边缘 AI 半导体公司 Ambarella 在 CES 上展示了一种在其新的 N1 SoC 系列上运行的多模态大型语言模型 (LLM),该模型仅使用 GPU 解决方案的一小部分功能进行推理。
Ambarella的目标是将生成式人工智能(GenAI)引入边缘端点设备和本地硬件,用于广泛的应用,包括安全分析、机器人和众多工业应用。
Ambarella最初将在中高端SoC上提供优化的GenAI处理能力,从现有的CV72(低于5W的设备性能)到新的N1系列(低于50W的服务器级性能)。 与 GPU 和其他 AI 加速器相比,Ambarella 提供了完整的 SOC 解决方案,每个生成的代币的能效最高可达 3 倍,同时能够在产品中立即进行经济高效的部署。
Ambarella首席技术官兼联合创始人Les Kohn表示:“GenAI网络实现了以前在我们的目标应用市场中无法实现的新功能。 所有边缘设备都将变得更加智能,我们的 N1 系列 SoC 能够以极具吸引力的功耗实现世界一流的多模态 LLM 处理**。 ”
Omdia高级计算首席分析师Alexander Harrowell表示:“在接下来的18个月里,几乎所有的边缘应用都将通过GenAI得到增强。 “当 genai 工作负载转移到边缘时,游戏的每瓦性能将与边缘生态系统的其他部分集成,而不仅仅是原始吞吐量。 ”
Ambarella的所有AI SoC均由该公司新的Cooper开发人员平台提供支持。 此外,为了缩短客户的上市时间,Ambarella预先移植并优化了流行的LLM,如LLAMA-2,以及在N1上运行的大型语言和助手(ll**a)模型,用于对多达32个摄像机源进行多模态视觉分析。 这些经过预训练和微调的模型将提供给 Cooper 模型库中的合作伙伴**。
对于许多实际应用来说,视觉输入是除语言之外的关键模式,而 Ambarella 的 SoC 架构本身非常适合以非常低的功耗处理 ** 和 AI。 与独立的 AI 加速器不同,提供功能齐全的 SOC 可以有效地处理多模态 LLM,同时仍然能够执行所有系统功能。
GenAI将成为计算机视觉处理的一个功能步骤,为从安全设备和自主机器人到工业应用的各种设备带来上下文和场景理解。 Ambarella 提供的设备端 LLM 和多模态处理示例包括: 用于安全性的智能上下文搜索**可以用自然语言命令控制的机器人;以及不同的 AI 助手,可以执行从生成到文本和图像生成的任何事情。
这些系统中的大多数都严重依赖摄像头和自然语言理解,并将受益于设备上生成的人工智能处理,以提高速度和隐私性,并降低总拥有成本。 Ambarella解决方案支持的本地处理也非常适合特定于应用程序的LLM,这些LLM通常在每个单独场景的边缘进行微调;传统的服务器方法是使用更大、更耗电的 LLM 来满足每个用例。
N1系列SoC基于Ambarella强大的CV3-HD架构(最初为自动驾驶应用而开发),以极低的功耗运行多模态LLM。 例如,N1 SoC 以低于 50W 的单流模式运行 LLAMA2-13B,每秒输出多达 25 个令牌。 结合易于集成的预移植模型,这种新解决方案可以快速帮助 OEM 将生成式 AI 部署到任何功耗敏感型应用中,从本地 AI 盒子到送货机器人。
本周,N1 SOC及其多模态LLM功能的演示将在CES期间在Ambarella展台展出。