2024年科技圈最火的概念无疑是AI模式,不仅国内的阿里和腾讯,海外的Microsoft、Meta、谷歌、亚马逊,甚至做硬件的手机厂商,现在似乎都在试图讲述一个AI赋能的故事。 此前,vivo 的蓝心模型已经在 S18 和 X100 系列上运行,三星的高斯模型也即将出现在 Galaxy S24 系列上。
就在安卓阵营的朋友开始涉足端面模式时,苹果自然也不甘落后。 日前,苹果人工智能相关研究人员表示,他们在将大型模型部署到iPhone和其他内存有限的苹果设备上方面取得了关键突破,他们发明了一种创新的闪存利用技术,可用于存储来自大型模型的数据,以应对内存限制。
在一篇题为“LLM in a Flash: Efficient Large Language Model Inference with Limited Memory”的文章中,Apple 描述了一种在超过可用 DRAM 容量的设备上运行大型模型的方法。 它构建了一个基于闪存的推理成本模型,并使用了两项关键技术:窗口化和行列捆绑,以最大限度地减少数据传输并最大限度地提高闪存吞吐量。
其中,窗口化允许苹果的大模型不会每次都加载新数据,而是复用部分处理后的数据。 行列技术通过更高效地对数据进行分组,使大型模型能够更快地从闪存中读取数据。 事实上,从某种意义上说,这项新技术更像是他们刚刚发布的MLX框架的扩展。 MLX是一种新的机器学习框架,旨在在苹果的芯片上更高效地运行各种机器学习模型,与其他框架的显着区别是统一内存模型。
也就是说,在过去的一年里,苹果并没有对这股AI大模型的热潮无动于衷,而是一直在根据自身产品的特点,默默地打造合适的大模型。 在更小的内存规模的基础上,在设备端运行一个大模型,而不是扩展未来设备的内存规格,是苹果给出的答案。
至此,几乎所有主流手机厂商也都加入了将端端大机型部署到手机的行列。
为什么这些手机厂商对端面大型号感兴趣?小米集团AI实验室主任、自然语言处理(NLP)首席科学家王斌此前在接受**采访时表示,“等到春节左右,有些人觉得至少要去做,这场风暴来了,我们一定不能置身事外,如果我们不进入游戏, 我们将在竞争中处于不利地位。
毫无疑问,大家都清楚手机行业的现状,而经济衰退已经持续了很长时间,所以各大厂商也都期待着像全面屏一样引爆这个新概念的市场。
此外,设备端模式也承载着手机厂商对新技术的期待,点燃消费者更换手机的热情,他们认为人工智能将使手机能够帮助用户实现更多功能。 但与运行在云端的大模型相比,设备侧大模型的隐私泄露和数据安全风险大大降低,并且设备侧大模型还具有个性化和定制化的潜力,可用于解决特定场景下的问题。
更妙的是,设备端模式还意味着手机将把用户的需求理解到更高的层次,这与目前智能助手的功能相去甚远,这其实是“人工智障”。 此外,如果设备端大模型能够控制和调用其他应用,就像谷歌的AI Core一样,那么手机厂商与第三方应用之间的格局可能会在未来迎来翻天覆地的变化,手机厂商或许有能力对第三方应用产生实质性的影响,而这背后的好处是不可估量的。
只不过,与其他手机厂商相比,苹果在iPhone上部署大机型其实难度更大。 目前,手机上有很多端侧大模型用于用户体验,但在实际使用过程中,除了占用Android系统本身之外,8GB内存模型一旦设备侧大模型运行,几乎不会做任何事情。 事实上,内存对大模型的性能起着至关重要的作用,比如AMD刚刚发布的AI芯片MI300系列,它专注于大内存和高带宽。
测试结果是,统一内存可以让芯片运行更大的模型,但缺点是内存带宽低,推理速度不理想。 即使苹果没有拿出新的相关技术,事实上,iPhone可以在设备端运行大模型,但结果是推理速度可能是用户无法承受的。 最小化数据传输和最大化闪存吞吐量解决了这个问题。
目前,iPhone 15 和 iPhone 15 Plus 均配备 6GB RAM,而 iPhone 15 Pro 和 iPhone 15 Pro Max 最高配备 8GB RAM。 现阶段,据推测,为了在 iPhone 上运行设备端大机型,苹果很可能会增加新款 iPhone 16 系列的内存配置。 但苹果设备的内存**是众所周知的,继续给iPhone增加内存的结果可能会使其更加昂贵**。
要知道,上一次大规模涨价的结果还是iPhone放弃了市场份额,所以在目前Android旗舰产品力量不断追赶的情况下,苹果不太可能实施涨价。 同时,大模型的底层技术,即 transformers 架构,其实是基于分层推理的,而分层加载调度是目前优化内存的主要方式,所以两者的结合是苹果给出的解决方案。
这样一来,苹果在不增加内存的情况下爆发的潜力真的很惊人。
用一张图片描述冬天