** IT之家。
作者 |西苑.
今年以来,ChatGPT的火爆让生成式AI掀起了全球人工智能的新浪潮,正在成为千行百业转型的新动能,也是各大科技公司押注的未来。
例如,AMD最近推出了数据中心AI芯片AMD Instinct MI300X GPU,以及将最新的AMD CDNA 3架构与“Zen 4”CPU相结合的MI300A加速处理单元APU,引起了外界的广泛关注。
在“AI改变世界”的探索之路上,其实有一家公司很早就开始了布局,那就是英特尔。 2018 年,英特尔提出在 PC 上引入 AI,还针对 AI PC 开发人员推出了“AI on PC 开发者计划”。 此后,英特尔不断将AI能力融入其酷睿处理器产品中,从第10代酷睿-X开始,英特尔在其CPU中加入了AI、深度学习、习相关的加速指令,包括在架构层面提升AI的性能,将Intel GNA构建到SOC中,加速低功耗AI在PC上的应用, 等,并将 AI 加速单元引入 XE 和 ARC 架构的 GPU 中。
英特尔多年的探索也将在不久的将来迎来集中发布。 12 月 15 日,英特尔将在国内正式发布基于全新 Meteor Lake 架构的酷睿 Ultra 处理器,而在 Meteor Lake 处理器中,英特尔最重要的举措就是将 AL 引入客户端 PC,并在 Meteor Lake 处理器架构中集成独立的 NPU 单元,带来独立的低功耗 AI 加速能力。
具体来说,Meteor Lake 中新增的集成 NPU 单元可实现更高效的 AI 计算,并包括 2 个神经计算引擎,以更好地支持生成式 AI、计算机视觉、图像增强和协作 AI 等内容。 除了NPU之外,CPU和GPU还可以进行AI计算,在不同的场景下,会采用不同的AI单元相互应对和协调,使其整体能耗比比上一代提升高达8倍。
而当生成式 AI 基础被确定为 AI 2 时在0时代之后,英特尔也做了很多努力,让AIGC在PC的本地端运行得更好。
在我们的传统认知中,运行像ChatGPT这样的大语言模型,必须要有大显存的显卡支持,比如我们前面提到的AMD推出的Instinct MI300X GPU,但这确实离广大消费者有点远,而Intel为了让面向消费者的一代Core平台也能流畅运行各种大型语言模型,提供流畅的用户体验, 他们构建了BigDL-LLM库,专门针对Intel硬件的低位量化设计,支持int3、int4、int5、int8等各种低位数据精度,性能更好,内存占用更少。
通过该库,英特尔优化和支持各种大型语言模型,包括一些可以在本地运行的开源大型语言模型。 该库甚至可以在配备 16GB 内存的 Intel 轻薄笔记本电脑的机器上运行具有多达 160 亿个参数的大型语言模型。 此外,它还支持多种大型语言模型,如Llama llama2、chatglm、chatglm2等。
更不用说即将推出的酷睿超卓系列,以第12代和第13代英特尔酷睿处理器和英特尔锐炫A系列显卡为代表的英特尔客户端芯片,都提供了强大的性能,以满足生成式AI的高算力需求。 在这方面,IT House也做了实际测试。
在测试中,我选择了一款通过英特尔EVO平台认证的轻薄笔记本电脑:华硕Daybreak Air,搭载英特尔第13代酷睿i7-1355U处理器和16GB LPDDR5内存。
在这款华硕Daybreak Air上安装英特尔的大型语言模型演示。 该演示集成了三个大型语言模型,包括 ChatGLM2、llama2 和 Starcoder。 它们都使用英特尔的语料库进行了优化。
测试时,我先让大模型demo帮我以故事创作模式打开公司年会主持人的演讲稿,很快就呈现出完整合适的开场文案,全程第一次延迟只有12498ms。如果您自己思考和编辑,则需要很长时间,您可以使用 PC 上的 AI 模型在几分钟内完成。
在编写大语言模型的副本时,我看了一下华硕黎明空气性能资源的调度,第13代酷睿i7-1355U处理器利用率达到100%,内存使用率达到97GB(62%),XE核心使用率也达到了39%。 看来这个过程确实是在当地完成的。 随着英特尔的不断优化和第13代酷睿处理器算力的提升,确实有可能实现AIGC在轻薄笔记本电脑上的落地。
然后我测试了一个问题,提取了一条新闻的核心信息,它也可以快速准确地“总结”新闻内容。 这对于我们每天查询信息和整理报表非常有用,可以大大提高我们的工作效率。
最后,让大模特帮我写出朱子庆《背影》的提纲,也很快列举出一套合乎逻辑、完整、详细的大纲。 对于那些需要提炼和写大纲的人来说,比如老师,即使没有互联网连接,使用AI辅助教学工作也非常方便。
除了CPU,英特尔也非常注重GPU的性能优化,让GPU在设备端的AIGC任务中也能发挥更重要的作用。 例如,对于知名的开源图像生成模型 Stable Diffusion,英特尔已经实现了 OpenVino 的加速,并且他们开发了一个 AI 框架,只需单行安装即可加速 PyTorch 模型的运行。 Stable Diffusion Automatic1111 可以通过 Stable Diffusion 的 WebUI 在 Iris 集成显卡和 Arc 独立显卡上运行。
在实际测试中,您可以看到 Stable Diffusion 在华硕 Daybreak Air 轻薄笔记本电脑上的集成显卡上的表现。 96eu 版英特尔锐炬 XE 显卡具有强大的计算能力,支持在 Stable Diffusion 软件上运行的 FP16 精度模型,以快速生成高质量模型**。 让它产生一个“男人看电视”,在华硕破晓直播上,只用了1分多钟就“顺利上映”。
在搭建过程中,IT Home 也通过性能浏览器看到 GPU 占用率为 100%,CPU 占用率也为 15%,可见这**确实是 GPU 本地渲染的。
过去很难想象轻薄的笔记本电脑能有这样的性能,但随着第13代酷睿处理器在性能、功耗方面的进步,以及Iris XE Graphics(96EU)在FP16和FP32浮点性能上的显著提升,以及INT8整数算力的加入, 这些都大大增强了GPU的整体AI图形计算能力。这也是为什么像华硕Daybreak Air这样的轻薄笔记本电脑也能在本地很好地运行Stable Diffusion的一个重要因素。
而在我们开头提到的英特尔Meteor Lake处理器中,GPU核心图形性能将得到进一步提升,拥有8个XE GPU核心、128个渲染引擎、8个硬件光线追踪单元,还将引入ARC显卡异步复制、乱序采样等功能,DX12U也进行了优化。
从发展AI改变世界的角度来看,英特尔努力将AI广泛引入PC中,带领数亿台PC进入AI时代,具有重要意义,因为至少在可预见的未来,PC是人类最重要的生产力工具之一,生产力属性可以重生, 而个人计算的变革将进一步演变为整个社会生产力的变革。
所有这些都证明了英特尔在AIGC领域的领导地位。 他们的不断创新为用户提供了更加智能、高效的计算体验,推动了人工智能技术的发展和应用。 我们相信,随着技术的不断进步和完善,我们可以期待在未来看到英特尔更多、更强大的人工智能应用和解决方案,从而更快地迈向人工智能驱动的生产力解放时代。