好久不见,第 5 代英特尔至强可扩展处理器,它来了!
如果可以用一句话来概括它的特点,那就是AI的味道越来越浓
以训练和推理大型模型为例:
与 *** 相比,训练性能最多可提高,推理性能提升至
与第三代相比,AI 训练和推理性能提高了 14 倍。
什么概念?现在,如果将一个参数不超过 200 亿个的模型“馈送”到第 5 代至强可扩展处理器,延迟将低至此不超过 100 毫秒
也就是说,现在在CPU上运行一个大模型,真的是更香了。
而这只是英特尔公告的一小部分,包括Core Ultra,它打破了自己的“祖先”,被描述为四十年来最重要的架构转变。
此举也是为了将AI能力注入消费类PC,加速本地AI推理。
此外,英特尔在各行各业的长期AI实际应用,包括数据库、科学计算、生成式AI、机器学习、云服务等。
随着第 5 代至强可扩展处理器的到来,他们还借助其他内置加速器(如英特尔 AMX、英特尔 SGX TDX 等)实现了更大的成本降低和效率提升。
总而言之,在英特尔的整个版本中,人工智能可以说是贯穿始终的。
让我们仔细看看第 5 代至强可扩展处理器的披露。
例如,在性能优化方面,英特尔在各项参数上做了以下改进:
CPU 核心数增加到 64 个,单核性能更高,每个核心都有AI加速功能。
借助新的 IO 技术(CXL、PCIe5),UPI 速度得到了提高。
内存带宽已从 4800 mt s 增加到 5600 mt s
我们来和前两代英特尔的产品进行纵向对比,性能提升的结果如下:
与上一代产品相比,在相同的散热设计功耗下平均性能提高了 21%。;与第三代产品相比,平均性能提升了87%。
与上一代产品相比,内存带宽增加多达 16%,缓存容量增加近 3 倍*。
不难看出,第五代至强可扩展处理器与前代产品相比,在规格和性能方面确实提升了不少。
但英特尔不仅披露了它,它还采用了第五代至强可扩展处理器使用它,并展现出真实的使用效果。
例如,在大型模型的推理方面京东云现场展示了搭载第五代至强可扩展处理器的新一代自研服务器的能力
全线亮相,性能提升超过20%!
具体而言,京东云与上一代自研服务器相比,性能提升如下:
整机性能提升123%;
AI计算机视觉推理性能提升至138%;
LLAMA 2 推理性能提升至 151%。
这也再次证明,在五代至强上搭建大模型越来越流行。
除了大型模型外,涉及AI的各种细分领域,如机器计算能力、内存宽带、处理等,也有相同的测量结果。
结果基于第 5 代英特尔至强可扩展处理器火山发动机
全新升级的第三代弹性计算实例,整机算力提升39%。应用程序性能提高高达 43%。
而且,在性能提升的基础上,据Volcano Engine介绍,通过其独特的潮汐资源池能力,构建了百万核弹性资源池,可以提供类似月费的按量付费体验,上云成本更低
这是由于使用内置于第 5 代至强可扩展处理器中的加速器时,每瓦性能平均提高了 10 倍能耗低至 105W,还有一些针对工作负载进行了优化的节能 SKU。
可以说,它确实降低了成本,提高了效率。
在云计算和安全性方面,也来自国内厂商展现了实测体验阿里云
在第五代英特尔至强可扩展处理器及其内置的英特尔 AMX 和英特尔 TDX 加速引擎的支持下,阿里云创造了“生成式 AI 模型和数据保护”的创新实践,显著提高了第八代 ECS 实例的安全性和 AI 性能,同时保持相同的实例性能,造福客户。
其中包括推理性能提高 25%、QAT 加密和解密性能提高 20%、数据库性能提高 25% 以及音频性能提高 15%。
值得一提的是,内置的英特尔 SGX TDX 还分别为企业提供了更强大、更简单的应用隔离能力,以及虚拟机 (VM) 级别的隔离和机密性,为现有应用迁移到可信执行环境提供了更便捷的路径。
与第五代英特尔至强可扩展处理器一样,软件和引脚与上一代兼容,这也可以大大减少测试和验证工作。
总的来说,第五代至强可扩展处理器可以用“满满诚意”来形容,有着非常亮眼的表现,而它背后透露的是,英特尔一直以来都非常重视AI领域登陆态度。
事实上,作为服务器工作端芯片,英特尔至强可扩展处理器自 2017 年第一代以来一直在尝试使用 Intel*X-512 技术的矢量计算能力进行 AI 加速。
2018 年,第二代至强可扩展处理器引入 DL Boost 技术,使至强成为“运行 AI 的 CPU”的代名词。
在至强可扩展处理器从第三代到第五代的演进中,从BF16的加入到Intel AMX的进入,可以说Intel一直在充分利用CPU资源来追求它每一代处理器CPU都可以支持广泛的行业,以推进AI运营
起初,它是在传统行业。
例如,第二代至强发力智能制造帮助企业解决海量实时数据处理挑战,提升产线系统效率,完成“看得见”的产能扩张。
随后,至强可扩展处理器开始在大型模型领域展示其技能。
在alphafold2在蛋白质折叠热潮中,第三代和至强可扩展处理器不断被接力,不断优化端到端吞吐量能力。实现比 GPU 更具成本效益的加速方案,直接降低 AI for Science 的准入门槛。
其中,英特尔 AMX 是内置于 CPU 中的创新 AI 加速引擎,专为深度学习应用而推出。
作为矩阵相关的加速器,可以显著加速基于CPU平台的深度学习推理和训练,提升AI的整体性能,为INT8、BF16等低精度数据类型提供良好的支持。
同时,在大模型时代OCR技术应用,它也被至强可扩展处理器赋予了新的“灵魂”,具有飙升的精度和更低的响应延迟。
同样,不久前,在NLP上优化的至强可扩展处理器的帮助下,专门用于医疗行业的大型语言模型它也以较低的成本成功部署在医疗机构中。
在AI技术越来越渗透到各行各业的大趋势下,至强可扩展处理器让我们看到它所代表的CPU解决方案可以有所作为,可以使CPU平台上的很多AI应用部署更广泛、更容易接入、应用门槛更低。
第 5 代至强可扩展处理器的发布将这一过程向前推进了一步。
当然,这个成绩的背后,确实是因为大家都是对的“在 CPU 上运行 AI”。这是有需要的,它本身也具有极其深刻的价值和优势。
首先,无论是传统企业推动智能化转型,还是AI for Science、生成式AI等新兴技术的大力发展,都需要强大的算力驱动。
但是,我们面临的情况是:专用加速芯片供不应求,采购难度大,成本非常高,因此远未普及。
所以有些人自然而然地把目光投向了CPU:
这个现实,最“容易获得”的硬件,如果直接使用,岂不是事半功倍?
这让我们想到了 CPU 的价值和优势。
以当前热门的生成式AI为例,如果你想投入生产人气有了这种能力,就要尽可能地控制成本。
与培训相比,AI推理在计算资源需求方面并没有那么夸张将其留给 CPU 可以胜任这项任务,具有更低的延迟和更高的能效。
像一些行业和企业一样,推理任务没有那么繁重,选择CPU无疑更具成本效益。
此外,直接使用 CPU 进行部署使企业能够:充分利用您现有的 IT 基础架构避免异构平台的部署挑战。
综上所述,我们可以了解到,在传统架构中引入AI加速是CPU在这个时代的新命运
英特尔所做的就是尽最大努力帮助每个人挖掘和释放其中的价值。
最后,我们回到今天的主角:第 5 代英特尔至强可扩展处理器。
说实话,如果与专用GPU或者AI加速芯片相比,可能还不够耀眼,但主力是贴近人、好用(开箱即用,配套软件和生态越来越完善)。
更值得我们关注的是即使有专用的加速器,CPU从数据预处理,到模型开发优化,再到部署使用也可以成为 AI Pipeline 的一部分。
尤其如此数据预处理阶段,这已经可以称为主角的存在了。
无论是千兆字节、兆兆字节,还是更大的数据集,基于至强可扩展处理器构建的服务器都可以通过支持更多内存和减少 IO 操作来提供高效的处理和分析,从而节省 AI 开发中最琐碎和最耗时的任务的时间。
综上所述,我们也不得不感叹,英特尔在谈AI的时候,话题更加多样化。
此外,它还在GPU和专用AI加速芯片上进行了布局,“*库”中有更多的选择,覆盖火力的能力也更加全面。
毫无疑问,这一切都表明了英特尔全面加速人工智能的决心。
即利用一系列高性价比的产品组合,快速满足不同行业的AI落地需求。
AI落地时代已经开始,英特尔的机会也来了
结束