亚马逊云科技一直是云计算行业的风向标,也是龙头的领头羊,一年一度的re:invent大会吸引了整个行业的关注。 不久前,Re:Invent 2023 成功举办,不仅秉承了亚马逊云科技“客户至上”的理念,还发布了多项 IaaS 解决方案理念,在性能、成本、安全性等方面进行了进一步迭代。 让我们来看看本次会议的众多亮点。
在每届RE:INVENT大会上,最重要的信息都是自研芯片。 自2024年诞生以来,GR**ITON系列芯片已推出150种实例,云上200万片,交付50000名用户,获得TOP100客户认可例如,SAP:是GR**ITON的主要客户;
与 GR**ITON3 相比,96 个 Neoverse v2 内核、每个内核 2 MB 的 L2 缓存和 12 个 DDR5-5600 通道的组合使 GR**ITON4 的数据库处理速度提高了 40%,Web 应用程序的速度提高了 30%,大型 J**A 应用程序的处理速度提高了 45%。
本次大会特意强调DB和J**A场景,我们之前已经评估过了,确实是ARM的关键场景,相比GR**ITON在其他强势场景下,这两个场景的表现不够突出,这也是本次大会额外强调的原因。
几代ARM产品的主要参数如下。
EC2 R8G是基于ARM芯片的计算产品,单CPU支持96核,整机支持192核
Gr**Iton 支持大量云产品,包括 DB、大数据、容器、FaaS
新的 gr**iton4 内部有 96 个内核,并且基于 ARM"demeter"基于 ArmV9 架构的 Neoverse v2 内核与 64 核 gr**iton3 相比,内核数量增加了 50%。 这次采用7芯片设计,12个DDR5控制器分布在4个芯片上2 个 PCIe5 芯片和 CCIX Numa 互连 DI
超出预期的NUMA互联架构,ARM架构下的CCIX实现不是特别完善,延迟也非常大,但这一代GR**ITON居然跨过了这一步。
为什么 ARM 服务器架构从过去的独立 3 插槽架构转变为 NUMA 设计?
推测和位置是密不可分的:大型数据库、SAP Hanna 和无限的 Arura 数据库当然,这对CCIX互联有很高的时延要求,预计性能会很出色
关于性能设计,第一个图是传统的基准测试,推测应该是specint2017,这是一个标准化、易安装的程序,而一般的程序比较小,很难反映真实的业务绩效。 GR**iton CPU设计产品采用“Real Workload”基准测试,优化CPU设计;
MySQL 基准测试显示,在 8vCPU 上测试 Groovy Grails 应用程序时,它比 R7G 有 40% 的优势,而优势超过 45%。
据统计,目前Amazon Gr**Iton支持的Amazon EC2实例超过150种,已构建超过200万个Amazon Gr**Iton处理器,超过50,000家客户,包括Datadog、DirectV、Discovery、Formula 1(F1)、Nextroll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe、Zendesk等。 例如,SAP 在使用 Amazon GR**ITON 服务后,将成本降低了 35%,分析速度更快,同时将碳排放量减少了 45%。
在这次发布会上,我们对比的是上一代的ARM,并没有对X86的数据进行横向对比,可以根据GR**ITON3的性能进行推测。
GR**ITON3 于 2021 年发布时,与 GR**ITON2 相比的性能提升也可以作为 G2-3 的参考。
GR**ITON3采用ARM V1架构,而GR**ITON4则基于下一代V2架构,重点升级。
l2 cache:1->2m
ARM产品的V2架构被推翻,主要性能参数如下。
V2架构在微处理器的前端和后端都得到了优化和改进。
ARM的物理核心具有天然的优势,需要积累的是服务器端高性能负载下的算法,如指令**、乱序执行、随机存取数据场景下的缓存预取算法等。 与 V1 相比,V2 带来了 13% 的 SIR 改进和 10% 的 SLC MISS 降低的好处,这似乎通过内存访问消耗了大量的性能。 MOP Fetch 和 HW Prefetch 的性能提升最为显著;
branch predict/fetch/icache
x86 发布了两款产品:
第一个是 M7i-Intel SPR
CPU 96VCPU,双向 192VCPU,集成 AI 加速器。
最多 3 个2 GHz 第 4 代英特尔至强可扩展处理器 (Sapphire Rapids 8488C)。
新的高级矩阵扩展 (AMX) 可加速矩阵乘法。
最新的 DDR5 内存,与 DDR4 相比具有更大的带宽。
M7i-Flex 架构:这一代比上一代多了 1 个内核5 倍,但总 IO 性能相同,因此 Flex 获利。
最大值为 32vCPU,IO 为 125G网络10GEBS
性价比提升19%,*M6i降低5%,CPU性能提升15%。
M7i产品规格:
M7i-Flex 最多 32 核,IO 可以共享,最多只承诺 12 个5g、10g
性价比优势;
针对SAP HANA、Oracle、SQL Server等大型内存数据库场景,推出U7i产品。
U7i 最多支持 896 个 VCPU,这是 AWS 云中 VCPU 数量最多的。 它们提供高达 100Gbps 的弹性块存储 (EBS),即 25 倍以上,使客户能够更快地将数据加载到内存中并提高备份速度。 U7i 实例支持 EBS IO2 Block Express 卷,以在 Amazon EC2 上提供最佳 EBS 性能。 U7i 实例提供高达 100Gbps 的网络带宽,并支持 ENA Express。 U7i 实例非常适合拥有任务关键型内存数据库(如 SAP HANA、Oracle 或 SQL Server)的客户。
第二个是M7A-AMD热那亚产品。
与 M6A 实例相比,由 AMD EPYC(霄龙)处理器提供支持的 Amazon EC2 M7a 实例的性能提升高达 50%。
主要特点:Turbo 37 GHz 第 4 代 AMD EPYC 处理器 (AMD EPYC 9R14) GENOA
50 Gbps 网络带宽和 40 Gbps Amazon Elastic Block Store (Amazon EBS) 带宽。
多达 192 个 vCPU 和 768Gib 内存实例。
SAP 身份验证实例。
通过 AMD 安全内存加密 (SME) 支持全天候时钟内存加密。
支持 X3-512、VNNI 和 BFLOAT16 等新处理器功能。
新解读:上一代米兰最大裸机规格是192vpu,为什么这次没有提升?
AMD Genoa 原本是 96核、192HT 能力,为什么不推出 384vCPU 产品?
答案是他们做了SMT OFF处理,直接将物理内核暴露给用户,大大缓解了之前米兰时代内存不足、HT线性度差的问题同时,M7A追求单一的VCPU带宽,以确保最佳的应用性能和延迟。
EBS 和 S3 旨在每年发展,以增加带宽并减少延迟。
首先,带宽每年增加30%左右,今年将使用100G网络,50G用于VPC,40G将用于EBS,其余将进行控制。 随着核心密度的上升(192->256 384),下一代有望转向200G网络;
其次,存储延迟非常重要,每年都会向用户发布新的加速产品。
在 EBS 上,EBS IO2 Express 用于将延迟减少 10 倍
在 S3 对象存储产品上,S3 Express 单区用于将延迟降低 10 倍
过去我们从用户的角度看产品,但今年我们终于可以从EBS存储服务器的角度来看实现架构了
EC2--Nitro--SRD--EBS服务器,服务器规模使用gr**iton CPU,根据经验,ARM服务器做存储的IO、压缩、验证,可以大大发挥物理核心的优势。
在去年的新闻发布会上首次发布的EBS IO2 Express,今年有了更多的产品规格。
与之前的 IO2 相比,它提供了 4 倍的带宽和容量
与IO1相比,时延降低10倍,可靠性提升100倍,在高IO吞吐场景下成本降低50%。
IO2 Express基于SRD协议,大大增加了带宽并减少了延迟。 近年来,DCTCP和RDMA协议在数据中心得到应用,大大提高了IaaS互联的吞吐量。
今年发布了一款新产品,名字有点长,Amazon S3 Express One Zone,为了解决前面提到的文章,它是一款用于对象存储的 az 内缓存加速器,其实叫 S3 Express 更容易记住。
S3 的典型延迟为 10-200 ms,而对于 ML、大数据、数据分析等业务,计算需要等待数据就绪,计算集群消耗和浪费等待时间这就是 S3 Express 的用武之地。
解决方案的架构如下图所示
以下是几个关键点:
计算服务器 EC2 与 S3 Express 相同
延迟有 10 倍的速度,如上图所示,100 毫秒的延迟浪费了大量时间,可以优化 10 倍
据推测,使用 SSD 服务器集群,** 预计比由 HDD 组成的 S3 贵 10 倍。
Amazon S3 Express 单区是一种高性能的单区 Amazon S3 存储类,旨在为对延迟最敏感的应用程序提供一致的个位数毫秒级数据访问。 S3 Express 单区是目前延迟最低的云对象存储类,与 S3 标准相比,数据访问速度提高了 10 倍,请求成本降低了 50%。 应用程序可以立即受益于请求完成速度提高几个数量级。 S3 Express 单区提供与其他 S3 存储类类似的性能弹性。 与 Amazon S3 一样,无需提前规划或配置容量或吞吐量要求。 存储容量可以根据需要扩展或缩减,并且可以通过 Amazon S3 API 访问数据。 S3 Express 单区是第一个通过选择单个可用区并将对象存储与计算资源共置来提供尽可能高的访问速度的 S3 存储类。 此外,为了进一步提高访问速度并支持每秒数十万个请求,数据存储在一种新的存储桶类型中:Amazon S3 目录存储桶。 每个存储桶可以支持每秒数十万笔交易 (TPS),无论密钥名称或访问方式如何。
机密计算对于商业、金融和多方交易非常重要,但近年来普及率并不高英特尔退出了新交所芯片安全解决方案,ARM拥有TrustZone解决方案,AMD拥有自己的不同解决方案对于用户来说,最好有一个统一的方案。
Nitro Encl**es 通过将安全密钥等信息存储在统一用户域之外的单独 DPU 空间中来实现这一点,从而避免了为不同 CPU 修改程序的需要。 它可以与供应商和世代兼容还引用了巴西银行区块链的案例
今年的通用计算网络与上一代100G平台相同网络增强高达200G;AI网络单卡达到400Gbps对于搭载 ARM CPU 的 Nitro 平台来说,在 AI 场景中使用 Jumbo 将带宽翻倍相对容易当然,面对AI训练场景,480GB的机柜总线互联还是需要NVLink的。
随着越来越多的开源软件进入企业的生产业务,未来云计算的不可替代性需要芯片与软件的结合,多种产品矩阵的组合,为客户创造差异化价值,提供安全、高性能、低成本的产品和服务。
从十年的产品演进速度可以看出,亚马逊云坚持的产品战略:
成本控制:gr**iton自研芯片,降低60%功耗,让客户获利(过去价格低20%)。
为客户降价(M7i-Flex)并降低自身成本(6-7代共享100G网络)。
性能第一:AMD处理器产品,M7A(GENOA)策略:释放物理算力(提升50%),同时保证内存带宽(DDR5 4800,比上一代提升50%)。
GR**ITON策略:物理内核,大容量缓存,最大内存带宽;同时选用V1和V2系列ARM架构,密度降低一倍(与N系列相比),达到最佳性能
EBS Express 和 S3 Express 是带宽更高、延迟更低的存储产品
安全第一:从Nitro加密到网络加解密成本的硬件开销,内存加密要付出10%的延迟开销,仍然为客户提供最安全的解决方案。
推出用于机密计算的 Nitro Encl**es;
事实证明,亚马逊云科技可以为用户提供丰富的云应用选择,而这些选择也是行业内最先进、最高端的,不仅提供了差异化的竞争力,还让用户在第一时间调整业务,以适应未来数字化的发展。