解耦架构数据中心技术路线图(第一部分)。

小夏 科技 更新 2024-02-01

传统的数据中心架构主要以服务器为部署单元,实现计算处理和存储读写,通过网络实现服务器之间的连接和接入,其中服务器通过总线连接CPU、内存、GPU、硬盘等计算和存储资源。 第七届未来网络发展大会发布了《计算网络操作系统、光电融合服务、定制广域网》和《以网络IO为中心的Serverless数据中心》。**链接:

未来网络***2023)Collection1,Future Networks***2023):计算网络操作系统***2,Future Networks***2023):以网络IO为中心的Serverless数据中心***3,Future Networks***2023):用于光电融合服务的定制WAN***

ACDU中国行:数据库技术披露与应用实践合集“数据驱动企业数字化业务报告创新技术推动算力网络深度发展企业桌面虚拟化系统的设计与实现:企业终端运维、超融合基础设施、服务器虚拟化核心技术的现状与未来千兆光接入网技术进展高通量数据网络架构与关键技术***中国企业SaaS行业研究报告(2022)金融级分布式数据库***基础网络技术:千兆光宽带技术发展**(2023)构建边缘智能,推动算力网络新发展(2023)2023-2024年全球DICT技术趋势研究与判断 车载广播车载无线传输技术报告(2023)行业深度研究报告《控制混合多云》环境***全栈云技术探索与实践合集》2024年美国SaaS市场研究报告 受限于服务器内部总线的本地接入和有限容量,各种资源只能紧密耦合地存在,因此传统数据中心往往会购买各种类型的服务器来满足不同应用的计算和存储需求。

总的来说,基于服务器的数据中心存在硬件扩展性不足、资源利用率低、资源使用弹性不足、容错粒度低等局限性,无法有效满足Serverless计算、分布式训练等新兴应用的多样化需求。

资源解耦数据中心架构的主要形式是构建CPU、GPU、FPGA、RAM、SSD、HDD等异构存储和计算资源池,通过网络将各个硬件资源池连接起来,实现资源池之间的互联互通。

上述资源解耦数据中心架构打破了传统服务器之间的物理边界,同时由于网络具有全局接入和高度扩展能力,可以摆脱传统数据中心架构以服务器为部署单元的束缚。

随着存储和计算资源应用需求的多样化、高速网络技术、高能耗硬件控制等,基于资源解耦架构的数据中心迎来了发展机遇。

1)应用需求多样化。

在资源性能方面,不同领域的应用涉及不同类型的数据操作,适合使用特定的计算芯片进行处理,例如人工智能领域涉及的矩阵或向量的乘法和加法,具有较高的特异性和过高的计算功耗,不适合使用通用CPU进行计算。

应用在存储计算资源需求和性能方面的多样化需求,推动了数据中心向资源解耦架构的演进。

2)高速网络连接。

CPU、GPU、RAM、SSD等存储和计算单元的解耦,使得以前耦合在同一台服务器中的资源之间的通信现在必须通过网络,这大大增加了它们之间的数据交互延迟。 因此,网络技术决定了上层应用的性能和池化硬件资源的能力。

3)高能硬件控制。

为了解决本地服务器资源利用率低的问题,单类资源池化是当前主流的发展方向之一,吸引了众多厂商的加入,其关键技术在于远程资源的高效管理和使用。

随着网络和硬件技术的飞速发展,资源解耦架构因其资源利用率高、硬件可扩展性好,成为未来数据中心的主要发展方向之一。

1.以CPU为中心。

在“以CPU为中心”的技术路线下,各种计算和数据处理任务由CPU执行,而其他组件则为CPU提供支持和服务,这也是当前资源耦合服务器的操作系统设计基础。

以CPU为中心+计算卸载是目前构建资源解耦数据中心的技术路线之一,其中内存和CPU仍然紧密耦合,以减少对传统“CPU中心”操作系统的修改。 在这条技术路线上,目前只有一些潜在的提案,比如 Fungible DPU、Intel IPU、阿里云 CIPU、CXL 等,因为目前它所针对的部署场景中还有大量完整的服务器。

1.1 fungible dpu

Fungible F1硬件架构主要由数据集群、控制集群、网络单元三个功能部分组成。 总共有 8 个数据集群,每个集群有 6 个核心和 4 个线程,用于运行数据平面,以加速与数据相关的操作,例如移动、查找、分析、安全等。 控制集群是一个四核、双线程的Linux控制平面,主要负责RSA、椭圆曲线等不同加密算法的安全认证和加速。

该网络单元总共支持 800G 带宽,支持 TCP UDP、RDMA over TCP 和 TrueFabric 端点卸载,支持使用 P4 语言对数据包路径进行编程,并支持 IEEE1588 精确时间协议 (PTP)。

TrueFabric是Fungible通过基于标准UDP IP以太网的新型Fabric控制协议提出的大规模数据中心网络互联互通的新标准。 Fungible F1 DPU 原生支持 TrueFabric,因此 F1 DPU 可用于大规模 TrueFabric 数据中心网络,不同类型的服务器可以使用 Fungible DPU 作为网络接入点。

TrueFabric 可以从使用 100GE 接口部署的小型服务器集群扩展到使用 200GE-400GE 接口的数十万台服务器的大规模部署,并且可以在不关闭网络的情况下进行增量扩展,以实现真正的始终在线运行。 所有部署都使用相同的互连拓扑,中小型部署使用单层主干交换机,大型部署使用主干层和枝叶层。

上图是基于 TrueFabric 和 F1 DPU 的数据中心部署的抽象视图,具有四种服务器类型的多个实例:CPU 服务器、AI 数据分析服务器、SSD 服务器和 HDD 服务器。 每个服务器实例都包含一个可替代的 DPU,该 DPU 以固定带宽(例如 100GE)连接到网络。 同时,在大规模部署中,每个DPU之间都有专用的100GE链路。

1.2 intel ipu

在高度虚拟化的数据中心中,需要消耗大量服务器资源来处理用户应用程序之外的任务,例如虚拟机管理程序、容器引擎、网络和存储功能、安全性以及大量网络流量。 为此,英特尔推出了基础设施处理单元(IPU),下图利用了基于IPU的架构,允许云服务提供商(CSP)将与基础设施相关的任务从CPU卸载到IPU,从而释放服务器CPU周期来处理任务,以增加数据中心收入。

通过将基础设施相关任务卸载到IPU,CSP可以将其所有服务器CPU出租给客户。 目前,英特尔提供两种IPU架构,包括基于FPGA的IPU和基于ASIC的专用IPU。

目前,有两个基于FPGA的IPO,分别是Oak Springs Canyon和Arrow Creek。 Oak Springs Canyon 基于英特尔的 Agilex FPGA 和 Xeon-D CPU 实现,两者协同工作以卸载 2x 100G 工作负载并优化围绕 x86 的丰富软件生态系统。

Oak Springs Canyon 利用英特尔 OpenFPGA 堆栈,这是一种可扩展的源代码可访问软件和硬件基础设施堆栈,可满足 100G CSP 的部署需求。 Oak Springs Canyon 还具有强化的加密块,可实现线速性能,以保护所有基础设施流量、存储和网络。

Arrow Creek是一个基于Agilex FPGA和E810 100G以太网控制器的加速开发平台。 它建立在英特尔 N3000 Pack 的基础上,该套件目前已部署在全球许多通信服务提供商中。 Arrow Creek 提供灵活、加速的工作负载,例如瞻博网络 Contrail、OVS 和 SRV6。

Mount Evans是英特尔首款基于ASIC的IPU,可以通过PCIe连接多达四个至强处理器,并将计算负载卸载到IPU进行处理。 Mount Evans 有一个数据包处理引擎,支持许多现有用例,例如 vswitch 卸载、防火墙和虚拟路由通过扩展傲腾 NVMe 控制器来模拟 NVMe 设备;使用快速助手技术部署高级加密和压缩加速支持在DPDK、SPDK等软件环境下编程,支持自研P4编程语言配置流水线。

1.3 阿里云 CIPU

云基础设施处理单元(CIPU)是阿里巴巴集团提出的一种云处理器,专门用于连接服务器中的硬件和云上的虚拟化资源。 CIPU快速将数据中心的计算、存储、网络资源上云,并进行硬件加速,向上对接飞天云操作系统。

在计算方面,CIPU支持协同计算,可以将计算任务分发到多个节点进行处理,实现更高的计算效率和可靠性。 在存储方面,CIPU提供“飞天分布式存储”技术,可以将数据分发并存储在多个节点上,提高数据的可靠性和可扩展性。 在虚拟化方面,CIPU 可以在同一物理服务器上运行多个虚拟机以提高资源利用率,同时支持容器化管理,以快速部署、管理和扩展各种应用程序。 在编程方面,阿里巴巴的CIPU架构提供了一整套AI框架,包括TensorFlow、PyTorch等,支持各种AI应用场景。

1.4 cxl

CXL(Compute Express Link)由英特尔、戴尔和惠普等公司于2024年推出,是一种基于PCIE的开放式互连技术标准,可实现CPU与GPU、FPGA或其他加速器之间的高速高效互连,以满足高性能异构计算的要求,同时保持CPU内存空间和连接设备内存之间的一致性。

CXL 定义 CXLio、cxl.缓存和 CXLMEM 三种协议。 cxl.IO 协议是 PCIe 5 的改进版本0 协议用于初始化、链接、设备发现和枚举以及寄存器访问,同时为 IO 设备提供不一致的加载存储接口。

cxl.缓存协议定义了主机和设备之间的交互,允许连接的 CXL 设备使用请求和响应方法高效且低延迟地缓存主机内存。 cxl.MEM 协议使 CPU 能够使用外部设备作为主存储器,从而实现更大的存储器容量。 通过这三种协议的组合,可以连接不同类型的设备,包括PGAS NIC(Type-1)等网卡,高性能计算中的GPU(Type-2)等加速器,FPGA(Type-2)和内存扩展设备(Type-3)等。

目前,CXL 标准已发展到 CXL30。与传统的 PCIe 树形结构和前几代 CXL 相比,CXL30增加了对二层交换机的支持,实现了叶脊等非树状网络架构,如图2-9所示。 CXL 网络可以支持 4096 个节点,并通过基于端口的路由机制相互通信。 在这里,节点可以是主机 CPU、CXL 加速器、PCIe 设备或 GFAM(全局结构附加内存)设备。 GFAM 设备类似于传统的 CXL Type-3 设备,不同之处在于可以使用基于端口的路由以灵活的方式由多个节点(最多 4095 个)访问。 因此,CXL 30不仅可以实现计算资源和存储资源在一个机柜内的池化和解耦,还可以在多个机柜之间建立更大的资源池。

**链接:

数据库历史视角下知乎多云缓存的演进云环境下企业运维平台的演进“2023:OLAP引擎架构峰会合集(上)”“2023:OLAP引擎架构峰会合集(上)”2023云服务行业趋势与热点“”2023数据库技术架构合集(4)“”2023数据库技术架构合集(3)“, 《2023数据库技术架构合集(2)回归数据原点:企业数据库技术解读》《2023数据库技术架构合集(1)》《2024年国内数据库实践合集》研究框架:华为计算的崛起(2023)存储系统基础知识研究发展现状与趋势存储技术趋势分布式存储趋势及其对云存储的影响

2、数据中心可持续发展要求

3. 数据中心绿色设计***2023)。

4、新型数据中心高安全技术体系

中国网络安全市场行业报告收集年度 中国网络安全市场全景

2.《中国网络安全行业分析报告(2021)》。

3. 中国网络安全行业***2022)。

4. 中国网络安全行业***2022)。

操作系统技术合集》1、统信服务器操作系统企业版v20PDF 2,中标麒麟桌面操作系统软件(arm64版)。pdf国产桌面操作系统生态发展研究报告。 PDF 4、操作系统深度:国产大潮在上升,大海在跳跃。 PDF5,整车控制操作系统架构研究报告。 PDF 6、国产操作系统:布局全面深化,产业格局拓展。 PDF7、国内操作系统安全现状与发展。 pdf8.国内领先的操作系统,抢占自主可控的机遇。 pdf

9、谁是国产操作系统的主人?pdf

10. 计算机专题报告:HarmonyOS生态的商业模式。 pdf

11.龙芯牌艺汇sylixos操作系统。 pdf

2023 年云计算技术与报告合集》 1、云计算 *** 20237) 2.云计算面临的 11 种主要威胁 3.云计算安全等级保护 20合规能力***4、云计算重点行业应用报告5、云计算平台性能评估模型方法研究6、云计算标准与性能评估7、中国云计算创新活力报告。

云计算全栈云技术***合集》 本号所有信息均上传至知识星球并添加全栈云技术知识地球上的所有信息。 ‧‧end ‧‧免責聲明:本期重点介绍相关技术分享内容中表达的观点并不一定代表这个数字的立场,注明可追溯内容**,若发表文章有版权等问题,请留言删除,谢谢。

相似文章

    数据中心网络架构有多强?

    许多网络工程师在学习了基本和流行的技术后,总是会对数据中心技术产生浓厚的兴趣。数据中心是一个难以用短句定义的概念,它包含一整套复杂的设施它不仅包括计算机系统和相关配套设备,还包括冗余数据通信连接 环境控制设备 监控设备和各种安全装置。就在两年前,阿里巴巴建成了中国第一个超级数据中心,与传统数据中心相...

    超融合2023数据中心液冷技术“进设计院”系列活动圆满落幕

    为拓宽液冷技术在数据中心行业应用的新场景,促进数据中心高效提升和高质量可持续发展,加强设计单位对液冷技术创新趋势的理解和应用能力,超融合与CDCC联合举办了数据中心液冷技术 进设计院 系列活动,并携手行业专家,将数据中心液冷技术依次带入三大设计单元。月日,走进设计院 活动决赛在广东省电力设计院网络信...

    本地数据中心和云数据中心哪个更好?

    在当今数据驱动的时代,选择合适的数据中心已成为许多企业和组织的重要问题。本地和云数据中心各有其独特的优势和劣势,我们将从多个角度审视它们的优缺点。.数据安全。在数据安全方面,本地数据中心通常更占主导地位。由于数据存储在本地,因此企业可以更好地控制其数据的安全性和隐私性,从而降低数据泄露的风险。此外,...

    数据中心防雷技术要求电涌保护器

    该数据中心的防雷设备采用知名品牌产品,所有子系统防雷装置和后备保护器必须选用同一品牌产品。电涌保护器制造商应遵守ISO ISO和ISO质量及环境管理体系认证。本项目通信系统的防雷设备应符合下列国内外技术标准和规范。数据中心建筑物的电力线和通信线路应安装在LPZ与LPZ LPZ和LPZ的交界处,以及终...

    nVisual可以为数据中心解决哪些问题?

    NVuild 使数据中心管理人员能够通过可视化管理有效且高效地管理数据中心的资产 电缆 容量和变更使数据中心经理能够获得问题的答案,以便他们能够快速做出更好 更明智的决策 我们有什么?它是如何配置和连接的?它位于 哪些企业使用它?它的维护是什么?我们的设备如何连接到网络 存储和电源?如何轻松了解物理...