今天分享AI芯片系列深度研究报告:华为昇腾AI芯片报告:华为计算——全球第二选择
SWS制作的报告)。
报告共:37页。
专题报告**:人工智能学院
昇腾910 AI算力(FP32和FP64)在一般并行计算能力方面可与A100和A800相媲美
华为的3D Cube可以在一个时钟周期内完成4096次FP16乘法和加法运算,更好地利用了矩阵乘法运算中的数据可复用性,以更少的存储和带宽实现相同的算力,但灵活性与NVIDIA相比有所降低。
昇腾构建了全面的上层软件栈,全方位支持AI开发
异构计算架构:CANN+AI开发框架MindSpore
算法开发:MindXDL(集群调度工具)、MindX Edge(边缘AI控制工具)、ModelZoo(提前适配昇腾芯片的198款模型,如骆驼、绽放、GPT等),以及行业应用开发套件MindX SDK
应用开发:ModelArts是一站式AI开发平台。
通信是大型模型训练性能的瓶颈之一,而吞吐量、带宽和连接架构是计算性能的决定因素之一。
与 GPT3 的 1000 亿参数模型类似,通信的端到端耗时占比为 20%。
对万亿参数MOE模型进行建模后,通信所需的端到端时间已急剧上升到50%左右。
英伟达:在芯片层面,采用高速C2C连接方案NVLiLINK,在集群层面引入Infiniband网络,将C2C场景下应用的NVLink扩展到设备之间的互联,并提出胖树胖树架构。
华为:与英伟达的思路类似,最新的华为Galaxy交换机使用800GE端口,减少了组网层数,而最新的Atlas 900超级集群只需2层交换组网即可实现非融合集群组网。
猜想1:算法芯片协同设计,如稀疏技术,提高BF16、TF32等数据的精度。
猜测 2:升级 HBM 并增加内存。
猜想三:加强芯片之间的互联互通,如英伟达NVLINK、谷歌TPU增加光路开关等;目前昇腾互联带宽为392GBS,仍存在数据传输瓶颈。
深度学习框架最大的工程量在于海量算子和众多后端芯片的支持。 虽然AI芯片厂商会根据自身芯片特性开发一系列算子封装成“深度学习库”,但有时它们并不是最优算子,深度学习框架厂商仍然可以优化和集成高层算子。
AI芯片厂商的生态屏障护城河已经形成,深度学习框架厂商要投入大量的工程才能只支持一款AI芯片,所以最终只选择1-2家市场份额最大的公司进行深度支持。
昇腾构建了一个名为 CANN 的异构计算工具,该工具以 NVIDIA CUDA+CUDNN 和 PyTorch2 为基准1. 支持华为
CANN在顶部支持多个AI框架,在底部调度算力(CP0u00+GPU,异构性)
CANN 有一个专用的 AI 框架适配器,用于适配 PyTorch 等框架来昇腾 NPU。
报告共:37页。
专题报告**:人工智能学院