阿里云 ACK One Serverless Argo 助力 Deeppotential 构建高效任务平台

小夏 科技 更新 2024-01-31

作者:田双坤,于洋洋,孙建祥。

作为“AI for Science”科研范式的引领者和践行者,申时科技致力于利用人工智能和多尺度仿真算法,结合先进的计算方法解决重大科学问题,为人类文明最基础的生物医学、能源、材料与信息科学与工程研究打造新一代微尺度工业设计与工程平台。

对于神石的科学家和用户来说,每天都要进行大量的一流计算和实验,对应数以万计的任务运行,因此神石科技自建机器学习任务平台,实现任务开发和训练的自动提交和操作,但随着业务的发展, 任务数量和复杂度急剧增加,平台上存在诸多痛点。

在使用任务平台的过程中,主要遇到以下痛点:

1)无法保持高效和弹性

服务峰值可能达到10000个节点,资源供给不足,会导致服务失败。 跨系统调用任务时,等待时会产生空闲的 Pod,空闲会导致资源浪费。

2)操作维护困难

任务引擎是基于开源构建的,当出现问题时,需要专业人员来定位问题,并且由于用户提交的任务参数复杂,步骤多,往往需要数小时,成本巨大。

为了避免服务之间的交互,根据服务对不同的集群进行区分,这进一步加剧了运维的难度。

3)稳定性低

当集群中运行大量工作流时,控制面压力过大,导致集群不可用、服务损坏、任务失败重试机制不完善、整体任务完成率低。

4)安全风险

权限控制难度大,无法实现用户级权限控制,且存在诸多潜在的不稳定因素,难以保证业务和主机安全。

Argo Workflows 是 CNCF 毕业项目最受欢迎的云原生工作流引擎,与 Kubernetes 无缝兼容,在机器学习、数据处理、CI CD、自动化等场景中有着广泛的应用。

为了让企业更容易编排工作流,在短时间内轻松运行用于大规模机器学习或数据处理的计算密集型作业,并快速运行 CI CD 流水线,阿里云的分布式云容器平台 Ack One 提供了无服务器分布式工作流 Argo 集群(Serverless Argo),它使用阿里云弹性容器实例 ECI 运行工作流并优化 Kubernetes 集群参数,以实现高效弹性调度大规模工作流,同时配合抢占式ECI实例,优化成本。

ACK One Serverless Argo 托管开源 Argo 工作流,这些工作流与社区标准完全兼容,并在此基础上进行了大量增强

1)跨区域弹性高,资源按需

结合大规模Serverless Pod和跨地域算力调度,高峰期可调度数十万级弹性资源,完美应对算力高峰。

增强开源 Argo 挂起机制,减少系统间调用时闲置资源的浪费,节约成本。

2)开箱即用,无需操作和维护

Serverless Argo 紧跟开源社区,托管并加强开源 Argo 工作流,支持大型工作流(5000+ Pod)、大规格、运行时更新重试,机器学习工程师无需感知底层架构,5 分钟即可获得稳定高性能的工作流引擎。

3)集群可靠性高

Serverless Argo 通过众多大规模使用场景的沉淀,针对工作流任务优化集群管控面参数,提升控制面稳定性,定时清理无效资源,保障集群长期稳定运行。

4) 安全

结合阿里云权限控制,Serverless Argo 可以提供细粒度的权限控制。 RAM账号支持登录SSO,支持命名空间级隔离,有效降低集群安全风险。

Serverless Argo 平台在高效、弹性、免运维、高可靠、安全等方面很好地满足了深势科技对机器学习任务平台的需求,迁移也是自然而然的结果。 此外,平台在事件驱动、数据接入、社区差异化等方面也进行了诸多优化和增强,让不同类型的用户在ACK ONE SERVERLESS ARGO平台上适应更多的场景和更丰富的能力,可以更轻松地搭建出符合自身业务需求的工作流平台。

5) 事件驱动

托管Argo事件,一键打开,集成支持MNS、OSS等阿里云产品和开源Git等事件源的驱动,自动触发任务运行,可以帮助用户构建事件驱动的全自动化工作流平台。

6) 数据访问

支持高带宽读取,提供的CNFS支持NAS、OSS、CPFS和多链路加速接入的混合,支持20GB+读取带宽。 提供分布式缓存加速能力,提升数据访问性能,降低任务启动延迟,有效降低成本。

7) 社区版差异化

相较于开源的Argo Workflows,除了保证稳定性和可靠性外,还提供了许多差异化能力,提升用户工作流的成功率和可观测性

自动感知任务的失败原因(OOM、Spot 释放、磁盘不足等)并重试并适应 Pod 资源扩容。 工作流 DAG 快速故障,继续进行逻辑优化,并更新 API 增强功能以支持运行时更新。 工作流端到端成本:资源可观测性支持、输入、输出、工件、UI 可观测性支持。 工作流支持非常大的输入参数。 加速工作流之间的参数解析,支持更扁平(2000+步)的工作流。 在技术方面,DeepPotential 和 ACK One 团队将向社区贡献积累的多项功能,进一步提升 Argo Workflows 项目的稳定性和易用性。

在业务端,由于 Serverless Argo 完全兼容开源的 Argo Workflows,原平台的每个业务模板无需修改即可无缝迁移,机器学习任务平台的整体迁移可在一周内完成。 原本分散的集群,现在借助 Serverless Argo 平台整合成一个高效统一的集群这一变化显著降低了运营成本,简化了管理,并提高了整体系统性能。

孙建祥,神石科技Lebesgue基础服务负责人对迁移过程的顺利进行感到满意。 他特别提到,“阿里云的积极协助在整个迁移过程中发挥了关键作用。 他们的专业团队为我们提供了全方位的支持,从解决方案的设计到迁移的实施。 Serverless Argo 平台让我们高枕无忧,因为 Serverless Argo 平台可以处理任何工作负载,并且我们非常欣赏非常大的工作流的易拉速度。 在Serverless Argo平台的大力支持下,我们有信心将更多的业务迁移到该平台,从而进一步提高研发效率,加速产品迭代和创新。 我们期待通过Serverless Argo平台,不断突破技术瓶颈,为用户提供更好的产品和服务体验。 ”

随着仿真**、科学计算等大规模数据处理需求的不断增长,ACK ONE Serverless Argo将持续提升其弹性和稳定性,以更好地支撑大规模数据处理的运行。 在CI CD和自动化方面,也将适配更多场景,驱动基础设施的自动化转型。 欢迎加入我们的钉钉搜索群。 (钉钉群号:35688562)。

点击链接如下了解有关分布式工作流 Argo 集群的更多信息。

相似文章

    阿里云UDP端口不可用(阿里云服务器端口已关闭)。

    首先是检查服务器相关的服务是否启动,通过命令检查端口是否打开,如果端口没有打开,则无法使用服务。二是检查服务器上防火墙的配置是否允许服务端口,是否配置在 区域。三是检查服务器的网络是否能正常访问,如果网络无法访问,也是无法访问。在机器上,打开浏览器,输入阿里云服务商的IP地址或域名,进入服务器的登录...

    阿里云牵头正式制定国际标准《Serverless Computing安全指南》。

    日前,在韩国举行的国际电信联盟电信标准处ITU T SG全体会议上,由阿里云牵头的国际标准 Serverless Computing Security Guidelines 正式获批。图 项目信息。在当今的数字时代,Serverless计算正逐渐成为云计算的新发展方向,其灵活 高效 成本优化的特点受...

    通过NineData,可以更轻松地将RDS MySQL的数据同步到RDS MySQL实例

    本文介绍如何快速同步RDS MySQL和云数据库MySQL到云数据库MySQL到ClickHouse的数据,这是阿里云推出的两种热门数据库解决方案,为用户提供可靠的数据存储和数据仓库解决方案。MySQL数据迁移 RDS MySQL版和云数据库ClickHouse的结合具有很强的潜力。RDS MySQ...

    阿里云新技术PilotScope将登上VLDB顶端,AI算法一键部署到数据库中

    月日,在国际顶级数据库大会VLDB上公布了新一批 阿里云新技术Pilotscope成功入围,可实现AI算法在数据库中的 一键部署 大大降低了AI算法在数据库中的应用门槛,为数据库智能化开辟了新的空间。同一天,阿里云宣布所有PilotScope技术都将是免费和开源的。图片说明 数据库顶部将 vldb ...

    米之云携手阿里云WiFi Box打破游戏规则,引领全球无线网络新革命

    随着全球数字化转型的加速,无线网络技术正处于一个关键的拐点。在此背景下,江苏米霆软件科技有限公司 以下简称米庭科技 携手阿里云深度定制科技推出的 米知云WiFi盒子 不仅为无线网络行业注入了新的活力,也预示着新时代的到来。在当今的商用WiFi市场中,用户对网络的依赖性越来越强,网络稳定性和安全性成为...