作者:田双坤,于洋洋,孙建祥。
作为“AI for Science”科研范式的引领者和践行者,申时科技致力于利用人工智能和多尺度仿真算法,结合先进的计算方法解决重大科学问题,为人类文明最基础的生物医学、能源、材料与信息科学与工程研究打造新一代微尺度工业设计与工程平台。
对于神石的科学家和用户来说,每天都要进行大量的一流计算和实验,对应数以万计的任务运行,因此神石科技自建机器学习任务平台,实现任务开发和训练的自动提交和操作,但随着业务的发展, 任务数量和复杂度急剧增加,平台上存在诸多痛点。
在使用任务平台的过程中,主要遇到以下痛点:
1)无法保持高效和弹性
服务峰值可能达到10000个节点,资源供给不足,会导致服务失败。 跨系统调用任务时,等待时会产生空闲的 Pod,空闲会导致资源浪费。
2)操作维护困难
任务引擎是基于开源构建的,当出现问题时,需要专业人员来定位问题,并且由于用户提交的任务参数复杂,步骤多,往往需要数小时,成本巨大。
为了避免服务之间的交互,根据服务对不同的集群进行区分,这进一步加剧了运维的难度。
3)稳定性低
当集群中运行大量工作流时,控制面压力过大,导致集群不可用、服务损坏、任务失败重试机制不完善、整体任务完成率低。
4)安全风险
权限控制难度大,无法实现用户级权限控制,且存在诸多潜在的不稳定因素,难以保证业务和主机安全。
Argo Workflows 是 CNCF 毕业项目最受欢迎的云原生工作流引擎,与 Kubernetes 无缝兼容,在机器学习、数据处理、CI CD、自动化等场景中有着广泛的应用。
为了让企业更容易编排工作流,在短时间内轻松运行用于大规模机器学习或数据处理的计算密集型作业,并快速运行 CI CD 流水线,阿里云的分布式云容器平台 Ack One 提供了无服务器分布式工作流 Argo 集群(Serverless Argo),它使用阿里云弹性容器实例 ECI 运行工作流并优化 Kubernetes 集群参数,以实现高效弹性调度大规模工作流,同时配合抢占式ECI实例,优化成本。
ACK One Serverless Argo 托管开源 Argo 工作流,这些工作流与社区标准完全兼容,并在此基础上进行了大量增强
1)跨区域弹性高,资源按需
结合大规模Serverless Pod和跨地域算力调度,高峰期可调度数十万级弹性资源,完美应对算力高峰。
增强开源 Argo 挂起机制,减少系统间调用时闲置资源的浪费,节约成本。
2)开箱即用,无需操作和维护
Serverless Argo 紧跟开源社区,托管并加强开源 Argo 工作流,支持大型工作流(5000+ Pod)、大规格、运行时更新重试,机器学习工程师无需感知底层架构,5 分钟即可获得稳定高性能的工作流引擎。
3)集群可靠性高
Serverless Argo 通过众多大规模使用场景的沉淀,针对工作流任务优化集群管控面参数,提升控制面稳定性,定时清理无效资源,保障集群长期稳定运行。
4) 安全
结合阿里云权限控制,Serverless Argo 可以提供细粒度的权限控制。 RAM账号支持登录SSO,支持命名空间级隔离,有效降低集群安全风险。
Serverless Argo 平台在高效、弹性、免运维、高可靠、安全等方面很好地满足了深势科技对机器学习任务平台的需求,迁移也是自然而然的结果。 此外,平台在事件驱动、数据接入、社区差异化等方面也进行了诸多优化和增强,让不同类型的用户在ACK ONE SERVERLESS ARGO平台上适应更多的场景和更丰富的能力,可以更轻松地搭建出符合自身业务需求的工作流平台。
5) 事件驱动
托管Argo事件,一键打开,集成支持MNS、OSS等阿里云产品和开源Git等事件源的驱动,自动触发任务运行,可以帮助用户构建事件驱动的全自动化工作流平台。
6) 数据访问
支持高带宽读取,提供的CNFS支持NAS、OSS、CPFS和多链路加速接入的混合,支持20GB+读取带宽。 提供分布式缓存加速能力,提升数据访问性能,降低任务启动延迟,有效降低成本。
7) 社区版差异化
相较于开源的Argo Workflows,除了保证稳定性和可靠性外,还提供了许多差异化能力,提升用户工作流的成功率和可观测性
自动感知任务的失败原因(OOM、Spot 释放、磁盘不足等)并重试并适应 Pod 资源扩容。 工作流 DAG 快速故障,继续进行逻辑优化,并更新 API 增强功能以支持运行时更新。 工作流端到端成本:资源可观测性支持、输入、输出、工件、UI 可观测性支持。 工作流支持非常大的输入参数。 加速工作流之间的参数解析,支持更扁平(2000+步)的工作流。 在技术方面,DeepPotential 和 ACK One 团队将向社区贡献积累的多项功能,进一步提升 Argo Workflows 项目的稳定性和易用性。
在业务端,由于 Serverless Argo 完全兼容开源的 Argo Workflows,原平台的每个业务模板无需修改即可无缝迁移,机器学习任务平台的整体迁移可在一周内完成。 原本分散的集群,现在借助 Serverless Argo 平台整合成一个高效统一的集群这一变化显著降低了运营成本,简化了管理,并提高了整体系统性能。
孙建祥,神石科技Lebesgue基础服务负责人对迁移过程的顺利进行感到满意。 他特别提到,“阿里云的积极协助在整个迁移过程中发挥了关键作用。 他们的专业团队为我们提供了全方位的支持,从解决方案的设计到迁移的实施。 Serverless Argo 平台让我们高枕无忧,因为 Serverless Argo 平台可以处理任何工作负载,并且我们非常欣赏非常大的工作流的易拉速度。 在Serverless Argo平台的大力支持下,我们有信心将更多的业务迁移到该平台,从而进一步提高研发效率,加速产品迭代和创新。 我们期待通过Serverless Argo平台,不断突破技术瓶颈,为用户提供更好的产品和服务体验。 ”
随着仿真**、科学计算等大规模数据处理需求的不断增长,ACK ONE Serverless Argo将持续提升其弹性和稳定性,以更好地支撑大规模数据处理的运行。 在CI CD和自动化方面,也将适配更多场景,驱动基础设施的自动化转型。 欢迎加入我们的钉钉搜索群。 (钉钉群号:35688562)。
点击链接如下了解有关分布式工作流 Argo 集群的更多信息。