自 Google 向开源社区发布 Kubernetes 以来的十年中,它已成为编排和管理的领先平台。
翻译自 Kubernetes Clusters H**e Massive Overprovisioning of Compute and Memory,作者:Jeffrey Burt。 自 Google 向开源社区发布 Kubernetes 以来的十年中,它已成为编排和管理软件容器和微服务的首选平台,击败了 Docker Swarm 和 Mesosphere 等竞争对手。 (还记得他们吗? 十年后,你不会记得了。 构建软件堆栈的公司已经采用 Kubernetes 来创建自己的容器平台,例如 Red Hat 的 OpenShift 和 VMware 的 Tanzu,几乎每个云服务提供商都在其众多服务下提供 Kubernetes,而且速度非常快。
根据云原生计算协会的数据,如今有超过 560 万开发人员使用 Kubernetes,占容器编排工具空间的 92%。 Kubernetes 非常强大。 Cast AI 联合创始人兼首席产品官 Laurent Gil 表示,Cast AI 是一家初创公司,其基于 AI 的自动化平台旨在帮助组织优化对 Kubernetes 的使用,这对于软件开发人员和 DevOps 工程师来说至关重要在日益分布式和加速的 IT 世界中。
将 Kubernetes 视为一个很棒的工具箱,“Gil 告诉 The Next Platform。 “我们过去一直使用单体式应用程序。 Kubernetes 的好处是你可以将你的应用程序分解成更小的部分,好处是一些部分可以复制,所以你可以很容易地扩展。 想象一下,你是Netflix——他们实际上使用Kubernetes——并且有数百万人同时涌入**。 如果您使用的是 Kubernetes,则可以无限复制这些容器来处理此流量。 容器非常适合这种情况。 您可以扩展它。 它几乎就是这样设计的。 ”
也就是说,开发人员在云中使用 Kubernetes 时会面临挑战,其中一个关键挑战是为应用程序配置 CPU 和内存。 去年,这家成立五年的公司研究了开发人员和 DevOps 人员的能力**,了解 Kubernetes 应用程序所需的 IT 资源量,结果并不好。
根据 GIL 的说法,开发人员通常要求比实际需要的计算和内存多得多,从而导致大量超支。 2022 年,请求的 CPU 和配置的 CPU 之间存在很大差距——37%,该公司发现去年差距进一步扩大到 43%。 这是基于开发人员想法的超额预配金额。
这意味着在一年之内,浪费实际上会增加,而不是减少,“他说。 “现在应该很清楚了。 如果您需要两个 CPU,只需配置两个。 不要配置三个。 但比去年更糟。 ”
Cast AI 研究人员还研究了开发人员实际使用了多少个配置的 CPU。 平均而言,这个数字是13%。 他们想看看这些数字在较大的集群中是否更好,但在具有 1,000 个或更多 CPU 的集群中,CPU 利用率仅为 17%。
具有 30,000 个或更多 CPU 的集群实现了 44% 的利用率,但只有他们检查的系统的 1%。
所有这些都表明 CPU 被大量过度配置,大部分计算能力处于空闲状态。
我没想到结果会很好,但我没想到会这么糟糕,“他说。 “平均而言,您的超额配置是 8 倍。 真正有效的那个。 在 100 台机器中——CPU 是 Kubernetes 中最昂贵的组件——你只使用了 13 台。 平均而言,您不会使用其余部分。 如果您有 100 台计算机,则它们都已使用,但每台计算机仅使用 13%。 Kubernetes 就像房间里的煤气。 它将填满空间。 如果该计算机上正在运行应用程序,则它们都将被使用。 它们将仅以 13% 的利用率使用。 ”
在 2024 年 Kubernetes 成本基准报告中,Cast AI 查看了去年 1 月 1 日至 12 月 31 日期间在 AWS、Azure 和 Google Cloud Platform 上运行的 4,000 个集群,然后使用供应商的平台对其进行了优化。 他们排除了少于 50 个 CPU 的集群进行分析。 另一个需要关注的领域是:跨云托管的 Kubernetes 平台的利用率。 在 AWS 上的弹性 Kubernetes 服务 (EKS) 和 Microsoft Azure 上的 Kubernetes Service (AKS) 上,利用率徘徊在 11% 左右,而在 Google Cloud 的 Google Kubernetes Engine (GKE) 上,利用率甚至更高,为 17%。 GKE 上的集群往往比其他两个集群大,并且该服务提供了自定义实例。
谷歌是 Kubernetes 的来源,它可能有精明的用户,它可以以这种方式翻译,“Gil 说。 “但你知道吗? 坦率地说,即使是 17% 也不好。 它仍然超额分配了五倍多。 想一想:你去找你的首席技术官,你说,'你知道吗? 您可以将云成本降低五倍,因为您实际上不需要那么多。 ’”
Cast AI 还查看了内存使用情况,并注意到平均内存使用率为 20%。 然而,内存比CPU便宜,所以如果CPU利用率更高会更好,GIL说。 但事实并非如此。
人们更关注记忆,从本质上讲,当他们更专注时,他们会做得更好,“他说。 “他们更关注内存,因为当容器内存不足时,容器会停止并重新启动。 CPU 具有弹性。 您可以从 0% 到 80%。 总有空间。 内存,你不能超过 100。 如果超过 100,它将崩溃。 它被称为“失忆”。 oom’。这是对DevOps和Kubernetes最大的恐惧。 他们更关注记忆,所以稍微好一点,但平均而言,它仍然太多了五倍。 ”
云平台之间没有太大区别,Azure的内存利用率最高,为22%,其次是AWS的20%和Google Cloud的18%。
研究人员在报告中写道,随着企业准备增加在云服务上的支出,他们需要解决这一利用率问题。 预计今年全球终端用户在公共云服务上的支出将达到 6788 亿美元,增长 20。 从 2023 年的 5636 亿美元4%。2022 年 8 月至 2023 年 8 月期间,AWS 在其最受欢迎的美国地区对 Spot 实例的定价平均为 23%。
十年前,许多积极涉足云计算的组织惊讶地发现,成本开始堆积,这与数据主权和监管问题一起,成为过去几年数据遣返背后的主要驱动力。 Gil 说,提高资源利用率会有所帮助。
他说,问题在于确定所需的资源仍然是一个高度手动的过程。 开发人员不知道他们的应用程序或集群需要什么,因为他们还没有大规模地看到它。 Gil 说,很难猜测微服务需要什么资源,并补充说,随着 Kubernetes 变得更加复杂,它不会变得更容易。
我们称之为非线性问题,你必须实时调整许多小变量,每个变量都会影响其他变量,“他说。 “这不仅仅是因为你只使用了其中的10%,而是你可能没有使用正确的变量。 这就是人类过度供应的原因。 他们知道这是不对的。 但出于某种原因,他们不知道该怎么办。 ”
越来越多的供应商正在提供自动化工具和平台,以改善云中的资源优化。 该系列包括 Cisco Systems 等知名供应商,以及 AppDynamics、Nutanix、AppTio、VMware 和 Flexera。 Cast AI 吹嘘其平台可以使用 AI 技术为组织节省 50% 或更多的云成本。 2023 年 11 月,该公司获得资金支持,在 B 轮融资中筹集了 3500 万美元,使筹集的总金额达到 7300 万美元。