最近,我在知乎上看到了这样一个问题:
无论是实例还是虚拟机,一个运维可以管理4万台服务器吗?
主题:我有点迷茫,我想问一个人真的能管理40000台服务器吗? 不管是实例还是物理机。 国内有哪些厂商拥有如此大规模的服务器机群和集群? 大型制造商真的可以由一个人完成整个管道的开发、测试和在线维护吗?
秉承和平交流的学习态度,我们精选了几位知乎网友的精彩答案,分享给大家学习交流(不涨不上,不引战):No.1知乎网友:匿名用户经过10多年的老旧运维,目前管理着近1000台物理机,每年新增约100台,3个机房报废约20台。 以稳定和成本控制为核心,负责IDC货架规划、网络规划、设备采购、货架部署、安装交付等工作,主要工作如下:每年年底,至少花一个月的时间在预算上,包括 IDC 租赁、带宽、租用线路、设备要求和保修期外设备的备件等......设备硬件故障维护,每月约30次设备硬件故障,硬盘和内存最多,其余为主板、CPU、风扇。 某些重要服务(如数据库)可能会影响业务。 处理步骤目前还没有自动化,要做完了,人手不够(自动采集日志报修,投保后直接发维修工单)。 采购和上架是每季度一次,从启动到交付,费时费力。橱柜空间可以继续放在货架上而不会压倒吗? 如何让套头衫尽可能短? 如何一直分配 CPU C0 机器? 入场CMDB手册信息有点......如果没有自动化系统,机器的种类太多了,在随后的规格下可能会好得多......资源控制、申请资源后发放权限、特殊监控需求、资源变更、使用情况跟踪......没有自动化,资源管理的整个过程都在做。 网络类现在有专门的网络管理员,可以不用管,这部分工作需要一些精力。 我也负责各种中间件,而且是我一个人负责的,我去找领导把部分中间件扔掉了。 这么说吧,有这么多的秤机,只要一台硬件故障,晚上第一时间报警,就算有硬盘故障,RAID也不必处理,也会让人筋疲力尽。 每月约300个工作小时。 如果有 4w 虚拟机会更好,但不知道是不是我不做,之前做过的最大虚拟机是 3000,业务比较单一,Puppet 搞定了。
No.2知乎网友:小鸟嘎嘎
之前,我不被允许招募外人,而且HC有限,所以我和另一个小弟弟一起工作。 从收货,到五金拆卸、机货上架、贴标、供电、机房扩建、空调、系统安装、服务安装、更新迭代、系统版本迭代、监控、报警、日志等,都是我们自己完成的。 可以说,从底层IDC,到系统,再到应用,都要做运维平台的产品,勉强算得上是全栈运维。 当时物理服务器总数在100多台或不到200台,如果算上系统(因为有虚拟机,docker可以砍掉),大概是500 600台左右,资源池中很多没用的闲置机器都不算在内。 如果是新机器,那么100 200台物理机的工作量几乎饱和了; 如果是旧机器,两个人绝对不够。 为什么是 2 人而不是 1 人? 做运维的同学都知道一个高可用性写的概念**可以是一个人,做产品可以是一个人,做测试也可以是一个人但运维必须成对进行:这不仅仅是一个扛不动服务器的人,掉落的时候损失了上万元; 并且运维本身就是紧急情况,我上厕所,外面的交通是**,没有人在紧急情况下,还有谁来处理呢? 就算你给睡着的老板打电话**,也得有人通知你 后来,我去了一家大厂做SRE,一个300人的大部门。 无论哪个团队的SRE都会被分配到值班,进行运维,也就是:稳定性保障。 两个以大词开头的部门,加上国际,一个部门的码头工人总数均匀地分布在人的头上不能是4w的人,1w的人就算是好的。 这样一来,大家还在吐槽,手机经常半夜被吵醒! 如果你不接,钉钉也会提醒你,很烦人! 这导致了 SRE 的普遍坏脾气! 说到这里,你知道,SRE不对机房负责除了基础设施专业的学生,他们中的大多数人只关注应用程序,这已经少了很多工作但我憋不住,我......不能一直抱怨
No.3知乎网友:木村星辰
我一个人负责 6,000 台物理机器。 硬件哪部分报警,什么变化,不用就送整机维修。 可以管理软件以打开指定数量的 KVM 或安装指定的 docker 映像。 网络上的所有交换机都是中继,并且计算机上的 KVM Docker 配置为指定的 VLAN。 路由器无关紧要,运营商处理 BGP。 机房只扫地板,不擦灰尘。 有空的时候可以自己做数据迁移,没空可以要求业务部门做或者延迟,自己做可以打包发布。 工作时间是免费的,只需在72小时内与警察打交道,想去就去。
知乎网友No.4:三大尴尬
不可能,有了这么多的服务器,没有人可以单独管理硬件,更不用说其他方面了。 40,000台服务器,加上机房内的配套交换机、路由器、存储设备、UPS电源、空调、安防设备、消防设备等。 这个设备的数量是可怕的。 即使单个设备出现问题的概率很小,但数量增加后,几乎不可避免地会出现问题。 仅靠每天处理硬件问题无法解决。 每个硬件仍然有使用寿命,当使用寿命结束时需要更换。 当需要更换时,一个人根本无法处理这个数量。 设备是分批来的,更换也是分批的。 怎么可能让业务停止并等待您慢慢更换设备? 这个金额肯定不是一个简单的系统,所以让我们来看看保护。 按照保密保护的要求管理机房,不仅仅是管理设备是否可用,更要有制度、流程、安全策略。 就算你是一头大牛,也可以自己做,但总要花时间,做个评估,一两个月就没了。 你有时间做其他事情吗? 我认为发表评论的人是一个拥有 40,000 台服务器的团队中的一个人。 至于他有没有权限管理4万台服务器,我不相信,正常运维不可能给一个人这么多服务器。 必须有权力下放,不同的人管理不同类型的设备,移动服务器也必须得到批准。 如果我是电源经理,有40000台服务器插在电源里,我还负责40000台服务器,那我就不说了。 No.5知乎网友:karlestira
4W物理机? 仅仅向领导报告就可以杀死你。 另外,4w物理机是什么概念? 常见的纯CPU双通道2U机都有500W的功耗,4W是20MW,算上各种UPS、空调、储能、网络,可能要去50MW。 如果商业用电是一块,机房满载,电费每天100W以上。 这么大的事,再雇两个人不是很香吗?
No.6知乎网友:zhyllhhaaoo40 足以让你喝一壶。 机房的货架,各种跳线......把你折磨致死。 4W站,一人?? 你不是在说相声吗?
No.7知乎网友:吃铁兽
别管几个服务器,4个或者4万个,一个人,就算是5*8的全职值班也很难保证。 更不用说这个人受伤和辞职造成的空缺......要有一支有一定稳健性的团队! "一个运维人员可以管理4万台服务器吗? "欢迎在留言区交流,分享您的经验 参考资料丨 DevOps技术栈二次整理丨DBAPLUS社区**丨**:知乎com 问题386653243答案 2117913692*仅供参考和学习之用,并不代表 DBAPLUS 社区的立场! DBAPLUS 社区欢迎 editor@dbaplus 技术人员的贡献cn