2020年6月11日CDC断电

数据中心正在安装3台新的UPS机组

在12年的平稳运行后,我们的“最坏情况”何时发生的概述。

康沃利斯数据中心(CDC)容纳了大学的大部分服务器,用于向大学提供大多数IT服务。开云体育主頁(欢迎您)11号th六月,这个房间在大修时突然停电。

你在做什么?

更换UPS (uninterrupted power supply)和部分空调。

你为什么要这么做?

CDC是一个具有高度弹性的数据中心,旨在处理许多潜在的灾难场景。这包括维持电力的系统。虽然通常由市电供电,但我们有一组相互连接的三块UPS(不间断电源,本质上是三块非常大的电池),以在停电时运行。这些预计能够运行30 - 60分钟,这被认为是足够的时间为我们的柴油发电机自动启动。在需要更多燃料之前,它有足够的能力运行18-24小时。多年来,我们经历了几次停电,这种组合一直保持着服务。

CDC建于2008年,12年后,UPS和空调等设备变得太旧,不再可靠,正接近制造商不再支持它们的阶段。为了让我们有信心它们能够继续运行,我们启动了一个由地产主导的设备更换资本计划。

你当初为什么要做这项工作?

由于当前的新冠疫情危机,安排这项工作相当困难。当工程公司(Future-tech -我们使用的所有数据中心工作)确认他们可以合法地做这项工作时,他们的可用性是几乎立即开始(8)th6月)或推迟几个星期,将工作推向清算。虽然我们更希望工作在一周后开始,但在学期之外,我们选择确保有机会确保工作尽快完成。

UPS的工作预计需要一个星期,而空调的工作则需要四个星期。

谁参与其中了?

信息服务(IS)是数据中心的主要用户,但也有来自大学其他学院和部门的设备,也有一些由我们的网络供应商和区域合作伙伴拥有和管理。开云体育主頁(欢迎您)

物业管理房间的环境(电力、温度、安全)状态的合同,由于这是一个高度专业的领域合同,一家名为Future-tech的专业公司负责大部分支持和维护工作。

Future-tech是一家专业的数据中心提供商,高度认可并获得了众多奖项。他们有一个重要的客户群,包括许多其他大学,议会,蓝筹商业实体和NHS。未来科技是房间设计和调试的一部分,从那以后一直是维护过程的一部分,并且非常了解它。疾控中心的电力供应已经完美地工作了十多年,经历了多次维护,多年来多次停电,2013年2月整个校园停电

会发生什么呢?

由于问题集中在电力方面,空调工作将不包括在本报告的其余部分。空调工作暂停,以消除任何进一步的并发症。

该数据中心有3个UPS单元,采用所谓的N+1设计。两台机组可以处理数据中心的电力负荷,如果有三台机组,就可以关闭一台进行维护,或者在发生故障时保留备用容量。

我们的维护公司计划将我们的一台旧UPS设备移动到数据中心的另一个物理位置,为它供电,并使用它来提供额外的弹性,同时可以引入一台新的UPS设备。剩下的两个机组将依次换出,保持电力。

到底发生了什么?

工作一开始,许多事情就没有完全按照计划进行。

在移动我们的旧UPS并试图再次通电后,它失败了。由于设备太旧,这一直是一个风险。人们担心它无法在长时间的停电中幸存下来,从而证明了更换它们的决定是正确的。然而,这导致了计划的改变。周二,该公司决定听从Future-Tech的建议,选择一个风险略高的选择,即延长一段时间使用发电机,并安装两个新机组,然后再恢复供电。这是成功的,给我们留下了足够的UPS容量,但没有UPS弹性。在主电源停电的情况下,我们仍然会恢复到UPS,然后是发电机。我们没有能力处理单个UPS单元的故障。

周三,在安装第三台UPS机组时,工程师们发现其中一块内部控制器板损坏了,可能是在运输途中,也可能是制造故障。制造商立即向其订购了替换品,以便紧急发货。这使得我们使用两个UPS机组的时间比预期的要长,作为N+1设计的一部分,两个机组至少足够了。随着旧单位的死亡,这在很长一段时间内都是不可取的,因为这意味着CDC失去了N+1设计的“+1”方面,但没有替代方案。

11号星期四12:21th2020年6月,两个新的UPS单元中的一个与另一个单元发生通信故障,进入错误状态并关闭。然后将所有的电力转移到一个UPS单元,它不能应付负载。这立即关闭保护,在发电机可以投入之前。这切断了数据中心的所有电源,关闭了所有服务器、网络和磁盘存储。大约10秒钟后,我们的电器开关设备绕过UPS设备,直接把我们接通了市电。在自动故障转移时,报告了一声巨响。

这三个问题加在一起导致了停电。

你有应对这种灾难的计划,对吧?

是的。信息服务有一套灾难恢复文档,旨在涵盖灾难的管理。此外,我们有康沃利斯数据中心停电的具体计划,包括“通电”时间表。这场灾难一直被认为是最糟糕的情况之一,以前从未发生过。

此外,我们对备用数据中心有一定程度的冗余,下面将详细描述。

应对这类灾难的一般计划包括尽可能多的工作人员尽快赶到现场,共同制定解决方案。由于新冠疫情的限制,这一计划无法实现。在开始维护工作之前,我们制定了一个包括两个团队的新计划,一个小型的现场团队处理物理问题,一个较大的场外团队管理可用的服务。

接下来你做了什么?

对于其他不相关的工作,IT运营团队有三名团队成员在现场工作,其中一人在停电时在数据中心。IT运营经理被叫到现场,另外两名成员立即将电源开关翻转到服务器机架上,以便让我们控制服务器如何以及何时恢复服务。这是“从冷中启动”计划的一部分,尽管通常我们会有超过10秒的反应时间。

IS重大事件处理迅速启动,IT支持主管担任重大事件经理。

与此同时,政府迅速发布消息,要求核心基础设施工作人员不要前往现场,但要为灾害管理做好准备。我们的系统主管,住在当地,碰巧穿过校园,把自己转移到康沃利斯帮助管理情况。这个消息首先是在我们的团队频道上发布的,在网站出现了一个问题之后,被报道为“疾病控制中心断电”。请大家待命。”在现场,团队开始按照我们计划的顺序为服务供电,试图恢复网络连接,然后再转向磁盘存储和服务器。由于电话和Wi-Fi服务依赖于IT基础设施,而且在康沃利斯大楼内几乎没有移动电话信号,两个团队之间没有任何沟通方式,只能通过两个人打电话传递信息。看来,在运营办公室的网络连接建立之前,来自场外的连接已经恢复,这让场外团队对问题有了深入的了解。

13时40分左右,现场团队建立网络连接,双方团队能够共享有关情况的信息。那时,我们的许多系统正在启动,并发现了两个新问题。

由于一台UPS设备已经故障,我们被建议不要超过60KW的功率——一个UPS单元的容量。最近总耗电量为90KW。这使得我们无法启动所有服务,需要检查哪些服务可能再次关闭。

此外,我们发现在大型VMware服务器开始引导之前,磁盘存储还没有完成引导。我们使用虚拟服务器,而不是使用许多单独的服务器。我们购买大型的VM服务器,有大量的内存和处理器,然后在虚拟环境中,将这些服务器划分为虚拟服务器——人们连接的服务器。存储在一个称为存储阵列的大型磁盘组中,是称为存储区域网络(SAN)的网络的一部分。

对于弹性,我们有一个较小的磁盘阵列连接到次要场外数据中心的SAN。我们将核心服务的数据同步镜像到辅助数据中心,并有能力在那里启动虚拟服务器并恢复关键服务。在这个次要位置上没有足够的容量来运行所有虚拟服务器,并且已经制定了一个计划,根据当前的业务需求决定在灾难中启动什么。

随着康沃利斯的电力迅速恢复,我们决定不在二级数据中心启动关键服务(这是一个耗时且难以逆转的决定——我们只会在康沃利斯可能长时间无法使用的情况下才会这样做)。

由于电力迅速恢复,康沃利斯的许多系统开始自动启动。Cornwallis磁盘阵列需要更长的时间来启动(大约30分钟),一旦CDC阵列失去电源,与辅助阵列相比,其同步磁盘上的数据就会过时。阵列将自动阻塞到CDC阵列的路径,由灾备中心的从阵列按照设计方式接管。阵列将保持这种状态,CDC磁盘将被阻塞,直到可以手动重新同步数据。

任何自动启动并复制了存储的系统都启动了,并开始用完辅助阵列——这对服务器是透明的,除了到磁盘的网络路径较少之外,它们不知道它们正在使用的磁盘实际上是在坎特伯雷的另一边。没有复制存储的任何系统都无法引导,因为直到主阵列重新联机时,它们才有可以引导的磁盘。

当系统启动时,它开始给二级数据中心有限的存储增加负载。有人担心,如果它达到最大值,就会开始引发其他问题,我们也意识到一个重要的VMware农场(托管我们大多数Microsoft SQL Server数据库的农场)没有恢复,原因目前尚不清楚。此外,存储链路容量需要重新同步存储回我们的主,相当高的性能,磁盘阵列。我们做出的决定是,我们需要关闭不太重要的服务,以便释放I/O容量,以便从Cornwallis的存储启动服务,直到情况变得更加清晰,并且我们可以访问所有存储阵列和网络以评估负载。

我们的救灾计划集中于尽快恢复尽可能多的服务。我们没有想到要再次关闭它们。然而,大多数面向用户的服务在IT人员登录检查之前已经启动并运行。对许多用户来说,这会导致服务中断不到一小时。虽然关闭了一些服务以减少I/O负载,但我们的目标是在可能的情况下保持关键服务。

服务器基础设施团队的一名成员工作到周四晚上很晚,才能够将磁盘重新同步回Cornwallis,并开始将服务返回到正常阵列。

星期五

周五,第三台UPS到达,但在安装之前,我们仍然必须将电力保持在60千瓦以下。然而,随着存储问题的解决,我们能够系统地运行我们的虚拟服务器列表,大多数服务在下午2点之前恢复,距离我们一直认为需要一周或更长时间才能恢复的事件不到26小时。

在问题发生后不久,UPS已于周四开始诊断以确定根本原因。由于现场团队没有发现明确的证据表明存在特定问题,因此问题升级,制造商的一名UPS工程师被叫到现场调查问题所在,并确认我们的UPS设备处于良好和健康的状态。

初步调查显示UPS上的通信总线有问题。制造商总部建议更换前两台UPS的整个通信硬件,并立即从总部派出部件和工程师。不幸的是,由于几次延误,他们直到晚上11:30才到达。工作终于在周六凌晨4点完成,相关人员终于可以回家了。

周六

一个IS团队于周六上午抵达现场,为剩余的服务器通电,并在上午10点前恢复了大部分服务。考虑到UPS制造商和Future-tech的电力“完全清除”,我们还能够增加房间内的电力负荷。在这一点上,额外的设备被通电,恢复其他服务,包括计算机科学,英国镜像服务和我们的高性能计算集群用户。

到底哪里出了问题?

虽然有很多因素,我们仍在等待UPS制造商和安装公司的官方报告,但原因似乎是在我们没有适当的弹性来防止停电的状态下,第二个UPS设备的硬件故障。总会有高风险的时期,我们对某些失败没有恢复能力。尽管这些设备在投入使用前通过了所有测试,但它们仍然失败了。在第三个本可以增加弹性的单元在到达时被发现损坏后,风险期被延长。

什么是正确的?

虽然失去权力的负面事件总是会给这项工作蒙上阴影,但重要的是要认识到一些确实进展顺利的事情。更换为数据中心供电的重要部件总是一个困难和有风险的过程,最初的计划(我们拒绝了)涉及很长一段时间的断电。如果不是在错误的时间发生了意外的硬件故障,工程师们能够制定一个计划,在整个升级过程中保持电力供应。

从伊斯兰国的角度来看,最大的成功是我们能够如此迅速地恢复。一个意外的断电已经计划和讨论了很多次。系统在建设时考虑到了弹性和恢复能力,但这种规模的灾难从未进行过测试或演练。“伊斯兰国”的工作人员可以为我们能够如此迅速地从这场灾难中恢复过来感到非常自豪,尤其是在大多数工作人员都在远程隔离工作的情况下。我们原本以为要花几天的时间,结果却花了几个小时,有时甚至几分钟。

你为将来学到了什么?

虽然我们已经在维修公司的官方报告中征求了他们的建议,但我们很难知道本可以采取什么不同的措施来避免故障。然而,令人欣慰的是,许多核心服务恢复得如此之快。系统在构建时考虑到了弹性和恢复,但从未以这种方式进行测试。

尽管我们永远不会选择一起启动所有VMware服务器,因为我们相信依赖链非常关键,但这样做可以快速恢复服务,让我们修复那些没有启动到可操作状态的服务。

数据中心正在安装3台新的UPS机组

留下回复