>>返回主页
浩云网络数据中心首席架构师、CTO王京:云时代金融数据中心的安全运行

2018-08-15 14:30

王京.jpg

  王京:我想问大家一个问题,有谁经常和机房和数据中心打交道?先简单介绍一下为什么讲这个主题?因为最近很多机房、很多项目都或多或少出现了问题,而且在云时代背景下,数据中心的规模也发生了相应的变化。所以,今天主要是讲云时代数据中心的安全运行。

  这是我们在前一段时间刚刚交付给阿里巴巴的一个项目,从整个云公司发展角度来讲,从最开始的一个模块到目前以BAT为代表的大型互联网公司,都是以园区化或者超大型的项目为主。所以,为了应付发展的趋势,他们自己制定了一些标准,像白名单、技术规范和运营体系。有统计显示所有的断电中有70%的事故是由人为造成的,分享一下之前的案例。我以前在互联网公司的时候,有一次机房的UPS升级,在升级之前已经完善了所有的操作流程、操作步骤,一共有三十几步,操作过程中,由于当时的操作人员在夜里忽然间跳过了一步,导致UPS中断短短几秒,当时造成了断电的情况。包括前几年某一家IDC服务商,在UPS升级改造的时候,也是出现了一些故障,导致了多家银行业务中断。再完善的系统,只要有人去操作,都会有一些故障的产生,人是最不可控的。在这个前提下,我们通过全生命周期管理控制人员事故的产生,包括设计阶段的介入,建设和运营阶段。设计分两个部分,一个是外部,包括电力设计。一个是内部,像工艺设计。建设也分为两个部分,一个是外部的电力、水、、电信,内部分为装修、电气、空调。运营业分为内部的流程制度和外部的设备维护保养等等。

  举一个某互联网光缆隧道被挖断导致业务中断的例子。在整个生命周期里,有一些东西是比较可控的,有一些东西是相对不可控的,不可控的东西往往出现在外部。像电力,我们要两路电到数据中心。外部的电信电缆会不会有被挖断的可能性。包括运行过程中,我们可以制定完善的运营流程和制度,但是外部的这些设备的质量是不是可控的,这也是值得探讨的。

  数据中心是一个完整的闭环,设计中的一些缺陷会影响到建设,建设的工艺会影响到运营,运营又会影响到设计。我们选择一个机房去建设实施,应该整体性的规划,而不是只考虑设备或者建设运营的某一项、某一个阶段。

  数据中心设计分为内部和外部两部分,内部包括电气、暖通、弱电、建筑。以前我在互联网公司做机房选址的时候,基本只看内部的图纸和规划,外部的东西是很少重视的,但是随着最近很多机房事故频发,外部反而是我们应该更关注的问题,像通信管道。如果有一千个机柜的机房,外部的电是否可以支持一千个机柜完善的运行。

  这是一个相对比较标准的T3架构的配电系统。蓝色的是一套系统,绿色的是一套系统。往往我们看到的是内部,评估的也是内部,像UPS是N+1还是2N,空调是N+1、N+2还是N+3,往往大家忽略的是上面部分,比如外市电。

  最后云计算的发展,越来越多的公司机房的规模也越来越大,由原来的几十个柜到几十个柜到上千个柜,大家考虑的只是下面的部分,而没有考虑到上面的部分。在正常运行的情况下,每一路各负担50%负载的情况下,系统是完全可以正常运行的,但是有的时候像一路断电的情况下,这一路是不是能够带起全部的负荷。这也是前段时间某个数据中心出现了故障的原因之一,是由于后端服务器超载已经超过了单路市电的容量,当时有一路市电断掉的情况下,这一路超过100%运行,结果导致这一路也断电了。这是我们以前评估几十个柜、几百个柜的时候不会考虑的因素,但是随着云的发展,包括业务越来越多,我们要考虑整个系统是否可以安全可靠运行。

  建设是一个很复杂的过程,我们如何去验证建设过程中设备和整个工艺是完全可行的,里面的系统架构是完全OK的。最近几年,大家越来越接受综合测试的理念,是针对数据中心基础设施像UPS等等做一些单机的测试,包括系统测试。这个属于前半部分。但是综合测试有很多可以选择的内容,包括不同的测试项目。像柴油发电机,可以测4个小时的满负荷运行,也可以选择1个小时的110%超负荷运行。有一些数据中心可能宣传材料是满足综合测试要求的,但综合测试有很多可选项。选择机房的时候建议多考虑综合测试到底包含了多少内容,测试的系统是否是完整的,有没有缺漏的地方。

  综合测试结束以后,以前我在互联网公司的时候也有这样的情况,在后台,尤其是中等的互联网公司或者是其他公司,服务器、网络团队和数据中心的基础设施团队是相互独立的,默认数据中心是不会断电的,在上线服务器或者交换机的时候,会默认不断电,不做任何电力方面的测试,直接上线。以前出现过这样一个状况,这边认为双路市电是不会断的,上线了,这边做测试的时候突然断电了,导致网络设备有很长时间的恢复期,而且是人为干预的。当时他们完全忽略掉了这部分内容,所以从公司运营的角度来讲,像前面做基础设施测试可以排除硬件故障,后面的网络、服务器在上线之前也应该做简单的断电测试或者其他的测试再正式上线,这对公司业务会有更完善的保障。

  数据中心运维体系,我以前在互联网公司的时候,和租用机房的运营经理聊天,发现他们的MOP等等写的非常的完善,在评估的时候没有任何的问题,但是有这么一个情况。他们某一天模拟火灾的情况,发现所有的运维人员全都是直接跑出了门外,机房里面空无一人。机房已经正式运行了2—3年的时间,还会发生这种情况,也就是我们制定的流程和标准,这些人员到底有没有按照流程和标准去执行。这也是重点考虑的因素,并不是说有了这些东西,就会去做。所以除了硬件设备等明面上可以看到的,软件是更需要考虑的,尤其是70%的故障是人为造成的,人员管理是不是也存在问题,也是值得我们思考的。

  大家在选择数据中心或者是选择服务商的时候,第一个要看硬件,整个系统架构是否是安全可行的。第二,从领域一个维度分析判断运维人员的体系,包括一些人员的制度是否是可以执行的。谢谢大家!

0