>>返回主页
阿里巴巴高级专家 钟杨帆 从0到1—阿里巴巴浸没液冷数据中心规模部署实践

2018-10-11 14:20

钟杨帆.jpg

  钟杨帆:谢谢主持人,我是来自阿里巴巴的钟杨帆,接下来跟大家分享的主题是从0到1,阿里巴巴浸没液冷数据中心规模部署实践。

  主要分为5个部分,首先看一下背景,随着互联网技术、云计算、物联网的发展,大家都知道已经进入了大数据的时代,从图中我们可以看到,预计到2020,每年将有超过500亿个设备连接到互联网并产生超过44个ZB的数据。增长的数据需要越来越多的计算能力来进行分析和处理。对于承载计算能力的服务器来说会带来挑战。

  接下来我们看一下服务器面临的挑战,左边的图是指单芯片CPU和GPU的功耗趋势。早期英特尔的CPU功耗约为120瓦左右,早期英特尔的CPU功耗约为120瓦左右,现在最新一代CooperLake功耗达到240瓦,而最新的HGX2更是达到了400瓦,随着计算能力的提高,单芯片的功耗也在增加,同时从右边的图可以看到服务器的内部,除了单芯片增加以外,内部的密度也在增加,因此,从左下图可以看出单节点服务器功耗每年都在增加。最新一代服务器的功率甚至超过每个节点500 W,我认为这是保守的估计。

  所以云计算令计算资源集中化,对服务器的运算能力提出了更高的要求,运算能力提升必然带来热密度的上升,对于承载服务器的数据中心会面临什么样的挑战呢?

  第一个是高功率密度机架散热挑战,左边的图ASHRAE组织发布的一个统计预测,到2020年单机架功率密度最高会达到每机架40kw,显然这个是偏保守了,然而现在的数据中心大部分是每机架8kw的制冷供电能力,少数也有15千瓦左右,风冷不能满足可接受成本下的散热需求。显然,数据中心需要新的散热方法。

  第二个是电力与冷却成本快速增长,左边是Uptime Institute 国际组织发布的调查报告,得出的结论平均的PUE是在1.8到1.9,只有6%以下的受访者声称自己的PUE是小于1.3的,左边的图是美国的劳伦斯伯克利国家实验室对PUE1.9的数据中心进行了能耗分布分析,其中47%是电力与冷却能耗,对我们新的数据中心也是一个相当大的挑战。因此,数据中心的制冷冷却能耗相当大:如何实现降低PUE和优化TCO?这已经成为一个新的挑战

  阿里巴巴一直在服务器和新建数据中心思考这些挑战和问题,我们一直在不断探索和实践,这里重点讲一下为什么用浸没液冷进行规模部署。

  首先说明一下,什么是浸没液冷?浸没液冷顾名思义,它和传统空气冷却不一样,它是用不导电的液体替代现有的空气冷却中的空气来对IT设备进行散热。站在数据中心的整体冷却架构上对比,浸没液冷对比空气冷却,它完全简化数据中心冷却系统:无冷机 、无末端空调、无服务器风扇。

  同时我们自己也摸索探索了对于风冷、冷板和浸没液冷在各个维度的对比,以风冷的为基线这是0, +表示更优,-表示更差,从这个表中,我们可以看到,浸没冷在大多数项目中优于其他,当然世界上也没有是十全十美的解决方案,每个方案都有各自的问题和挑战。

  另外,我们也都知道国内外有新建的一些数据中心,采用了新风冷却,但这样的自然冷却是依赖于气象条件的,我们不可能把所有的数据中心建在北方这种低温的环境,有数据中心必须要建在华南,那里气象条件又热又潮,电力价格、土地价格高,空气质量差;如何在这样的气象区获得低PUE与优化的TCO,是数据中心不得不面临的挑战。

  接下来我们来比较浸没冷却和空气冷却的能耗,如图所示:例如,按照上述统计业界现有平均PUE为1.9,浸没冷却可以为1.09以下;考虑到服务器中没有风扇。总的来说,可以节省48.4%的功率。除了大幅降低能耗达到降低Opex外,另外无需制冷机组,无需末端空调,服务器无需风扇,还可以降低Capex,总体来说TCO应该优化。多少优化取决于各个公司的TCO模型。

  另外除了节能以外,根据专家统计:. 每节约1度电,就相应节约了0.997千克二氧化碳(CO2)的排放,这样可以为社会的环保做出贡献。

  在规模部署中需要考虑可靠性, 目前,空冷技术在电子设备中得到广泛应用。在电子产品的使用中,其复杂多样的环境是很难避免的。环境的多样性包括温度、湿度、振动、灰尘等。根据美国空军的统计(如图中所示,美国空军航空电子完整性计划),温度占55%(剩下的因素是灰尘6%、湿度19%、振动20%),从而导致电子设备的故障。浸没液冷是将IT设备完全浸没在电介质流体中,从而完全脱离空气。液体保护IT设备免受恶劣环境的影响。浸没冷却与空气冷却相比,消除了湿度、振动、粉尘对电子设备的破坏因素。虽然目前我们还不能提供令人信服的实测数据。从理论上讲,浸没冷却可以帮助IT设备获得更高的可靠性。同时,我们也在和CPU,HDD等部件厂商联合进行长期可靠性验证测试。

  刚刚讲了这么多浸没液冷的优势,但也面临着很多的挑战。阿里巴巴在做浸没液冷也做了很多年,我们也在思考为什么浸没冷却虽然不是很新的技术,但是并没有在数据中心大规模部署。其实我个人分析有两点:第一个原因是空气冷却可以覆盖现有场景,现有的功率密度没有达到非要用浸没液冷才能解决,第二是它有很多挑战,我们现在的浸没液冷方式需要重构数据中心、重构服务器才能达到最优,这真是一个大项目。

  阿里巴巴在浸没液冷技术中已有3年多的研究,包括材料相容性、箱体设计、液冷控制监控系统等。不仅仅是IT基础设施,甚至包括很多基础材料科学。

  在规模化部署过程中应对挑战去解决,这也是一个相当复杂的过程,我主要分成了三个部分,一个是基础的方面,还有组件级、系统级。

  基础级的挑战有三部分:材料兼容性,信号兼容性,散热材料

  材料兼容性,服务器、交换机这么多的设备放在液体当中,和液体的兼容性怎么样,这个我们需要对各种液体和材料都要进行验证的实验,液体应与所有材料、各种化学元素相容。包括锡/铝/银/金,不同的塑料,电缆/连接器任何东西。

  信号兼容性,因为液体的特性和空气是不一样的,现有的服务器很多都是根据空气特点去设定的,液体介电系数与空气不同,差异越大对信号兼容性影响就越大,所以所有高速信号都要进行测试验证来选择合适的液体材料。

  散热材料,在空气冷却系统中,散热器与CPU之间存在导热硅脂。但在液体冷却系统中,需要选择合适的材料来扩展热表面,以提高散热效率。

  关于组件级,主要是指我们的CPU、存储、硬盘、内存,还有一些火网卡这些部件放在液体的环境中,是否能够稳定和长期可靠性工作,性能是否会受到影响,这些都需要在液体环境下进行验证。特别是,我们大家都知道,光在液体中是折射的,所以我们必须构建一个合适的光学器件,它需要密封得很好。毫无疑问,服务器在液体环境下的性能、稳定性、能效都是毫无疑问与空气环境不同。

  关于系统级,包括服务器架构设计、箱体设计、布线设计、液冷管道布置设计、系统温度和液位容量监控报警系统设计。这真是一件复杂的事情,很难提前完全覆盖。

  以箱体密封为例,如何保障焊缝在生产,运输等过程中变不当导致轻微开裂,这是很难用肉眼找到。第二,液体如果没有密闭下是会有挥发,现有常见一些设计采用非密闭设计,容易发生挥发和冷凝问题。我们必须重点考虑箱体设计来解决这些挑战和问题。   

  下面讲一下阿里巴巴的实践,这是阿里巴巴在张北的一个自建数据中心,液冷数据中心的容量大概是2M瓦,今年上半年在张北这边完成了规模部署,目前已经运行了五个月左右。

  总结一下,1、浸没液冷是解决高功率密度挑战的一种更好的方法。2、阿里巴巴浸没液冷数据中心是互联网行业第一个规模部署,希望和行业伙伴一起合作促进生态发展,一起为整个社会做出贡献,谢谢大家!

  谢谢大家!

0