百度资深系统工程师唐虎数据中心制冷——风/液架构演进

2018-10-17 15:00

唐虎.jpg

　　大家好，我是来自百度系统部的唐虎，今天跟大家分享一下数据中心制冷风/液架构演进，液冷现在确实比较火，我尝试用自己的思考跟大家分享。任何一个技术最终能否规模应用，取决于是否适应规模的需求。

　　现在人工智能非常火，实际人工智能和液冷是强相关的事情。作为数据中心的从业者我非常感谢人工智能，如果没有人工智能，数据中心的需求越来越少，因为信息化足够普及，人工智能给所有公司带来巨大的空间，过去丢进回收站的数据搜集下来，花很大算力挖掘金矿。人工智能带来认知模型和预测模型，人工智能通过数据的挖掘能够让机器像人一样认识每个事物，一个显示器，一个汽车，像百度无人车，它需要知道车前方甚至360度四周看到的东西是什么，是小汽车还是货车还是路牌，这就是认知能力。认知解决的是通过算力寻找特征量与类别之间的关系，这个特征量代表的是某一种分类，是一个小汽车不是货车。之前大家有了解的话，对数据的需求量非常大，像谷歌早期训练一个猫的模型用到六万五千张猫的模型。第二个是预测模型，这点让人更兴奋，我们都知道如果你知道明天会发生什么一定会很开心，你先人一步。预测实际上解决的是特征量与未来值之间的关系，这里实际上可以简单介绍一下百度在很早期做人工智能的系统部做应用很实际的案例，一个温度计过去的温度数据注入到人工智能模型里面，可以告诉你未来20分钟的温度，准确率95%以上。对于无人车能让车知道它所看到的每一个物体，下一步可能出现的状态，决定当前的操作。一点不亚于最近各种圈非常火的波士顿机器人，所有一切都是算力，算力意味着什么？根据兰道尔极限原理，算力意味着能源的消耗，能源意味着热量，热量需要用到像我这样学制冷的人，我们实际上做热量搬运的，我们是搬运工，就能把服务器的热量搬出去。

　　在风冷时代解决的问题搬运的效率，怎么让搬运的效率最高，降低整个搬运过程中的温度记录，但是最简单粗暴的方法就是把它建到更冷的地方，让搬运这个温度的热量是正的温度梯度。如果这个房间的温度比外面还要热的话，这个热量是自动传递出去的，我不需要耗能的，所以大家把数据中心建到很冷的地方去。现在的问题是，如果数据中心的机柜密度上升之后，搬运热量的效率会存在什么问题？我们的机柜行业标准没有改变，当机柜的尺寸不变意味着通风率是一定的，开孔率是一定的，当服务器的出风速度是一定的情况下，要满足风力密度的上升只有两个方法，第一加大转速提供更大的风量，这意味着在端这一侧功耗上升。第二，降低出风温度，拉大传热温差，这就意味这在制冷的原端效率是降低的。系统的角度希望提高正向循环的全年占比时间，通过简单的模型看一看风冷的极限在哪里。20千瓦的时候整个系统级的功耗已经出现拐点，也就是说在20千瓦的时候，用风冷是没有办法去用传统的提高正向循环的时间占比提高冷冻水温度降低整个系统功耗。我说的系统功耗包含了服务器、风扇的功耗，大部分数据中心算PUE没有包含这一部分。越往20千瓦之上，拐点越来越提前，在10千瓦的时候，这个拐点还是在咽喉到25度，而在20千瓦到了19度。现在很多数据中心的供水温度是10、15、20、25望上逼近，这是风冷的极限角度。这里面没有提到另外一个因素，很多人说带来另外一个问题噪音，服务器是为人工作的，不需要守在那里听噪音。

　　液冷行业大家研究会发现，液冷厂比较TOP级的为什么做液冷，微电竞行业做液冷，为打游戏的电竞行业。电竞行业拼的是算力，计算机跑得比较快操作同样的情况下，赢的概率更大。电竞行业为什么普及液冷是最快的？人是需要坐在电脑前，如果是风能能解决，但是液冷很安静很舒服。数据中心实际不需要考虑噪音的因素，我们在这个模式里面没有考虑风速这个因素。实际上服务器一旦一个机房建成之后，很少有人进去。谈到液冷就要看一下液冷的优势和必然，空气搬运热量距离决定它的成本，液体搬运的时候液冷和风冷整个代际的跨代优势非常明显。我是一个40千瓦的机柜和4个10千瓦的机柜，哪个合算？这笔帐算起来非常复杂。这里面涉及到另外一个问题，V100 GPU拥有640个内核，我很早跟做硬件的人探讨这个问题，为什么要这样？为什么集这么多内核？什么原因？从技术的角度讲，信息计算就是在做数据的搬运，数据搬运的成本决定了它要高密度。我经常开玩笑说大家都是搬砖，搬的东西不一样，价值不一样。做热量搬运和数据搬运有了第一次紧密的配合，也让我们的价值体现得更重一点。

　　比较简约的液冷架构简图，实际无论是浸没液冷还是冷板液冷或者是其它的节点级的液冷，如果把这个机柜换成浸没机柜，所有的液冷都是这样简单的架构。这个架构也会存在很多问题，比如这个冷量分配单元应该放在哪儿，放在机柜里面还是跟室外的散热器结合成为一体，这个是很多因素会影响到他的选择。但是有一点可以很明确，液冷让制冷这个行业的两个子行业Server、空调，第一次有了紧密的接触，以前这两个子行业各干各的，服务器做server，空调就是做制冷系统，做空调末端，但是液冷让大家第一次有了紧密接触。分配单元成为系统心脏，实际对它的要求很简单，像人的心脏一样，绝对不允许骤停。

　　数据中心的液冷普及实际上影响因素非常多，但是我们整体从思路看下来，溶液是非常核心的一点。目前业界能够看到的很多溶液，分为几类，超纯水，水剂溶液、非水剂溶液，大家担心溶液的导电问题。超纯水是高电阻力的一种溶液，纯粹的H2O，里面没有任何其它的成份，它的电阻率达到10兆欧以上，基本达到10兆欧这个水平在电气工程当中认为它是绝缘体。还有一个优势，不需要人去制订标准，大家都可以拿得到，当然也会存在其它一些问题。还有一些溶液市场上见的比较多的水积溶液，去除钙镁离子，加上一些缓蚀剂、阻垢剂、杀菌剂，作为客户买三四家水积溶液，只有一个数据中心，不可能用三到四种，对非水剂溶液，人工化学制取，还有自然提取，有价格问题，还有长期稳定性问题，对系统的密封性要求更高。

　　未来液冷数据中心长什么样子？现在看到所有的液冷一定不是未来规模应用的样子，它涉及的因素非常多。简单推理一下，当前液冷遇到的阻力或者动力是什么。大家一直在提密度上升，数据搬运决定了把密度做大，但是实际上在整个产业来讲定制芯片的工程师们也在加倍努力，算力提升，功率降低，某种程度跑得很快不需要液冷。按照传统的分工机房侧和IT侧分开来看，拉动力推动力，大家如果在制造业呆过一条流水线如果是推动式的流水线，生产效率很低，因为中间某一个环节如果偷懒，所有的任务堆积到他这儿，如果是一个拉动式的生产线这个事情发展效率非常快。液冷发现一个特点，推动力非常强，在数据中心端来看，简化制冷架构，降低制冷成本，从能源循环经济角度热回收比想象，基本没有任何阻力，只有动力。在IT侧，我们看到的动力是超高密度计算收益还有风冷空间散热极限，这两点有一定的动力，但还不是特别充足。造成的原因，纯粹在server这个角度看液冷的投资收益比是完全算不过来帐的。还有阻力运维模式的改变，在我们液冷的尝试当中切实感受到这样一个改变，你的服务器要不要带液运输，工厂测试，到了现场怎么去做家电测试，后续怎么做运维，都有发生改变。正是从这个角度去看，目前可以看到整个产业的冷板液冷的产业成熟度最高，同时对运维的改变模式最小。如果纯技术的角度讲，过往风冷的时候服务器浸没在空气中，如果浸没在溶液当中，从技术理想主义的角度讲，我们觉得它绝对是未来最终极的解决方案。如何达到这一步？过程中一定存在演进的过程。

　　百度在这方面的实践，全球首批AI计算的NV100 GPU液冷集群商已经数月，也感谢前期配合的厂商一起努力，这个不是一个规模应用，但一开始就在考虑如何规模化液冷。

　　谢谢大家！