>>返回主页
绿色网格(中国)副主席、data24副总裁 张松:《数据中心能耗及PUE的思考》

2018-10-17 11:10

张松.jpg

  非常感谢ODCC给绿色网格这个机会,和大家一起分享一下绿色网格的今年的一些心得和成果。简单介绍一下绿色网格,TGG是一个以数据中心绿色节能为主要研究方向的独立的第三方的非盈利组织,最主要的贡献是PUE,PUE是一个非常好的指标,也是绿色网格一直在推行的能耗评测方法,希望能给大家带来一些帮助。今天的演讲题目也是想围绕PUE谈谈绿色网格的一些想法和做法。

  我从三个方向跟大家进行分享,从数据中心能耗的趋势到现状,再到我们现在做的测试认证的一些尝试。

  2006年,美国能源部有一个调查,大家可以看到这是美国伯克利的劳伦斯伯克利国家实验室的一个报告,这个报告显示在2006年以前,美国的数据中心总能耗大概在每年610亿度电左右,增长数在2000—2006年之间是90%的增长,是非常非常高的。绿色网格在2007年成立的,成立的时候我们就推出了一个我们自己认为现在还在在全球应用最广的数据中心节能指标就是PUE。PUE就是基础设施总能耗除以IT总能耗,其详细定义和测量方法在绿色网格的49号白皮书里面有很详细的解释。

  2014年,美国能源部作了一个最新的调研,也是劳伦斯国家实验室出的一个报告。能看得到数据中心总用电量,在2006年之前它的增长是90%,但是从2006年—2010年它的增长24%,2010年—2014年用电量增长率只有4%,能看得出来有很多方向性的改变。第一个改变,是有可参考的指标,可以从各个角度去调控能源效率的使用方式。第二个是IT的发展,数据中心的利用效率会越来越高,所以能耗的增长方向一直是在持续降低。另一个原因是2005年到2010年之间,美国国家要求数据中心数量减少,但是服务器数量是在持续增加的,而且单机柜供电密度也在增加,在昨天发布的2018数据中心数据中心白皮书能够得到印证。

  我们再从网络、服务器、基础设施和存储四个方向来解释一下大概的情况。从图上可以看到,网络、服务器的用电量是在持续往上走,其中服务器的用电量是走的最多的也是最高的,最好的应用方式是最佳实践加超大型规模的服务器架构之后,它的运营场景是最好的。基础设施用电量目前的趋势是在降低的,也归功于在座的各位数据中心的从业者,我们把数据中心基础设施的各种节能应用的手段几乎已经做到极致了,数据中心基础设施的用电指标是在下降。存储是跟规模和能源效率相关性不大,只要能做到最佳实践,基本能做到25%的降低。因为超大规模+最佳实践不代表所有IT行业,按最佳实践做的数据中心也不是普遍的,所以发展预测曲线应该是介于黑线和其他之间。

  超大规模服务器占更高比例。服务器在整个数据中心里面,越大型、集中的数据中心,服务器数量越多,而且现在集中性的超大规模的数据中心也越来越多,而且每个服务器的功耗越来越大。昨天的会议上大家也看到了很多新的东西出来,包括芯片、液冷服务器,因为每个服务器的芯片能耗越来越高,利用率越高PUE自然会有一个下降。而从基础设施和IT之间的配合来讲,这个效率会越来越高效,也是我们一直在想讲的一件事情,昨天不少专家也讲过,从电网到基础设施到IT之间的融合,这也是一个很好的方向。因为这个方向只有加深融合,你的能源效率从上到下、从下到上,才能得到一个真正可控的结果,PUE才会更好。本图说明,随着越来越多的服务器进入超大规模的数据中心,整个行业的PUE会越来越低。

  在各技术手段的能耗对比中,基础设施的能耗在持续往下走甚至持平,这个我前面已经说过了,是大家共同努力在基础设施上面已经做了很多工作。服务器的能耗是在一直往上走,这是一个总耗电量完全的展示。大家能看得到,最开始的PUE是1.9,预测是能达到1.3,其实就是一个此消彼涨,之间的效率配合越来越好。但是我们也在想其实真正PUE的控制还是要从IT端往下走,你把IT端的能耗输出控制下来,基础设施再往下走,整个耗能会越来越优化,这个效率会越来越好,这时候会发现PUE是一个很好的参考指标。

  PUE的演进路径大概分了三个阶段,第一个阶段PUE非常高,甚至2.0以上甚至更多;第二个阶段通过各种方式,包括高效供电的解决方案,变频空调、行间空调还有自然冷却,以及微模块等等方式,已经做到了我们能做到的基础设施方向上的一些极致。再往下走可能就要进一步做到一些尝试,包括跟建筑、IT之间怎么结合的问题,考虑的点就更多了。通过硬件手段降低PUE是有限制的,受制于器件、技术、地理位置等,基本走到头了,未来一定要用智能化或AI来实现更精细的运行和更低的PUE。

  从国外的一些案例来看,Facebook对能耗的控制,它的驱动效率指标就是PUE来驱动的,PUE达到1.06。谷歌做的更加极致,2014年就已经发布了AI对PUE的影响,控制变量超过120多个,通过对风机的开闭合度、机房内多个温湿度传感器、压力传感器参数、服务器各种参数、外界温湿度参数、各种业务负载参数等等,最优化调节各种参数达到最佳PUE,这里面更多是机器深度学习来改变PUE的利用效率。从中间下面这张图能看得到它的实际预测值和实际发生值几乎完全吻合,它的准确预测能力已经达到一个非常高的高度。

  第二部分我简单讲一下现在PUE的现状,在座的大家都知道国内的PUE已经是走到了应用非常广的阶段,包括国家标准、行业标准,北京更是在其云数据中心准入标准中将PUE调低到1.4。PUE到底是什么样子,是拿来怎么用的,是用来做市场宣传,还是用来做设计、运维的,大家理解、应用的方式都不一样。PUE在国内基本上已经是节能的代名词了,对客户来讲都在关注PUE。PUE的降低对他们能带来实实在在的好处就是降低电费,提高电的使用率,降低成本,这是最直接的好处。对厂商来讲,PUE也是他们对未来方向规划的一个非常重要的参考手段。我后面也会讲对设备厂商的想法,可能也会在设备上做一些PUE的探索。对于公司来讲,包括BAT都在做AI的研究,都在运维手段上加入AI的控制,其实就是为了降低它的使用成本,这个使用成本不光只有PUE,还有其他的成本。

  从2007年美国能源部发布的第一张调查报告来看,他们已经预测到了不受控制的能耗增长会制约IT的发展,这时候他们已经关注到了刚刚发布的PUE对未来发展的过程作用,但是还没有数据证明PUE的重要性。到2016年,发布的第二版报告中,已经50余次用PUE去量化,给客户和大家提供参考,实践证明PUE对数据中心节能的重要贡献。

  国外的现状中,刚才我提到了Facebook的PUE1.06,我认为是可信的,因为Facebook是自用数据中心。自用数据中心,最大的好处是通过PUE降低成本、提高使用效率,真正绿色环保的一些要求,他绝对不会自欺欺人。国外的Colo的PUE有可信的有不可信的,不完全。怎么确保可信度?合同保护+数据透明。合同保护包含PUE的承诺以及每年降低多少PUE,这种合同保护现在在国内能签的并不多,可能有一些行业特性。但是现在真正能达到PUE数据透明的,我还没有看到,我希望大家能够在里面做一些更多的优化。BAT在节能方面会有更多的要求和想法,我也知道BAT对数据中心的建设有自己的一套体系、一套理论,他的要求是OK的。但对其他的数据中心,金融、私有云、第三方的数据中心有没有这种要求,有没有可能去承诺数据透明,这是一个课题。

  国内的PUE可信吗?不完全,国内的很多PUE宣传都是市场手段。TGG现在正在做的一些事情就是寻求PUE的规范化,能够给大家提供一种可参考、可量化的PUE评测指标。之前我们已经和ODCC合作做了绿色数据中心分级评估,已经有不少数据中心通过我们的认证。这是一个尝试,可能中间还会有不理想或者是不规范的地方,但TGG希望在行业里和大家一起共同把这件事情做好,把它推进下去,其实对行业是一个非常大的帮助。

  最后跟大家汇报一下我们现在做的两件事情,一个是微模块PUE的认证,还有一个是空调产品能效因子PUE的认证。微模块这个产品是一个最近几年比较流行、比较火的产品,大家都理解它其实就是一个组合产品,不是一个单一产品。它的微环境和外部大环境之间的关系,它的PUE如何去评测,我们其实现在都做了一些尝试,也通过一些规范去影响到一些微模块厂商对PUE的认知。这时候就会发现微模块的PUE评测是有一定参考价值,它的微环境是可以拿出来供业界参考的。

  空调我们也在做空调产品能效因子PUE认证,我们把测量点规范好,测量时间、测量工况规范好,通过我们自己的实验室或者我们的联合实验室去把这些做成。主要目的还是为了规范数据中心各个子系统之间PUE的关联性,未来如果有可能的,能够把PUE所有设备之间做一个PUE的集合,有可能就是一个整合的PUE,那就更加理想化了,这是一个愿景。

  这两个评测体系即将发布,TGG这个事情也做了一年多了。在2017年12月份的时候通过了总部的微模块产品、空调产品PUE评测立项。在2018年6月份已经发布了我们的征求意见稿,有多家会员单位在一起,还请了一些专家帮我们去论证我们的评测方法。在今年年底,应该是下个月11月27日TGG的技术峰会上会把这个标准发布,这里有不完善的地方,也有需要大家一起推进的地方,希望大家多多关注,提出更多的建议。

  最后送给大家一个福利,大家可以扫码关注TGG公众号拿到数据中心成熟度模型的白皮书。按照PUE全球的要求,白皮书只有会员单位能够分享,而且都是全英文的白皮书,所以TGG中国这边也做了一些工作,翻译了一些白皮书共享给业界同仁,我们希望能够推动业界的发展,而不是局限在自己的小圈子里,希望大家能有收获。我今天的分享就到这里,谢谢大家。

0