>>返回主页
中国电信北京研究院副总工程师杨明川:智能化数据中心研发实践

2018-10-16 12:15

杨明川.jpg

  我今天演讲的题目是智能化数据中心研发实践。

  数据中心发展到现在,随着AI、大数据时代的到来,数据中心的业务也不断在演变,新的技术会不断的融入到数据中心里面来。智能化的数据中心,其实它有两个方面的含义:一个方面是数据中心怎么样基于我们的海量数据,利用人工智能的技术,进一步去优化数据中心的运营;另一个方面是数据中心会越来越多地去承载大数据的业务,去承载人工智能训练的场景以及人工智能应用的场景,在这个场景下数据中心自身需要去适应新的智能化业务的需求。

  智能化的数据中心的发展可以被归纳为三个阶段:在当前阶段,除了传统的以CPU为核心的数据中心外,我们还要考虑人工智能的需求,比如说建设CPU和GPU联合的资源池,还有开展面向边缘计算场景的FPGA等计算资源池的建设。在这一过程中,我们可能会考虑这样一些需求,例如:AI驱动的数据中心节能,AI驱动的计算、存储和网络的自动化优化和智慧运营,以及AI驱动的巡检机器人等等,特别是在面向运营商特有的NFV场景中的一些故障的监测、排除等等。这些都是当前的智能化数据中心正在面临的新需求、新挑战;到了下一个阶段,我们会提出更高的统一和融合化的需求,包括边缘和核心的统一以及AI和各个系统的融合、标准化和物联网化。尤其是未来整个数据中心在边缘,甚至在边缘的设备和边缘的数据中心之间,它们进一步的统一和融合,也是未来我们需要重点考虑的地方;而在最终阶段,我们希望能够实现完全自动化的数据中心。

  对于运营商来讲,我们现在这个阶段去构建智能化的数据中心也面临着很多的挑战,包括:我们在基础设施层面的改造、我们怎么去适应人工智能和大数据一些新的业务需求、怎么提供更丰富的API接口以及更多的数据存储。现在,我们正在积极思考在未来智能化的数据中心里面可以做一些什么样的探索,我所在的中国电信北京研究院做了一些尝试,下面和大家分享一下我们做的几个方面工作。

  首先,第一个方面是智能化的数据中心节能技术。前面其实有很多专家也都讲到了,我们在物理基础设施层面,可以开展很多节能方面的技术研发,引入很多节能相关的设备,从而降低我们数据中心的能耗。今天在这里,我重点介绍的是一个纯软件的方法,它的思路是对数据中心尤其是云数据中心的服务器资源进行调度,也就是说我们更多是考虑服务器在承载业务时,随着业务需求的动变化,怎么通过人工智能的方法去预测这些服务器资源使用的效率,去预测这些服务器未来的负荷,进而通过智能化的调度来使得部分的服务器休眠得以降低其能耗。这里面我们需要大量的数据采集,从数据中心里面去采集各种各样的包括从云主机、物理主机、能源消耗、业务变化层面上的各种各样的数据,然后去构建基于深度学习的预测模型,使得我们能够通过动态负载调整去降低能耗。

  中国电信已经在几个省公司做了智能化节能的尝试,这不仅仅是我们去构建一个深度学习的算法、去做预测或者做调度那么简单。在运行的过程当中,我们面临着大量在实际运营中要解决的问题,比如:怎么样能保证服务的可靠性和可用性、怎么能够提升预测的精度、以及我们同时要考虑不同设备类型的影响。因为有些设备是承载业务的、有些设备是做管理调度的、还有些设备是做集中控制的,所以我们要考虑在不同的业务类型、设备类型上怎么样能够实现一个更加稳定可靠的调度。在这个过程中我们也采用了一些渐进式的方案,比如刚开始采用只读模拟运行,后来逐渐进行试验,在一些受控的生产环境进行小规模的尝试,当前已经能够实现无人值守下实现节能。最终效果也比较显著,平均下来大概能实现20-30%的节能,而且对于云数据中心还能有更大的能源节省空间。

  第二个方面的案例是服务器定制,服务器定制和我刚才说的智能化数据中心的演进是一脉相承的。这里给出的是中国电信的服务器定制的过程。其中,我们早期定制的是整机柜的服务器、单机的服务器,到2015、2016年我们考虑的是超融合的定制化的服务器,以及低功耗的定制服务器。在2017年我们考虑的主要是ServerSAN领域的定制服务器,还有NFV的定制化服务器以及面向人工智能的GPU定制化服务器。今年,我们又拓展新的领域,比如说针对边缘机房条件定制的服务器。随着数据中心业务的发展,服务器层面必须要适应相应的变化,开展新的类型的服务器定制工作。这块工作和ODCC的工作是相互配合、相互促进的,我们也希望在这方面能够为ODCC提供更多我们的想法,和合作伙伴一起深入合作。

  第三个方面,我们在数据中心里构建人工智能的PaaS平台,这块工作目前主要是在我们的云计算实验室做一些尝试。面向人工智能的PaaS平台有两类:一类是面向公有云的,一类是面向行业的。这里给出的是面向行业的AI的PaaS平台,其构建会有这样一些步骤,比如我们刚开始的时候去搭建一些基础化、标准化的模型,进而让这些模型和我们的业务需求进行深度的匹配。这一过程中,AI的PaaS平台的管理员结合业务需求进行连接,并且对内部进行发布,最后形成解决方案并且能够根据业务、行业需求的动态变化,对这些模型进行进一步的优化和整合。遵循这个思路,我们现在已经搭建了一个面向AI的能力中台的基础架构。这个面向人工智能AI的PaaS平台,在面向一些行业的智能化解决方案里就能够去发挥作用,使得以AI为核心的行业解决方案成为可能。

  第四个方面,我想再提一提AI辅助智能运维。当前,原有的运维方式正面临很多挑战。我们和一些合作伙伴一块在合作研究,怎么样去应对这样一些挑战,比如说虚拟化之后的IT架构,跨计算、存储、网络的端到端运维工具,容器、微服务和虚拟化的应用,以及多厂商集成等问题。我们正在尝试去构建一个AI智能辅助运维系统,研究如何从数据感知层面、故障诊断层面、故障预测和故障自愈层面,如何能够更加充分的运用大数据、人工智能的技术,使得整个数据中心的运维工作更加智能化、自动化。当然,数据中心智能化的道路刚刚开始,未来还有大量的工作,我们需要进一步研究和进一步合作,希望未来的数据中心能够具有更高的智能。

  最后,我们希望在智能化的数据中心这个领域能够开展更加广泛的合作,尤其是充分利用ODCC这样一个开放的平台,和大家共同去探索智能化数据中心这个新领域,谢谢大家!

0