>>返回主页
阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

2018-10-16 14:00

刘国华.jpg

  大家下午好,很荣幸有机会可以跟大家分享一下阿里巴巴在智能化领域的建设。

  在开始智能化运维之前先跟大家分享一下阿里巴巴在专业领域里对智能化的支持。阿里巴巴在过往两年内做了大量专业领域的创新支持AI业务,我们为高密度计算集群提供新的制冷方式,我们已经开始大规模使用液冷集群来支持高密度计算。我们在FPGA建设了统一的编译平台,可以接近30倍以上研发效率的提升。网络端我们也开始做大量的创新,包括总的带宽从25G到100G到400G的演进。这些创新支持了现有所有AI业务的发展,同时我们也把AI融入到基础设施领域去重塑现有的基础设施。

  智能化给未来量的基础设施可以带来什么,我们把智能化为我们带来的价值分为三层,最下面的一层是数据驱动决策层,当我们所有专业领域的业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕发展数据.

  第二层,逐步透明化可以帮我们发现基础设施层专业层可以突破的技术点,每家公司所有的业务都是不同的形态,对所有底层的专业都会有不同的诉求,这是最下层数据驱动决策层的价值。第二是做全局优化,我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道数据中心内部会规划上架密度,怎样的上架密度是更合理的方式,按照传统的方式,我们会对服务器的功耗提出一个评估,然后对IDC机架做评估,现在是基于在线动态的方式,可以把优化变成实时动态的方式,来提升数据中心的利用率,供应链更加有这方面的优势。

  最后一层是变革式的影响,当我们把智能化的能力运用到平台,有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有数据中心的运维模式都是属于被动式响应,只要你在智能层里,你使用预测算法,就可以提前预估到所有故障,我们对所有故障的响应方式从被动转化为主动型服务。

  想要完成智能化建设最关键的三件事情,第一,我们要把基础设施全面数字化,让它所有东西都变成可衡量的体系。第二,建设端到端从业务到基础设施全链条的自动化平台,保证你决策规划和响应速度。最后建立TCO模型,实现很好的反馈机制,保证这个反馈不断优化我们的模型。在智能化领域,我们是横跨专业、机器学习以及优化算法的跨界思考逻辑,它是自动化下一个阶段。

  阿里巴巴基于这样的思路,我们重新规划建设了基础设施领域的三大平台,分别是基础设施规划与交付平台,第二是集群自动化运维平台,第三是数据中心内部运营平台,这三层都引入很多智能化的方式,重新创造出原来基于三大功能平台不一样的业务形态。下面分享一下每个平台在智能化时代里基于我们的思考对平台改进的能力。

  首先分享一下阿里巴巴的基础设施规划与交付平台,这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC建设、生产供应链以及OS交付,自动化交付平台,负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责,第一是怎么去提升整体交付效率。

  第二,如何保证在不断供的情况下去优化成本建设,实现成本最优。我们在很多领域里引入算法后做了很多大的改造,第一个改造,基于机器学习的方式,建立了业务规划驱动,通过这种方式,可以让业务具有更强的规划性在平台可以快速把业务的规划转化成基础设施的规划,实现基础设施建设逐步基于业务的规划,通过这种方式可以提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近247%。在链路已经全面在线化的时候,引入智能预测/预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。

  第三,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链的方式。我们在做需求预测,在业务端的数据,包括对于前端的数据,比如阿里云的销售数据,以及对下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式,目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。

  第二个分享的是阿里巴巴集群自动化运维平台,核心解决的问题是我们怎么提升当服务器规模化后的运维效率问题,以及基于业务视角成本最优的解决方案。第二层是怎么保证业务的稳定性,基础设施下面的任何故障不会影响上面所有业务的发展,当你业务发展规模到一定阶段的时候,故障是一种创造,而不是一个你可以避免的方式。

  我们怎么做,第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于什么,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维,阿里巴巴现在物理机人群已经100%运用全自动化运维方式,这是第一层在工程上的建设结果。在智能化领域,我们还为所有的业务的提供一个基于业务视角的数据决策支撑的平台,平台最大的价值在于,第一,可以基于我们的数据平台,把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化。针对每个业务不同类型的专业的优化,来提升整体业务的成本竞争力。

  第二,我们引入了一些算法去做智能异常检测,包含两部分,第一部分是我们在基础设施领域在硬件领域做很大量故障的预测,通过故障预测的方式去提前发现故障。第二层是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,基本上在万分之八的误报率,召回率比业界高于20%左右,我们还在做宕机、网络故障预测,以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。

  最后一个平台是我们阿里巴巴在数据中心内的运营平台,提升数据中心内部运营效率以及实现能耗最优。怎么解决运维效率的问题,通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。

  我们在业绩上,对于最核心的业务最大可以提升接近20%的机柜密度。同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高。希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化,目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化,实现动态优化PUE。

  刚才介绍的只是几个领域的能建设阿里巴巴到现在为止,我们对于智能化领域建设是全方位的,除了刚才介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都会大量投入智能化的方式,智能化可以帮助业务对成本和应用有极大的提升,通过这种方式真正达到智能化运维的新一阶段,自动化维修也会有很大比例的提升。通过我们智能化的建设以及交互效率提升接近2.47倍,以及我们在数据中心内硬件的故障由68%的故障率实现全自动化无需业务接入我们就可以实现数据中心的运维跟上层运维完全解耦,来提升整体的交付效率。

  我今天分享就到这里,谢谢大家!

0