>>返回主页
中国移动通信研究院研究员张婷婷:私有云成熟度标准解读

2018-03-21 16:10

  前面几位专家分享的都是围绕容器技术我们要怎么用?现在是如何实践,包含私有云解决方案的评估都是主要应用于技术和产品的选型。那么接下来我要从一个云计算企业级用户的角度给大家带来一个全新的视角,和大家探讨一下我们在云里面引入新的技术,运营使用后,是怎么综合看待一个私有云的最终成熟度水平的。。

  我将从以下四个方面给大家介绍:私有云成熟评估的缘起,评估标准的内容,私有云成熟度评估实践以及未来的展望。

  首先来看一下,我们为什么要做这样一个关于私有云成熟度评估的标准。中国移动既是一个云服务运营商,同时也是一个很大的企业级私有云用户。移动之所以能够对行业提供公有云服务,也有赖于自身私有云的实践积累。我们从2011年开始就开始做私有云的建设试点,经过两三年一些技术架构的优化,新技术的引入,当前已经有大量的私有云在公司内部投产使用。经过这些云服务的使用之后,我们却发现这么几个问题:

  第一个问题是我们发现私有云的建设规模逐年增大,投资逐年剧增。举个例子来说,前不久中国移动刚刚发布的服务器84亿的集采大单结果,大家可以看到中国移动在IT建设上的大手笔,而其中以云化资源池形式提供资源的比例在60%以上并逐年提升。中国移动在IT软硬件和资源池上的投资将会只增不减,那么我们要思考这些巨大投资背后,到底我们建云之后带来了多大收益?这也是高层更加关注的。

  第二个问题,在私有云建设过程中,随着技术的演进,我们也不断的做技术选型和架构优化,例如从封闭架构到开放openstack、虚拟化、容器的试点引入;分布式存储对传统盘阵的部分替代等,这些新的技术举措是否对云计算的最终效果产生了积极的影响,在技术投入使用之后也需要思考。

  第三个问题,在私有云投产面向业务开始服务时,我们也听到很多来自业务部门的吐槽,例如资源永远不够用,刚建完就分完;流程不畅,申请一个虚拟机,从提交申请到网络配通要1周之久等等,业务和云服务提供方矛盾频发,用户满意度并不高。

  这些问题让我们开始反思?什么是一个好的云,一个成熟的云?规模大,技术新就一定成熟吗?建云只是手段,用好云才是目的,因此我们觉得要以终为始,以提升最终私有云服务效果为目标,建立一套完整的评估体系,寻找运营建设优化提升的方向,因此从2016年,我们进入了云计算的运营优化阶段,在这一阶段不仅关注的是新技术、新架构,而是更关注服务模式改进,数据收集,量化提升,希望能够统过一套完整科学的方法来帮助滚动优化,提升私有云成熟度。

  这些问题并不是中国移动独有的,私有云如果抛开各行业上层业务的差异,从底层的IT基础设施设施,PaaS服务平台资源、服务运营等方面还是有着很大通用的共性。所以经过我们跟很多行业用户的交流,发现大家也有着类似的痛点。一是大家都觉得我们花巨资建了云之后到底效果怎么样,现在缺乏一个量化科学的评估体系。二是当前公司在如果想了解自己在同行业或者不同行业中的位置,除了每年各种技术大会的点滴分享,目前也缺乏一个应用广泛的标准和理解,能让大家在一个频道上交流的,通过横向的跨行业交流帮助大家相互借鉴,取长补短。第三如果知道了当前的成熟度水平,想要提升往往不知道从何入手,这就需要有一套方法帮助分析当前的优劣势,给出下一步提升的方向。第四是建云之后要和初期规划做对比,缺乏后评估的手段来进行一些持续的改进。

  基于以上这些痛点,我们设立这样一个成熟度评估的目的,实际上是希望帮助公司内部的分支机构、行业内、行业间来评判私有云成熟度水平。公司内部去推动树立最佳实践,行业内也依托联盟以及可信云的标准做量化分析的标准,帮助大家在行业内寻求一个定位,取长补短。在跨行业和国际上,我们在国际电联是主管信息通信技术事务的联合国机构ITU-T,制定适用于公有云和私有云的行业通用成熟度框架,希望促进用户需求的落地。

  基于以上目标,在2017年6月,由中国移动发起成立了私有云成熟度评估的项目组,制定成熟度评估项目标准,项目得到了信通院以及各行业用户的支持,不仅仅包含运营商,也有石油、汽车制造、仪电、媒体、金融等各行业用户共同讨论制定。同时也有各行业的云服务产品及解决方案提供商辅助进行技术指标的完善工作。这是业界首个有真正的私有云用户牵头发起的评估标准,真正覆盖了私有云全生命周期,而且基于私有云通用能力覆盖不同行业,适用面广泛。

  如果评估一个私有云应该从哪些方面开展呢?首先来看一个私有云从规划、建设、上线使用都经历了哪些环节,有哪些人参与,我们再来看怎么评。一个云建设初期一定会有一个规划阶段,要想好建多大,建哪些服务,怎么建。经过建设实施后进入资源分配阶段,这就涉及用户和运营管理员之间的资源合理性评估、资源分配等环节;进入资源使用期涉及资源使用情况的持续监控,适时资源回收和优化,同时伴随着整个运营过程做产品和服务的运营分析及平台的运维支撑服务。

  纵观流程来看,一个私有云要想用好的话不仅有人的参与,还会有自动化平台和工具技术,同时还有一些比较完善的管理机制和流程。云服务作为企业IT转型的基础,其核心还是如何保障好业务如何用好、用对资源,这其实是一门涉及人员、工具、管理和技术的综合艺术。真正的云服务成熟度水平的评估不仅仅涉及技术,更涉及有效的云服务规划、运营流程及组织技术变革等方面。

  因此总结整个私有云的生命周期:建设-采购-资源提供-运营运维-服务交付以及各环节的涉及的角色和团队。我们把评估的内容分为四个模块域:云服务规划、云资源提供、云服务运营管理和云安全四个模块域。服务规划涉及规划建设和招标采购,包含了云架构、产品、容量、可用性、业务连续性等方面的规划设计;云资源提供涉及资源建设、资产管理及资源分配调度等;云服务管理包含面向客户的运营和面向设备的运维两部分;云安全贯穿生命周期始终,包含了安全制度以及虚拟化、网络、数据安全以及安全服务等方面。

  基于整体的评估框架和评估需要考虑的维度,我们设计了一套衡量私有云综合服务水平的指标体系和评估方法3CMM,简单来看就是"三维、四域、五级",三维是说评估从技术、管理和效果三个维度进行指标设计,我们的标准体系也是按照这三个维度分三个部分进行编制的。其中标准效果指标是定量的,技术和管理指标属于定性分析指标,可用于分析对效果指标的影响。四域就是刚才我们提到的四个模块域,其中每个模块域的指标都会按照三个维度进行细分。而综合的最终评估结果会把私有云划分为从离散孤岛到服务融合五个成熟度等级。

  看了这么多模型和评估内容,我们解释一下我们私有云评估的对象。以最初设立这个模型的目的来说,我们是面向最终的企业私有云用户来做评定的。但私有云的商业形态还是很丰富的,如果按照gartner的基础设施所属和控制权所属划分来看,仅私有云就可以细分为这样四种形态。所以具体评定时时,会根据不同商用形态下私有云在各个模块域中会引入不同的角色来进行评定。

  举个例子,最常见的自建自营的私有云用户,比如大规模的像移动、石油,有自己的基础设施,有自己的自营团队,内部涉及云规划团队、采购团队,云服务管理团队,外部涉及解决方案提供商等进行参评。再或者说像政府,自身信息化的人员配比不足,常常采用托管云的方式,虽然是面向最终政府,但实际参与评定工作较多的可能是云服务的运营商。

  接下来我们就分三个维度来看一下评估的指标,首先是成熟度效果,这些指标都是定量可测算的值,直接反应私有云的成熟度水平。云服务规划:大家最关心的比如资源服务成本利用率,投入和资源利用率效果的匹配和产出,资源建设周期长短,是成熟度水平的表现。云资源提供:除了我们会有一些资源池化、API开放的能力,还有基础的资源规格到底是什么样的,以及人均的管理员资源能力是怎么样的。还有资源池运营完之后,具体的CPU利用率达到什么水平。云服务管理,比如资源交付周期,日级、秒级、月级,还有私有云使用的周期,这是一个成熟度的表现。云安全方面,面向私有云大多数内部要接入自己的鉴权认证系统,还有对重大安全事故的管控。

  再来看技术指标,云服务规划包括架构规划,服务产品规划连续性等。云资源提供方面,会对不同资源提供的一些性能进行测试,都是借助测试工具。还有资源提供类型比例类指标,例如平均虚拟化整合比,虚拟化比例,存储池化比例等。大家乍一看感觉这个虚拟化比例、虚拟整合比和我的成熟度水平有什么直接关系吗?其实根据我们内部的实践,这种技术指标可以从侧门辅助分析提升效果类指标的方法,例如虚拟化整合比就是一个影响效果类指标资源利用率的关键因素,其他指标,例如容器化规模也可以类推参考。PaaS类的这些指标,现在暂时分为平台层、应用层两类,但各个公司由于业务需求不同,可能落地选择的组件不同,这一块也是一个可选类的指标。云服务管理,是根据各种管理服务在平台上实现的自动化能力和水平来进行设置的。举个例子,这里我们说的服务发布能力描述的是可实现云服务发布的线上申请、 审批、评审、测试和自动化发布等功能是否完善和具备,以及实现的程度。对于云安全部分也设置了虚拟化安全、镜像安全管理,安全域划分的实现手段等技术指标进行评测。

  最后我们来看一下管理成熟度,在规划方面考虑人员角色的设置是否全面,容量规划管理的科学性,组织架构是否符合云服务的平台化和微服务化设置,在资源提供模块考虑资源管理员的各类职责设置,在资产管理、资源建设部署、资源分配调整回收方面的流程完善度以及部分需求开发流程的完备性。在云服务管理方面设置了5种云服务人员角色,描述了运营交付和运维管理的各6个流程,涵盖运营运维交付的基本所有主要工作。云安全管理部分主要是安全制度和人员管理的完善性。

  基于刚才的标准内容,中国移动一直走在践行的路上,下面我来分享一下移动的评估实践历程。调研了业界国内外的标准包括ITSS、ISO17789可信云等,当时商没有一个对应私有云有体系的评估方法,因此我们也结合了我们前期的建设经验初步设计了这个四域三维的评估模型,并快速迭代在5个省公司试点评测,在评测过程中调整和优化指标、权重以及评估方法,同时也感觉到这个评估方法业界也是需要的,可以根据行业用户的体验大家一起来完善,因此在奥斯卡中呼吁立项,也得到了来自石油、金融、制造等各大私有云企业用户的共鸣和大力支持。在项目组的共同努力下,我们经过多次讨论,汲取了大家的共性需求形成行业评估的标准。并且我们意识到关于成熟度的评估其实可以不仅局限于私有云,在混合云需求旺盛的今天,未来也是可以扩大适用面的,因此在国际标准化组织中牵头立项了“云计算程度需求和框架”希望在标准中从企业用户的诉求出发,引导需求的落地。于此同时在我们公司内部也进行了更大规模的推广评估,收效良好。今天我也很荣幸借云计算开源大会的舞台跟大家发布这套成熟度评估标准,感谢项目组各位专家的共同努力。今年一方面中国移动内部将会全网性开展更大规模的评估,另外也希望今年后半年依托可信云有更多的用户单位大家一起实践这个评估的方法和标准,这样才能真正实现我们做评估的初衷,帮助大家定位,加强跨行业交流。

  下面分享一下我们2017 年评估的效果,去年16个省公司参与了评估,一部分比例是在分层解耦阶段,发达比较好的阶段达到L3-L4能力体系构建的阶段。整体来看成熟度水平还是很不均匀的,所以有较大的提升空间。所以这个评估包括评估后的交流分析就帮助树立了云计算成熟度水平较高省的最佳实践,促进了取长补短,同时我们也根据参评省得评估数据,分析了一些对效果指标提升有意义的根因分析,例如对于利用率指标的提升,可以通过提升虚拟化整合比,资源池化比例以及改进管理流程等方面进行优化提升,也帮助大家给出了提升成熟度的努力方向。

  这里也跟大家分享我们评估后给出优化提升的例子:四川公司,我们在评估之初,他们的资源分配环节做的还是非常简单的,开始都是业务要多大规格虚拟机平台管理员只能给多大,甚至连基础模板都不具备,但是根据评估建议以及评估给出的容量规划工具的引入,云服务团队逐步通过测试的方式量化了每个资源模板的能力,在业务申请资源时就可以针对业务需求开展测试,合理分配资源,大大降低了业务超量申请资源的情况,帮助平台将虚拟化宿主机CPU利用率从12%提升至23%,内存利用率从54%提升至70%多,折算节约宿主机硬件投资400万元以上,这就是一个加强业务与资源联动的一个成熟度提升举措,也是合理的容量规划所收到的效果。可以看到我们的评估给被评估方带来一个切实可行的优化提升方向并收效甚好。

  我们建立一个成熟度评估,不仅是一个标准,我对它的未来还是有很多期待的。比如我期待它未来能成为在企业治理和规划过程中,起到一个很好的帮助作用,能帮助企业在IT云计算转型中顺利地过渡。同时成为真正业界通用的量化效果的标尺,来帮助企业定位。也希望通过这种评估促进跨行业用户的交流,进一步加强通用IT能力的平台化沉淀。最后通过评估我们希望能树立一些最佳实践方案,将对国内的产业也有很大的促进作用。

  以上就是我的一些分享。同时也做一个小小的预告,不仅标准开放,刚才提到的评估中用到的测评的工具,容量规划工具等我们也将开源。明天将有一个私有云评估的工具集的开源项目的发布,后期也希望更多的用户单位和云服务的解决方案提供商,一起加入这个开源项目,加入我们的评估,谢谢大家。

0