>>返回主页
中国银行数据中心副主管 任广明:《金融业数据中心基础设施可视化平台研究与实践》

2018-10-17 15:00

任广明.jpg

  各位领导、各位专家、各位同行下午好!我是中国银行数据中心设备环境团队任广明,我们这个团队是负责中国银行数据中心机房环境设施、硬件以及硬件微码的运维工作,是中国银行数据中心基础设施的运维团队。

  刚才杨总把数据中心标准的重要性和之前在ODCC做的一些实践做了讲解,我们参加了相关标准的编写,包括主持《金融业绿色数据中心运维规范》的编写、参与《金融业绿色数据中心建设规范》、《金融业绿色数据中心评价规范》的编写工作。刚才郝处分享的PPT,大家都收获不小,后面我也会结合我们同业的情况给大家作一个分享。在基础设施运维过程中,会遇到很多的挑战,包括运维的压力、以及投产的压力和环境搭建的压力。我们在每年的很多大批次、小批次投产过程中如何才能够把环境迅速交付,在我们基础环境保障这里遇到了很多挑战,包括容量、配置,包括迅速的故障排查,这些都是金融业数据中心基础设施会面临类似的一样的问题。

  我们在运维需要的各种信息,包括基础设施的信息,有一些是excel表格,有一些是自动化的,有一些是分布在不同的团队。从基础环境这块,我们也将需要很多的设备信息整合在一起,才能拿到承载一个应用系统完整信息。在长期的运维过程中各相关团队建立了不同技术条线的自动化系统,记录了不同技术条线相关信息,都是各自实现、实施的。在持续运维压力下、内在自生性创新压力下,因为不创新我们就没有办法更好地提高运维质量、更好地提高运维效率。我们目前已实施完成了一个基础设施可视化平台的工作,包括有资产、运维信息、监控、容量、配线信息,并把这几块的数据有效连接在一起,有机融合作为一个可视化、整体的基础设施平台。

  此平台其中一个主要作用是实现事件的快速处理,主要是因为风水冷电包括设备出现异常影响是很大的,一台设备出现问题会影响几个系统。如果是基础设施这块,此处特指风水冷电包括硬件会影响比较大,尤其像UPS、PDU等等出现问题,可能都是整个机房内或者整个区域都会出现问题,所以运维的压力和挑战是非常大的。我们如何从这些纷繁复杂的报警信息当中找到根源,并评估影响度、影响范围,我们做了一个详细的事件分析。

  我们把监控系统出现的告警进行了压缩,另外对于告警信息进行归纳和总结。目前对于告警信息的梳理,是采用人工专家系统这种推断来做的,这样距离智能化,基础设施可视化平台需要进一步的丰富、完善。

  我们根据告警信息还会同步判断大概在什么地方出现问题,然后用什么样的手段去评估和确定是这个部件或者设备出现了问题,同时会同步推送需要的应急方案、处理步骤、变更方案、过往的故障处理报告,这样让我们一线真正能够完成一线的工作,二线是做运维经验的总结、归纳和梳理。这样让我们一线真正发挥一线的作用,二线发挥二线的作用,而不是说二线去做一线的事情。

  平台把相关的资产、运维信息、监控、容量、配线信息和应用系统相关信息进行了有机连接,包括设备的配电、网络连接,线缆的连接,因为有的时候我们会查哪个网卡出现问题了,连的是哪个设备,那个存储,流量是不是达到上限了等等,很多情况都需要到最后查到一个卡、一条线。平台包括资源情况,包括机柜空间、配电是否能够支撑多少设备的安装、上电;平台有一个辅助巡检、参观和介绍作用。目前已成为基础设施运维的门户,同时通过数据之间的连接和规范,把相关数据进行统一展示。

  这就是它的架构,包括了资产信息、容量、运维信息和配线信息,可以进行机房设备的展示、配置的展示、故障的定位,包括配线的信息和变更的信息等,包括值班的信息,都会同时关联在一起。

  这个平台的很多数据都是通过自动化来采集的,包括下面说到的一体化监控系统,它是由两个系统组成的,一个是机房环境监控系统,另一个是我们自研的硬件监控系统,从2009年上线以后一直运行到现在,并获得了2011年人行的科技进步三等奖。我们在监控的基础之上做了很多功能的拓展,进化为智能化的监控运维的引擎平台。目前通过告警信息能够知道哪个部件,或者哪台机器出现问题。第二个,系统会判断故障原因推送到一线运维工程师,第三个会推送处理步骤,第四个推送应急方案,第五个是以前的故障报告等等。这样能够把异常处理过程简单化,一线工程师可以通过这个系统第一个判断出,第二个自我学习,比较清晰的区分一线、二线工程师的职能。

  在平台中我们线缆连接、IP网络和SAN网络都进行了连接,通过地址等的关联,把网络设备的接口自动关联到一块,对设备、网络进行关联。

  目前平台中的数据,不仅有基础设施部分数据,已经关联到资产、网络,同时在硬件监控这部分,把小机的LPAR信息都纳入管理,因此也将应用信息进行了关联,完成了向操作系统层面、应用层面的向上延展。

  项目从2016年开始到2017年做了多次的建模、开发迭代更新,以及数据的校对。数据是这个平台生长或者说存活,最关键的部分,数据的质量有赖于各相关方对于数据更新的频率,包括数据的准确性这样的一个核对和协同,这其实是平台运维中最困难的一部分。建成一个平台容易,保证这个平台中的数据真实、有效、可用,这是一个系统能够长期使用、准确使用有利于运维最关键的问题。

  平台采用三维虚拟化的仿真技术实现机房和园区、区域的整体展示,在中国银行协办的第六届数据中心联席会议上,在中国银行数据中心给各位领导进行了演示。通过三维的模型来展示机房各环境、各设备的运行状况,包括高等级的一些事件同步的关联。可以看到机房当中使用了什么样的资源,对应资源的型号包括承载的应用情况、容量。同时也对接资产平台,对于资产的记录、使用、报废等过程有一个全生命周期连接。

  平台中数据是有机关联的,因为如果没有连接,每一个系统都是单独的数据,连接后就是1+1会大于2。

  平台的后续工作,准备通过事件驱动反映出来一个部件、设备失效的影响度、关联性。我们今年准备实施机器人巡检、以及RFID。今年也会做一个AR,辅助于设备的巡检,包括故障的处理,是一线和二线,现场和远程的处理异常协同工具。

  巡检机器人的工作,我们设想后期,在异常事件的发生以后,给机器人发指令,让机器人去确认这个事件是在哪个位置发生,不仅机器人按照预定策略巡检,在异常发生的时候也可以让机器人做一些无人机房运维的工作。通过AR技术来实现一线二线之间互相的沟通,进入机房以后二线看不到一线的情况,因为ECC跟这个机房是没有视频的。通过AR以后,二线可以有一个现场的身临其境的感受,这样能够更好地处理这种异常的事件。AR处理异常的场景,也在第六届数据中心联席会议上也做了相关的展示。

  金融业数据中心在标准化、自动化、智能化方面,都在纷纷的布局和加码,希望用智能化的手段来解决目前运维当中遇到的问题,同时通过数据之间的连接和关联,把原来一个数据的价值放大,把它关联在一起,形成一个合纵联合的一种效应,放大它的数据价值。

  我的分享就到这里,谢谢大家!

0