中国信息通信研究院刘成成:面向数据资产管理的大数据标准化实践

2018-12-13 14:10

微信图片_20181213144724.jpg

  大家好,我是来自中国信息通信研究院的刘成成,至此我们今天所有的白皮书、标准等成果以发布的形式或者解读的形式已经介绍完了,今天我们可以说是带着满满的诚意、满满的干货接受大家的检验和指导,总结2018年的成果,展望2019年。有人说,人工智能是生产力的变革、区块链是生产关系的变革、大数据是生产资料的变革,不敢说大数据是生产资料的变革,但是大数据的价值、大数据是钻石矿是重要资产已经深入人心。

  我的题目是数据资产管理大数据时代的必修课,也是从数据资产管理意义的角度去开启今天演讲的话题。我不知道在座的有多少人是被咱们的企业安排成数据资产管理或者是做数据资产管理,我们为什么要做数据资产管理,因为数据资产管理很重要,为什么很重要呢?我经常带着这样的问题问自己,我也被很多专家和研究人员问到这个问题,当然我也带着这个问题跟很多的企业去交流。

  其实我们今天的这个大会贯以数据资产管理的名称,无论上午下午都坐无虚席,关注数据资产管理的人很多,这是不是说明数据资产管理很重要呢?我也是做这个研究的,能说它不重要呢数据资产管理重要性我想举一个跟人们生活息息相关的例子来说明,,我们去停车场停车,通过车牌识别自动抬杆、出口出来时自动收费,这是一个“智能化”的生活场景。还有一个就是现在人工智能技术指导下的语音音箱产品,早上出门问一下北京多少度,涉及到要不要加衣服、要不要穿秋裤等是我们看到这些应用场景的背后其实是有很多数据的工作去支撑的,语音识别技术服务公司科大讯飞,它在北京语言大学进驻的,依托北京语言大学研究中国的普通话、研究中国的方言等,这是从语音数据来讲做了大量的工作才能够使我们可以方便地跟这个语音机器人去沟通。图像识别过程中我们所感知到的就是我们停车的便捷或者感受到城市的电子监控把我们拍到或者罚我的分和罚款的这种痛苦,这种技术的背后其实源于很多文字数据或者图片数据的整理及打标签等,在三、四线城市已经衍生出来一类数据工作者的产业或者工种。所以说从这种直观的印象来看我们知道背后的数据资产管理工作真的很重要。

  数据分析师经常在机器学习建模的过程中,或者数据从业者开展数据统计、数据应用的过程中遇到痛苦:数据获取维度不全、数据质量不佳、数据不准确等等,这些问题都需要数据资产管理去解决。所以说,数据资产管理很重要。

  此外,通过研究,我大概总结出来一个框架,可以说数据资产管理是一个非常复杂的系统工程,这个框架是从两个维度去展开,一个是数据资产管理包含什么,一个是影响数据资产管理的一个环境因素。左边的话是它包含的内容,右边是它的影响因素,其实影响因素除了我们传统比较熟悉的PEST模型,也就是政治经济社会技术等等去影响数据资产管理的内容和具体的实践策略之外。还有个人层次、企业层次、社会行业层次、国家政府层次甚至是国际层次,这些都是影响数据资产管理重要性的一个外在因素,也是关注数据资产管理的人员及对象。数据资产管理的内涵处在大数据技术框架的中间层次,下面连接大数据管理平台或者是其他的技术基础设施,上面是支撑我们数据应用。

  我们研究位于中间层次的数据资产管理只能着眼于中间吗?不是的。我们要关注下层的基础变化、数据源的多样性,我们要思考上层的数据应用,把业务应用需求跟我们的数据资产管理相结合进而形成持续完善的科学的管理框架或者是管理模式。其中,数据安全管理可以从四个维度去理解,即数据级安全、系统级安全、网络性安全和部署性安全。数据级安全当然是我们数据管理非常关注的点,它包括数据分级分类、数据脱敏加密等,部署性安全其实就有所谓的一式三备、一式双备,异地多活等。你在做备份的管理方案设计时,要结合公司自己的IT情况、技术、财力等各种因素去决定你这个数据的备案是采取双备还是采取双备,还是异地多活,主集群服务数据应用时,一但断网或者断电,备系统在响应过程中延迟情况、速度情况如何,是否能够快速切换支撑,这个其实也是需要我们从数据资产管理的角度去思考的。

  总结来看,我们工作思路可以从四个方面展开,即调研摸索目前中国数据资产管理的现状,可以参考的理论框架是什么样子的,另外从方法论的角度是从技术工作的角度标准化通用的框架是什么?技术工具的基础功能是什么?我们都需要做统一的通用的标准或者说参考方法供大家去理解交流。第四个就是我们希望能够围绕这样的一个话题和主题在我们这样一个平台营造一个生态。后面我也会逐渐根据这样的一个思路去展开。

  目前国际理论包括DAMA、ISO、DGI、IBM等,这些理论在中国实践的过程中其实会出现一些水土不服的现象,需要结合中国IT化进程的实际情况落地。我们提炼的理论是希望能够结合国际的理论和中国的实践去展开,我们也是这样做的。我们希望依托大数据技术标准推进委员会把数据资产管理需求和实施供给方案中间的鸿沟用共识化的“梯子”予以填补。

  在工作的进程中,除了形成已经迭代了3次的《数据资产管理白皮书》,垂直管理职能的《主数据管理实践白皮书》,两本调研报告等成果,我们还观察到了三点内容,想在这里面首先跟大家简要地分享一下。第一个就是政务数据资源在梳理的过程中,我们发现已经有11个省市成立了厅局级的大数据管理局,全国很大部分省市提出了机构改革申请。设置这样的一个大数据厅级的单位去支撑我们所谓“让数据多跑路、让群众少跑腿”或者“只跑一次腿”的口号概念。大数据局主要做的除了梳理数据资源来完善共享交换功能之外,也在梳理相应的主数据库,包括人口库、法人库、电子证照库、地理信息系统库、宏观经济库等等,甚至在五大库基础上衍生出四大库、六大库的概念,这都是政务数据资产管理关心的话题。从政务也就是地方政府机构来讲,地方政府机构已经成立了专门的大数据局管,对于企业而言,已经在IT部门的基础上成立了专门的数据部门,甚至衍生出专门的数据CDO即首席数据官、首席隐私官等,这是源于大数据本身这样一个特点和概念去形成的,我们没有看到所谓什么区块链局或者人工智能局,也是因为大数据有它本身的特点和特征所以形成了这样一个现象。

  第二个想跟大家分享的是,2018年可以说是数据治理的元年,因为随着5月份银保监会发布的银行业金融机构数据治理指引之后,我们发现工业、证券、支付机构、医疗等等都开始了动作。从行业监管层次他们无论是围绕自己的会员单位开展这样的调研或者形成一定指引文件或者是说形成一定的标准体系他们都围绕数据治理个事情开展了相应的工作。我们上午解读了两个调查报告,一个是深入非银行支付机构,一个是深入工业领域,这两个调查报告分别涉及的回收次数一个是152次,最终筛选使用到我们的数据是76次,有200多家单位在这两个单位关注数据资产管理的实践方式和技术能力。所以说这个市场可以说是非常庞大的,因此我也观察到了,运营商、数据服务商或者是IT服务商,甚至是互联网公司,他们已经纷纷在数据资产管理的服务行业开展了布局,甚至我发现其实我们在项目实施的过程中不敢说是呈现三分技术、七分管理的状态,但是基本上属于文本咨询的事情再项目实施中为主,技术平台工具为辅,以服务我们的行业或者是服务我们的企业在进行数据资产管理相关项目的落地实施,这是想分享的第二点。

  第三,在我们两份调查问卷中,其实有很多观点值得提炼的,我个人感觉金融领域相对成熟、工业领域尚属起步,这个尚属起步不是说工业领域开展得晚或者是说它做的相对不是很完善,而是工业领域有它本身的数据特殊性,还有它机构的复杂性。这个图其实从部署意识规划方面来看,两个行业都已经开展了相关的研究或者工作,只不过金融领域稍微成熟一点,所以它已经结合整个本身的业务背景所以有很多成熟的应用,包括反欺诈、反洗钱,支付放行等这些业务模块都离不开这种成熟的数据应用去支撑。此外,有一个工作细节,我想跟大家分享一下,在非银行支付机构的问卷填写过程中,每份问卷平均填写了1个半小时的时间,虽然问卷回收份数是152份,但是浏览量达到了1000多次,足以见得数据资产管理在非银行支付机构的重视程度,其涵盖内容是涉及多个部门多个人员的。也反映了行业领域对数据资产管理的态度。

  观察到了三个点跟大家分享完之后就到了我们核心的内容,就是数据资产管理框架,我们认为其包含八个管理职能、五个保障措施和四个实施步骤,我们跟业界专家交流过程中人家会问我“你们所提及的数据资产管理是什么?你们认为数据资产管理和数据管理、数据资产管理和数据管控、数据资产管理和数据治理的区别是什么”等等这些名词的辨析,我们交流开始都是从名词辨析开始的有一次我跟一个专家聊天,他跟我说了一件事情很有意思,我不是段子手,但是我是段子的搬运工。其实数据资产管理也是分门派的,这样理解的话我们有DAMA国际门派,也有结合中国落地的所谓的大数据技术标准推进委员会门派,我们推进的门派所提及的数据资产管理就包含数据管理、数据治理以及资产化的两个过程,资产化的两个过程我们强调的是数据价值管理和数据共享管理这两个活动职能,其中数据资产价值评估是关键,更是难点。另外,我们原本在1.0白皮书里面的保障措施是包含两个,两个核心的保障机制即组织架构、制度体系。通过我们的调研发现其实保障措施是要从战略规划入手,进而构建组织机构管理机制,甚至其实通过咱们这个审计方式是去监管整个的组织架构和管理机制的流程的执行,所谓的这个审计不是我们传统意义上的数据审计,更多的是监督IT部门和业务部门落实我对这个数据资产管理进行的规划和完善程度的这样的一个审计方式。最后就是培育宣传,培训宣传除了人才的培训之外,更多的还有一个意义就是我要把我整个的从集团角度或者从公司的战略层、领导层的角度对数据的应用和管控流程做以一定的分享和普及,让整个的数据文化在公司里面形成一定的氛围,而且这个流程大家也是相当于去管控,甚至可以提出一些激励机制,让大家对这个管控方案、管理方案进行一个提案,然后每个提案可以给它一定的奖励等等,甚至人才的升级过程中也可以围绕数据资产管理去提炼,这就是我们保障措施包含的内容。

  从实施阶段来讲,我们目前梳理了四个阶段在里面,白皮书里面提到了几个角度,包括大型机构、央企单位可以从上到下从规划入手然后再逐步落实,如果你是一个小型单位,我从一个元数据入手我从一个主数据、或者从数据架构、数据模型单个的模型入手各个击破。在此基础上我们也是做了一个理论框架的垂直性拆解,除了数据资产管理白皮书已经迭代至3.0,小步快跑迭代,后面我们会持续逐步完善。在我们今天这个场合也发布了工业领域或者是制造业领域经常做数据资产管理管理的主数据管理切入方式,围绕这种方式,形成了《主数据管理实践白皮书》,涉及“2体系一平台、6个实施阶段等”,也就是围绕主数据管理这个职能进行展开。关于标准和元数据我们已经组建了工作组,后续我们围绕质量、架构模型甚至是安全实践等等开展工作,形成垂直类的理论框架体系。

  在调研的过程中,有些单位在组织机构中设置了专门的数据管理部门,但是虽然说有一定的企业设置了这个专门的数据管理部门,但是它在做工作的过程中需要牵动IT部门、业务部门去配合它,大多数数据部门的领导或者工作人员反应他们需要一个类似于“尚方宝剑”或者“武术宝典”一样的东西去帮助他们说服IT部门和业务部门配合他们工作,我觉得我们白皮书其实就是一个指导指引,也希望能够起到这样一个“武林秘籍”的作用。我们也期待更多的尚方宝剑能够支持数据部门或者刚刚提到的大数据局等等去顺利的执行数据资产管理的职能,完成他们挖掘数据价值的使命或者说是目标。另外,因为企业的层次不同、IT化进程差异,其实也形成了所谓的联邦制和集成制,联邦制就是说我把这个规定做出来之后各个业务部门分别去做,然后到我这里做结果的汇总,集成制是我统一做标准统一做元数据统一,然后分发到各个业务系统,必须按照我的细节去执行。无论是“集成制”还是“联邦制”也都需要数据资产管理的管理职能和保障措施的内容。

  接下来是从技术工具功能模块拆解的角度去梳理,目前蓝色的是已经做的标准模块,黄色是即将要开展做的标准模块,这个是围绕管理职能的工具使用情况去拆解的。最终我们观察到的产业界所提供的工具平台,以元数据工具模块需求最大,其次是标准规则库统筹以及质量稽核等。数据管理平台目前以元数据、数据标准和数据质量和简单的数据脱敏加密和分类分级这种安全的功能为主,数据集成工具是我们常常提到的ETL的过程,就是数据的抽取、转化和加载,然后参考的框架包括咱们所谓的开源的技术模块包括kettle、petaho、nifi等,把原来的代码或者命令行的数据集成过程以界面化的配置去做,甚至是根据不同的数据源设置不同的元模型,只需要填数据库数据源的链接、名称等等信息就可以把数据源链接在一起。数据标准管理的功能以规则库的建立和维护为主,需要AB-Test版本化对比。元数据的应用包括血缘分析、影响分析、全链分析、空间分析、数据地图等等。数据质量的稽核管控也分为事前数据存量的稽核和事后数据增量的质量把控。围绕“数据集成工具”和“数据管理平台”,目前我们已经依托CCSA TC601立下了两个行标,甚至在ITU国际标准中,将我们数据资产管理框架以ITU-F.FDAM立项了国际标准,在国际的舞台上给中国的数据资产管理的专家争取了这样的话语权,我们也欢迎更多的专家加入我们一起去完善这样一个国际标准的内容。

  最后想强调,我们想打造一个生态,这个生态可以围绕四个方面去做:第一就是培训教育,这个包括企业内部的培训层次,还有外在的数据资产管理人才的培训层次。第二就是搭建平台,这个平台更多围绕着难点话题,比如数据确权、价值评估等等定期开展专题研讨,也可以包括标准制定等工作,还有就是组织像现在今天这种会议的峰会盛会,今年是属于数据资产管理大会第一年,2018年18要发,是作为我们的元年,以后的每一年我们都希望举办数据资产管理的盛会,也欢迎大家每一年都能参加我们的大会。另外,我们希望围绕数据资产管理的实践方式能够树立一些行业领域标杆,以我们的品牌“星河奖”的形式把标杆的企业找到,希望大家都能够向它看齐。围绕这个标杆我们其实也是打造了自己内部的评价评分体系,我们也是想说围绕这样的评价评分体系去筛选出所谓数据资产管理在某个领域或者某个行业做的比较好的企业或者是数据实践案例,给大家进行一个分享和展示。

  最后,我们也希望能够支撑部委和各地方,我们现在也是在支撑比如说网信办、工信部或者地方政府这方面的研究和政策规划、计划等工作。关于数据资产管理有很多话题,“两本白皮书、两个行业调研报告、标准和技术”等成果仅是一个序言,未来,我们能做的事情有很多很多。数据资产管理是一个非常重要的内容,因为它是大数据时代的必修课,我也希望能够在此诚邀有兴趣的专家能够联系我或者联系我们的同事,我们一起在2019年为数据资产管理的落地和实施做更多更有意义和更有价值的事情,谢谢大家。

0