大数据技术标准推进委员会常务副主席魏凯:《数据资产管理白皮书3.0》发布

2018-12-13 11:15

微信图片_20181213155455.jpg

  大家上午好,我是中国信通院的员工,我一直在从事大数据的工作。我们联合多家公司、50余名专家,写了一本白皮书叫《数据资产管理白皮书3.0》,我们为什么写这个白皮书?就像刚才各位领导在主题致辞所说的一样,我们现在的资源观变了,最终的资源不是土地、不是能源而是数据,不仅在企业之间的竞争是这样,在国家之间的竞争也是这样,所以不同的时代有不同的资源观。

  其实在这几年大数据不管在国际上还是在中国都呈现高速发展的增长的态势,在国际上我们参考了国际上很多权威的调研,在2017年的时候全球的大数据和商业数据分析的市场规模是1500亿,增速大概是百分之十几的增速,其中很多行业,银行、离散制造、流程制造和政府行业都是大数据需求最旺盛的行业,增速是非常快的。在中国增速是尤其高,我口头调研了好多大数据的供应商,他们都在说他们天天忙不过来,单子多到真是做不过来,每年都是百分之百的增长,连续翻番,很多企业劳动市场率非常高。

  中国信通院的统计显示,2017年中国供应商把服务卖出去窄口径的市场规模是230多亿人民币,可能还算小了,我们这个调研是不全面的,可能是低估了,我觉得比这个数字要高。而且是39%的增速,是全球的两倍,增速非常高,这是每年发布大数据规模市场调查的结果。但是我们不要被现象迷惑了,我们在大数据高速增长的过程中背后有很大的隐忧,面临很严重的瓶颈,这个瓶颈在哪里?我用数据跟大家汇报一下,第一,数据质量给企业造成了很大成本的开支,15-25%,这是一个权威的数据质量管理专家的一个估计,质量不行。第二是98%的企业都存在数据孤岛问题,这可能不是98%,而是99.99%,几乎每一个企业都面临这样的问题,数据分析人员80%的时间不是在做数据分析,而是在做数据的准备,他们想要数据的时候不知道数据在哪,这是大家都知道的事情。

  还有一个数据的集中意味着把鸡蛋放在一个篮子里面,被盗就是一窝端,我们看到从2013年到今年我们前几天的统计,是根据国际上有一个数据员做的统计是130亿条数据泄露出去,最近几天泄露案件的规模是越来越大了,今年全年的总额会突破前几年的总和。数据滥用也是非常严重,安全问题越来越突出。还有最重要的,50%以上的数据分析项目投资回报率低于预期,这些都不是我说的,这都是权威的来源。最后一个低于50%以上的ROI的预期是权威公司的调研报告说的。

  我把这个现象总结成几个方面,一个质量不过关、难互通、获取成本很高,包括时间成本,如果一个医院要获取急诊病人的数据,当这个病人快不行的时候数据还没有来,这是生命的成本,数据的安全很难保证,这个大家深有体会,所以这些问题都是大数据发展面临得高增长背后的隐忧,这个生意能不能持续做下去,这是未来每个人甲方和乙方都面临的问题。

  其实在前几年我们高喊大数据口号的时候,领导、社会大众往往看到的都是光鲜靓丽的一面,冰山上浮在水面上的一面,人工智能、可视化等等,其实在冰山下面是垃圾场,大家看不到下面这些故事。前面所有故事都在谈无管理的,没有治理的数据就是一堆垃圾,这是很明显的,你所有的分析不能建立在垃圾之上。所以今天召开数据资产管理大会,实际上就是要把数据真正当作资产来对待,资产是什么?今天白皮书的内容大概是一个背景的回顾,还有就是为什么我们要管理我们的数据,为什么管理数据资产,我们的目标是什么,然后我们管什么,我们怎么管,企业到底怎么落地的,回答这些大家心中的疑问,这是我们这个白皮书的主要的内容。

  今天大家看到是3.0,前面两版是小版本持续发布。大家刚才很多时候都在谈,我们现在特别希望提到一个口号大数据数据资产管理是大数据时代的必修课,没有这个很多事情做不了。以前我们有建平台,我们有数据应用,但是连接它们两个之间的三明治的这个“肉”是数据资产管理。

  什么是数据资产?其实非常简单,就是刚才华为陈飚的演讲也说过了,就是能带来价值的才是资产,带不来价值的就是垃圾,我们就是把数据真正当成一等公民的企业的资产来对待。我们未来需要去好好地来思考这个问题,在这个白皮书里面我们首先提炼了为什么要管理数据资产,我们管理数据资产的目标是什么,我们主要要实现数据的可得、可用、好用来释放数据的价值。

  几个层次:一是要对自己掌握的数据资产有一个盘点,这是第一个目标,要知道自己有什么样的数据资产。二是要提升我们数据的质量,让我们的决策建立在可信的数据的质量上来。三是要打破数据孤岛。四是提高数据的获取效率,时间成本、资金成本要降下来。还有保障数据安全最终形成持续闭环。就像我们现在在提开发和运维一体化,现在国际上也有人在提把开发数据和分析形成一个闭环,让这个之间没有缝隙,我觉得这个是一个很好的目标。我们在这六个方面其实做了一个目标性的阐述。

  数据资产管理的对象是什么,其实最早李老师也在提小数据,我们其实从小数据开始,我们要管好元数据、管好主数据,大数据其实是业务数据,这个管理的对象我们把它分为三类,这是我们数据资产的什么是数据,管什么呢?我们首先要管质量,我们要让这个数据是高质量的,这里头门道非常多,我们虽然有ISO8000的标准,但是仍然质量难以衡量,非常难以衡量,非常难以量化,更不要说保障了,所以这个是一个很长期的事情。

  模型,我们怎么用数据刻划一个物理世界,建什么样的表,表和表之间什么关联更合理、效率更高、更灵活,这是数据建模模型的管理。我们还要管安全,安全是底线,没有安全其他的事情都是不能做的。

  在这之上,其实数据模型、数据质量和数据安全都是靠标准来落地的,来规范的,我们其实标准管的是一种定义数据模型、定义安全风险管控、定义数据质量的一套规范性的文件,所以有了这样一套管理对象,我们其实帮我们梳理数据资产到底要管什么、管这里头核心的数据、管数据的四个维度,就是模型、质量、安全和标准。

  我们怎么来做这个事情?其实我们把它分成了八个职能,这就是我们具体要操作的时候管哪些方面。这里头我们白皮书里面有大量的篇章、大篇幅地在讲这些事情,这些事情很多其实都是来自于DAMA BOOK长期的知识积累,同时也有一些是我们在国内很多专家的实践经验上总结出来的。我就不一一列举这个具体的内容,大家有兴趣可以看白皮书里面详细的关于数据资产管理这几个方面的内容,这里面我们特别想强调的是价值的管理,因为我们说数据资产是有价值的数据,我们其实是要去研究它、去评估它、提升它,还有数据共享的管理,这个共享既有内部孤岛的打破,又有外部合规的安全的流动,这个是我们在这个白皮书里面增加的贡献,其他的都是借鉴,同时我们有很多的提升,结合中国化来做了一些完善。

  如何去做好我们这个数据资产管理?其实大家可能会说这个是非常难以下手的大问题,我们把它拆借看。这个跟华为陈总的材料里头的看法非常的类似,但是我们也是总结了非常多不同厂家实现的步骤,要战略规划、组织架构跟进、制度设置要很完善,同时还要监督这些制度、这些管理规范有没有做到位,有一个审计的过程,同时还要全员去培训,让他们知道数据管理在背后是下水道工程,要投资、要关注、要有耐心、要给大家空间去做。

  我们希望在白皮书里面引起大家重视的,就是数据资产的管理的工作大部分是手工的,手工是边际成本,不会降低的。我们希望在未来机器能够帮我们干很多数据资产管理的活,使得这个边际成本能够降下来,剪刀差持续的空间可能会更大。我们现在有很好的,数据是服务于人工智能的,但是人工智能能不能反过来服务于底下的数据的管理,还有我们的自然语言理解,还有分布式账本、区块链、MPC,这些技术逐渐在成熟,这些技术工具能够给数据资产管理带来很大的改进,让我们的机器多干活,人少干点活,甚至在数据规模增长的时候人员的投入不会线性增长,我觉得这个是我们想引起大家重视。

  我们现在看到很多公司都在提供类似的产品,比如标准管理产品、模型管理产品、元数据管理产品、主数据管理产品这些都是有的,而且今天上午第一个环节里面就有很多产品通过了我们的标准的测试,实际上这个逐渐成为标准化的产品,我觉得这个是对产业很大的利好,但是仍然还有非常大的提升空间,因为底下新技术还没有用上,所以我觉得这个空间是非常大的。让边际成本要降下来。

  还有数据资产管理是很难的,要做好是要学套路的。我们从我们十几个案例里面总结了一些套路的门道,第一个考察是组织上是从上到下还是从下到上的,根据不同公司的情况去选择,有些公司是集团化管理可能容易从上到下去做,有些公司是扁平化管理可能需要从下到上去做。还有一个考量是业务,我们到底从生产系统入手还是从分析系统入手,其实不同的公司选择了不同的路线,这是因地制宜的,所以这个套路是没有固定的套路,但是可以借鉴、可以从思考的维度上建立一个框架。怎么做才能成功呢?这个是因人而异的。

  我们这里有一个总结,这是实践白皮书,这里面有很多落地的案例,包括电信、移动、中保信、中国证券、云上贵州、湖北物价局、某省政府、大型钢铁集团、医药公司等等这些跨行业的应用案例我们希望给大家启发。

  同时数据资产管理是一个持续的话题,它今天是这样不代表明天永远会是这样,在不同的非常多的维度上将会发生很大的变化,我就不详细展开了,总的来说其实是从应用上来看,以前我们主要支撑内部应用,以后是内外结合的,现在主要靠人工,以后是机器和人工去结合,而且机器会发挥更大的作用。以前是IT主导的,以后可能是业务主导或者IT和业务共同的,甚至是独立的数据管理部门,就像银行有数据管理部门专门做数据管理的工作。底层架构也变了,以前是经典的数据仓库、数据平台,以后可能是各种类型的大数据服务,因为数据服务其实是形态非常多样,模块跟搭积木一样,可以搭一个自己定义的数据平台,处理架构是变化的、数据也是变化的,从这个维度看我们数据管理的技术站、业务站都在发生变化,所以数据管理是一个动态的概念,我们需要不断研究深入地来做。

  未来我们还要做很多的工作,我们需要去借鉴国际上的一些成功的理论,我们还要去创新,我们要总结国内的实践,实践里面有很多可以挖掘的亮点,我们下午还有一个最后环节还有一个巅峰对话,大家相互之间跨界去碰撞,互联网公司借鉴传统企业怎么做,传统企业可以学习互联网公司先进经验创新,迭代是小步快跑的,没有最好、只有更好。

  最后我特别感谢非常强大的编委会,我们有54个人参与文档的编写,我们有21家公司,21家公司的市值加起来至少有十几万亿的产值,是非常大的阵容,我们很欣慰能够跟大家一块儿工作,大家的智慧在这里凝结,我觉得未来能够给行业做贡献。同时我们在代局的领导下,通信标准化协会解决各种各样问题,我们还有数据流通、数据平台、政务等等方面的研究,未来要做的事情很多,大数据没有成功,仍然在路上,我们还有很多问题,我们希望跟大家一块儿去解决、去共同来发展。我的演讲就到这里,谢谢。

  

0