>>返回主页
中国通信研究院姜春宇总工发布《工业互联网数据架构白皮书》

2018-02-01 14:10

  我是中国信息通信研究院的姜春宇,分享一下《工业互联网数据架构白皮书》的背景。去年清华包括主席单位已经发了一个技术和应用的白皮书了,这块主要是很多工业企业做大数据的时候觉得架构体系要理清楚,这其实不是工业领域的特点,其实是整个大数据行业现在发展到一个阶段,大家不断的沉淀一些产品和一些技术主业的时候发现产品和技术主业的边界是不清楚的,大家都很模糊,颗粒度都不一样,叫的名字都不清楚,术语非常混乱。

  所以,我们也是斗胆尝试,把大家的智慧汇集在一起做工业领域的数据架构的白皮书。今天我就给大家分享一下我们的进展,因为可能现在还在一个编写的过程中。

  今天主要是从五个方面来给大家介绍一下。第一,功能架构。第二,大家在整套体系,在选择,包括规划,在建设实施过程中应该有一些考量。还有在大数据产品方面的评测实践和工业互联网数据领域的总结和展望。

  首先,看一下什么叫做工业互联网数据功能架构?其实我理解,它类似于工业互联网里面的一个大脑,去把整个数据汇集在一起,采集上来,进行一些存储、管理、分析、加工、建模,以及最后支撑各种丰富的应用,是这样一个工具。所以,我们认为它是一个大脑。

  但是,因为大家都做大数据,工业领域的大数据这套体系跟传统大数据有什么区别呢?它有一定的一些区别,下面我们就讲讲它的一些特点的东西。

  这是一个总体的层次的架构,其实主要来看,还是从数据的采集交换、集成处理、建模分析,包括整个向上支撑的各类的应用,这样一套体系来做的,只不过里面的所有内容,大家仔细看可以看到都是工业场景下的一些数据类型,包括设备的、产品的、流程的,各种各样的数据。然后集成的过程中会有各种面向工艺的数据库,供应链的数据库,就是面向的对象是不一样的,这跟传统的互联网、大数据,包括政务、金融的都是完全不太一样的,可能更多的是面向工程,面向机器,面向很多这些领域。

  建模分析,冯处前面也提了,其实很重要的一点区别就是有一些知识和机理,一些公司在里面。决策控制应用其实也跟传统的各种产业互联网里面的很多东西不太一样,有些智能生产、协同组织、个性化定制服务,非常工业属性的一些内容。

  谈到数据采集与交换,白皮书已经有初稿了,也跟很多二三十家的工业领域的互联网企业进行交流。大家其实在数据采集与交换领域是有很多的心声的,大家觉得这块非常重要。这块可以详细讲一下,内容是这样的内容,但是实际上里面面临很多内容,就是数据采集过程中分两种,一种是机器本身直接内部把数据通过某种方式采过来,但是这种情况下,经常会发现,就是发现某些机器,某些过程中不允许,把这个数据传输,包括数据发出去这些功能都关掉了,有些特定的厂家生产的产品不配合给你传数据。

  另外,就是外接式的。所谓在机器上,包括流程的过程中,加了很多的传感器,外界了一种方式来采集数据,这种方式会面临很多的数据传输、延时各种各样的问题。这种情况下,因为外接了一些东西在里面,所以对整个生产过程会不会造成影响,这也是一些考量。

  所以,我们在跟很多单位联合写作或者一起碰撞的过程中,发现这里面有很多技巧或者很多的方法去解决数据采集的不顺畅的一些问题。这块我们后续会把大家的智慧,遇到的问题,包括怎么样去解决数据采集面临的这些问题梳理出来贡献给大家,做一个比较好的参考。因为里面有各种各样的企业,有很多的智慧在里面。

  另外,到数据的集成与处理。就是所谓的数据加载到我们这个大数据的库里面,然后我要做一些清洗,包括它里面也有很多的难点,架构是这么个架构,但是面向工业领域是有很多的问题。因为大家知道,传统上互联网企业也罢,或者是金融他们这种业务、语言,基本上还是在一个体系里面。但是,在工业里面可能面临的就是有些是机器的语言,机器采集的数据,有些是你ERP、CRM,跟社会活动有关的一些系统里面的数据。这几方面的数据怎么样用同一个语言把它集成在一起,大家能建主题库,能去互相的调用,互相的去产生分析的这个基础,这是非常复杂的一套东西在里面。还有包括数据质量,其实我们谈数据的智能化,包括谈人工智能,其实完全离不开数据的质量。能采到什么样的数据,你数据的质量决定了你最后分析的一个效果。

  现在来看,处理技术总体来说还是以一些开源技术为主。比如说Hadoop、Spark、Elastic、Search,就是一些查询的技术,一些工业领域对查询类的要求还是比较高,我们也是跟很多企业调研了,发现现在开源这块在流和持续这块并不能满足很多场景。所以,很多有自己自主能力的互联网企业都在自主研发一些他的产品。所以我们希望后续把这些新的产品和新的解决方案的技术方向给大家梳理出来,然后包括能不能在这块形成一些开源方面的经验,就是实时的数据处理。

  数据建模与分析,冯处也讲过了,它跟传统的互联网也罢,传统的行业也罢有一个区别,我们现在统计,基于数据驱动的,大数据的这些算法,机器学习,深度学习做一些分析。但是,工业领域复杂的一块就是很多都是通过知识驱动,积累驱动,就是通过物理的化学反应,或者物理的机理,或者天文学,或者是某一种生物的机理在那儿驱动的。所以,它是有一种有理论和基础确定的一个因果关系和数据驱动可能很多都是这种基于关联的,基于这种先验的知识体系。这是两个区别。

  还有基于知识和积累的驱动,就是怎么样去固化,有很多是在人的脑子里面,在一线工程师工人的脑子里面,怎么样跟他们配合把这些知识固化下来,这是一个很大的工作量,创新的周期比较长。而基于数据驱动这件事就是需要的数据量和计算量比较大。所以,我们也能看到这一步,这个领域里面就比较复杂了,因为最后肯定是要分行业,制药领域的这种制药的化学反应是有一套原理在里面,然后工程机械是有不同的工程机械的,发电是有发电的机理在里面,所以挨个去梳理,这样的工作量是非常大的。所以,我们也希望未来搭建一个这样开放的平台,让大家提供更好的机理,包括方法在里面。

  还有一块就是决策应用,这块其实整个大数据或者人工智能来解决的这部分问题,其实无非就是描述、诊断、预测、决策。其实偏工业一点的场景就是控制,就是工控,最后要有一个反馈,通过分析建模以后,把信号反馈回去,控制机器做出反应,控制整个流程做出一些变化,这是工业比较注重的一点就是在控制类。其他的包括描述、诊断、预测、决策,其实是整个大数据,或者人工智能分析的几个阶段就是这几个阶段,不是什么新鲜事。但是工业里面比较注重的就是控制、工控,我们后续也会梳理一下控制类的特点。

  大家如果选择自己的工业大数据的一套体系或者功能,怎么样选择这样的产品,包括怎么样去部署?我们觉得有一些参考,因为我们自己在这块做了一些大数据平台的一些选型和建设的指南,咱们企业如果有疑问说这么多数据怎么判断和选择?大概从几个维度来。

  第一,这个平台,这套技术用来干什么?你要理清楚。

  第二,应用场景有哪些?主要是以实时为主,还是批量为主,还是事物的为主。

  第三,数据规模是多大,决定了你上这个技术的规模有多少?

  第四,性能的预期,这块大概给大家一个建议和思路。

  另外,我们梳理了一些从数据的量级、结构、时延、类型,供大家选择什么样的一些大数据的技术组件。还有建设过程中肯定要考虑成本、业务,包括资源的状况,还有一些人才、技术能力,这几个维度去做。其实我们自己也有一个大数据平台的选型和建设指南,包括详细的一些东西,这是网上公开的,大家可以去关注一下这块,其实在工业领域也是通用的一些思维。

  如果你自己已经选定了一些产品,或者一些技术,你要怎么去实施?我们这儿也有一些方法论,包括确定应用场景、数据范围,然后你的模型,制定数据治理的规范,设计一些数据架构和方案,还有一些顺口溜,方便大家记,包括建设实施的步骤,简单给大家过一下,我们长期做这方面的研究,包括也梳理了很多大家关注的一些问题。

  最后,这样一套体系怎么评判它的好坏,或者怎么样满足他的需求?包括运维管理的能力、开放性和兼容性的能力,稳定性还有性能等这几个点。

  最后,小小的宣传一下我们信通院在大数据这块做的一些数据,我们做的通用的传统的大数据的标准化的事情,包括Hadoop、MPP,包括数据集成、管理、AI和数据挖掘的一些工具。我们现在已经做了大概三四十个厂家的产品,在我们这儿做过了。然后,下面是我们一套标准体系,包括技术平台类和数据管理类,还有一些分析类的,我们都在持续的推动这方面术语的规范化、产品边界的厘清。目前来说,做的算国内比较领先的这样一套体系。

  我们在数据资产管理方面也发了一本《数据资产管理实践白皮书》,去年12月份发的,这本书写的质量非常高,今年我们认为是数据资产管理的爆发的一年,每一家企业都到了这个时间点关注自己的数据资产,你是怎么样用,怎么样维护运营安全,一系列的体系怎么构建,怎么跟对外发生一些碰撞,这是我们认为今年非常重要的一个方向。去年我们已经提前布局做了这方面的研究,因为国内缺这一块,数据资产化的概念也就是这两年兴起的,把数据作为一种资产来去管理。我们也做了一些数据对接方面评估的一套方法,服务类的,就是以数据这两个实体之间流转的过程中需要满足合规性的一些东西,不能像黑市的交易一样,漫无目的,漫无规章的,我们认为需要做一些授权,各方面的安全机制需要建立一套体系。所以,未来大家跟数据方合作,要非常注意数据合规的使用,因为现在法律方面非常严格。

  我们自己有一个认为对大数据的认识,我们现在认为是大数据的中场,不是上半场,也不是下半场,就是一个中间的状态。至于什么时候进入下半场,可能再过一两年,两三年。中场我们现在觉得面临一些挑战。主要是我们经常跟各类企业接触,大家都提一个运营的概念,就是我自己内部的数据,合作伙伴的一些数据,整个体系怎么样打通,怎么样给它产生更多的价值,这里面临很多问题,包括数据怎么样打通的问题,这是一个老大难的问题,政府方面很头疼,很多领域都是很头疼。数据质量的问题,我们谈人工智能,谈数据的分析应用很美好,很有技术感,非常好。但是数据质量,数据采集,我们叫做“下水道”的这些工程没人做,人工智能和数据分析一定是一个遥远的梦想。所以,数据质量这就是我们为什么认为数据运营,或者数据的资产管理是今年非常重要的一年,因为大家都买了平台,大家都在做数据,做完以后,发现数据的标准质量很差,不能用来分析。这是各个企业面临的一个问题,所以今年会是数据资产和数据运营爆发的一年。

  第三,数据安全的问题。现在很多企业因为在使用过程中,包括内部,包括外部都担心他的数据出现问题,就是泄露数据,合作过程中出现一些安全方面的东西,安全永远是一条红线。

  第四,数据价值的再认识。这两年人工智能起来了,背后有多种多样的原因。但是,背后的价值,很多业界做大数据的企业,银行也罢、保险也罢,包括这些服务商都在问这个问题,数据的价值是不是被高估了,是不是如我们一开始做大数据的时候所说的无所不能,它的价值到底有多大,怎么衡量它。这些问题其实值得我们深思。我们看到它应该是分领域的数据的价值再认识,在很多领域它的价值是非常大的。比如公安,是大数据的一个嵌入式的场景,然后其他领域,它的价值是雪中送炭,还是锦上添花,我个人觉得还是值得商榷,可能目前来说,还没到爆发点,可能只是一个锦上添花的过程。包括进入领域,包括一些行业领域,可能就是一个锦上添花的目前这样一个阶段,还没到它的爆发。

  然后,我们的技术也面临很多挑战,包括技术体系的繁杂,新技术不断的出现,今天你觉得Spark已经更新了,改天又出来一个内存的分布式的文件系统,各种各样的技术,大家都想自己成为一个核心,围绕它自己建立一套技术的话语体系。但是到底哪一条技术路线是对的,哪一条路线该去堵,这是不清楚的。

  还有就是产品化。因为我们前几年大家都在做,各个厂商其实没有产品的概念,产品是怎么出现的?就是做不同的项目沉淀下来以后的一些东西大家把它给产品化。但是,大家面临的客户群体不一样,所以你的产品肯定是不一样的。那这个产品的边界不一样,大家都叫同样的名字,你的功能可能细一点,我的功能可能粗一点,大家的侧重点可能不一样,所以缺少一个通用的大数据架构的标准,包括很多企业找我们,这套细微度的大数据的架构体系应该怎么制定,我觉得可以跟大家碰撞一下,制定一下整个技术架构的标准,因为这个中场其实就是用来大家去休息、修正、休养生息、反思,为下半场做好准备。

  未来的一些趋势,大数据其实是为了解决分析层面的东西,慢慢大家在讲智能,其实就是一个发展方向。然后资产化慢慢的会走向连接,各个实体之间的数据的连接,这是我认为未来的愿景在这儿。下一步还有一些技术就不细讲了,我今天的分享就到此结束了,谢谢大家!

0