>>返回主页
清华大学大数据系统软件国家工程实验室总工程师 王晨:工业大数据关键技术与应用实践

2019-12-26 13:20

王晨.jpg

  今天我演讲的内容是工业大数据的关键技术与应用。

  为什么会有工业大数据这件事情?要从我们的工业转型说起,我们中国要走的是一个数字化、网络化、智能化的制造体系。作为基石就是数字化,展开来讲就是三件事:

  1、产品全生命周期的数字化,实际上是从产品的研发设计开始。这个数据既来自于工业软件也来自于设备上的数据。

  2、物理对象的数字化,物理对象在工业上有很多的物理对象,我们生产的设备是物理对象,我们生产出来的产品是物理对象,我们用来测量的仪器仪表也是物理对象,所有物理对象上面我们都安装了大量的传感器,可以把这些物理量感知之后,把这些数据传回来。

  3、环境,环境是指我们在工业整个体系中的上下文,如果今天是一个工业设备在生产,它的上下文可能就是它用的是什么材料?它的环境温度是什么?环境湿度是什么?谁操作的?

  这样一些体系都有一些数字化测量的手段,哪怕是一些人工记录,或者人工输入到信息化系统中的数据,这些数据能够产生出来,采集回来,并最终能够得到我们这种智能化的应用,其实这就勾画了我们今天如何从工业化走到数字化的路径。

  来自于信息化与我们信息系统的数据,来自于我们今天机器设备,传感器所产生的数据,就是我们自动化系统的数据和我们今天看到整个做工业互联网的产业链的链条上,我们所有用得上的企业的上下文的这些环境数据,把它构架起来就从传统的信息化走到了今天的工业大数据时代。所以工业大数据可以用来做很多的事情。

  什么是工业大数据呢?工业大数据很复杂,它有这样的特点:多模态、高通量、强关联。

  什么叫多模态,模态这件事情就是说数据本身很复杂,这张图我们当时采用的是一个国标,大概在工业上总结了130多类数据,每一类数据里面都有自己的结构。但是当你把这些所谓的非结构化数据打开之后,你会发现我们今天看到的非结构化数据里面充满着结构。我们今天如果去看仿真数据里面,其实都是模拟出来跑出来的时间序列的数据,所以工业上我们看起来它大量存在所谓的非结构化数据,其实这些数据内生都是有结构的,只是它的结构非常的复杂。

  数据的高通量。高通量什么意思?数据它持续不断在以非常大的量在产生,以流式的机会再传回来。工业大数据系统上你不可能说这两个小时系统不生产,你去升级你的系统,如果你有两个小时去提升你的系统,那这两个小时的数据就没了,所以它是7×24小时不断产生的。

  数据的强关联。数据的关联性很复杂,比如说面向离散制造业,我们怎么去关联数据呢?一种最典型的关联数据的方式就是通过全生命周期产品结构,我们会用这样一套体系把数据集成起来。

  工业上数据的关联性非常复杂,是技术上带来的一些开放问题,我们现在用通用的像hadoop这样一些技术并不能很好的解决这样一些挑战。

  还有其他一些复杂的问题,工业系统从第一天设计出来的时候就是一个面向机理的系统,机理是什么?还有是一机一况,工业上这台设备跟那台设备,哪怕同一个型号设备,同一个时间出厂的,放在同一个工序上,生产同样的东西也是不一样的。这个时候你能不能用一个同样的机器学习模型放在这两个设备上?肯定不行。所以其实在工业大数据上它所面临的技术挑战,远比我们在其他领域看到的大数据难的很多,这些大数据在现在为止都没有得到很好的解决。

  这是我们清华搞的一套体系,从数据的采集阶段、到管理阶段、分析阶段我们都在做一些分析项目。这就是一套DWF框架,用来做我们今天支持软件工程跟数据工程融合的低代码化开发的体系。

  第二个就是我们做的Apache Io TDB,这个也成功的被Apache基金会吸收,它可以支持全生命周期的时间序列数据的处理。

  第三个项目其实就是深度迁移学习。

  怎么把数据用到企业?数字化是可以尝试的方式。今天不从流程角度去看,我们就是一个特别现实的问题,在一个钢厂在轧钢,会有很经验的工人来猜测出了什么问题,他去调整,调不好怎么办?更过一段时间看到这个轧机的效果之后再去调,就是这样一套系统,这套系统信息化不能解决,但是数字化可以解决。通过计算告诉他每一段是哪根轧轨轧到它,你可以把数据比对给他看,让他看到这个数据到底哪有不一样?你也可以很简单把他所有调整的工艺,调整的方法,变成你的数据库,你可以进行搜索,你去搜,这些东西部需要大数据分析,我是给它建立了一个数字化的空间,我可以通过最简单的数字化手段就可以支撑这样的问题。所以我们刚刚讲的是什么?是可视化,是数据的统计比对,是数据搜索。当然在这个之上,还可以尝试去建立我们去做反向的机器学习模型。

  去年清华大学创立了一个烟草行业的数据中心,我们想要去打造一个标杆式的数字灯塔工厂,如果我今天建造一个全新的工厂,那这个工厂是什么样的?我们真的去打造一个数字化体系,而不是信息化程度很高的工厂。我们认为是两件事:第一件事我需要能够建立一个相对完整的数字化的体系;第二件事我要在这个数字化体系上不断大量构建数字化应用。

  这件事怎么设计呢?这个实体工厂如果建立它的数字化模型的话,其实是两端的数字化:

  1、静态标准,这里面所有生产的物料各类因素都是一个单元,我今天分解出来各种生产单元、生产要素都可以被数字化。

  2、动态数字化,就是上面一个动态工厂,当我这个工厂生产起来之后,这些数据代表的实体之间就会发生关联,怎么把它们能够很好的关联在一起就是我的智能工厂。

  所以静态数据模型很动态数据模型走到上面的应用,其实它是去承载了这样一个体系。

  这件事的步骤就是,去建立它静态的标准体系,去完成现有数据的标准体系的映射,去建立一个动态集成的数字模型,在这个基础上尝试去构建数字化的应用。要做这样一个模型体系,决策、仓储、设备、备件、产品和应用物资,产线、制造单元、存储单元,过程存储,计划,能源供应。

  静态的做完了,该做动态的。这个数据之间怎么建立关系,怎么把数据集成起来?然后面向生产的批次怎么把数据集成起来?面向我们今天的质量维度怎么把数据集成起来?面向生产计划的角度怎么把数据集成起来?供应链,所以在建立这么一套完整的数据归集体系。

  在这套体系之上,我们开始要去做分析的,基于产品的分析优化,基于产线的分析优化等,最终我们希望能够在这样一个体系上达到这样一个智能应用。我想通过这个大家可以看到一个体系化数字体系是什么样子的,什么才是一个数据真的在一个工厂落地。

  好,谢谢大家!

0