>>返回主页
中国信息通信研究院云计算与大数据研究所人工智能部工程师王蕴韬:人工智能关键技术及其创新应用简析

2018-05-17 16:40

王1.jpg

  大家好,我是中国信通院的王蕴韬,在云计算与大数据研究所的人工智能部工作,我的主要工作职责就是对于人工智能的这些技术进行一些科研方面的分析。

  今天我分享的题目是“人工智能的关键技术和创新应用的探索”,其实今天的这个演讲主要是为了解决三个问题:

  问题一:目前人工智能的关键算法究竟为我们的这些实际应用带来了一个怎样的提升?它背后的这套机理到底是什么?

  问题二:我们现在已经看到了很多人工智能应用的案例,我们这些看得见、摸的着的提升,到底体现在哪里?

  问题三:现在人工智能这些创新应用除了技术以外,我们还需要做一些什么东西?除了技术以外,我们还需要在哪些方面发力?

  实际上今天的分享主要也是尝试解答这么三个问题。

  首先,第一个问题就是关键算法带来了哪些提升?其实说到关键技术,可以看到从底层的学习算法到上层的感知和行动算法,包括问题解答的算法,以及推理与规划的算法,实际上人工智能也是一个非常复杂的体系。

  底层的学习算法主要包括决策数等等的一些基础算法,而针对感知和应用也包括自然语言处理、计算机视觉和机器人这么三个方面。

  上层中包括问题解答,主要是面向搜索和知识引擎,而对于推理和规划,主要是面向逻辑的这么一个推理,以及针对知识图谱的概率模型表示。

  其实目前的人工智能应用主要集中在感知和搜索两个大的方面,而提起感知,其实大家的第一反应就是计算机视觉以及NLP,在搜索方面,可能大家第一个反应的也是知识图谱。

  因此,主要从计算机视觉、自然语言处理、知识图谱三个方面进行一个关键技术的分析。

  首先,计算机视觉的这个技术实际上有很多传统的技术,深度学习的算法引进,实际上为计算机视觉实现了一个算法端到端,第一张图实际上是针对传统的目标识别算法,我们可以看到所有的数据,我们需要经过……人为的参与是很多的,包括预处理、特征提取、算法处理。

  那么,经过提取的这个特征以后,我们再把它输入到一个可训练的分类器里面,这样的话,传统的目标识别法在能够有效的应用,而这个深度学习的识别算法,实际上我们对机器输入仅仅是一个精标数据,经过这里面层层的机器自动特征提取,包括低级特征、中级特征、高级特征这么一个自动提取,机器会自动输入到这个可训练分类器当中。

  这个输出实际上和我们传统的目标识别算法可以有一个相同的输出,实际上深度学习的技术也拟合了大脑识别图像的过程,是在神经网络的不同阶段提取不同的层级特征。

  它背后的数学原理实际上也是针对卷积神经网络,包括卷积计算,以及非线性变换等等操作,来对整个图像的这么一个特征进行自动提取。

  计算机视觉有五类基本任务:

  1、检测。

  2、识别。

  3、特征点定位。

  4、序列学习。

  5、分割。

  而目前主流的核心任务其实都可以有序的分解成为5大类任务的这么一个组合,这里我画了一颗树,这颗树的底层实际上是大家耳熟能详的训练平台,包括TensorFlow,中间的树干实际上就是说我们针对计算机视觉来提出的,包括VGG、Xsnet等等网络特征模型,而上层支持的则是这五大类的任务。

  我们也看到目前这个深度学习领域,底层的这些训练平台也纷纷在缩短训练时间,提升研发效率方面发里,而对于这个模型来说,我们工业界也不断的在追求模型的越小越精,同时学术界也在不断的追求模型的精度。

  包括底层的训练平台,以及中层的模型训练,实际上都基于人工智能算法的这个计算机视觉提供了非常有力的支撑。

  那么,我们可以看到基于计算机视觉的,包括图像分类、物体检测、物体跟踪、图像分割这么四类任务,都有对应传统的这么一个深度学习算法,来完成。

  尤其可以注意到的图像分类、物体检测,我们基于传统算法的SVM,以及包括DPM、HOGSVM等等,其实在深度学习算法方面,都已经有了一个非常明显的替代。

  替代的效果作用到底怎样呢?其实这里面我也做了一个简单的总结,那么基于目前在学术界,就是说针对不同的计算机视觉分类任务,也有不同的公开数据集,大家也都在这个公开数据集上进行实验,我们可以看到基于Image  Net的图像分类,以及基于Pakill、VOC的物体检测,以及基于OTB50的物体跟踪,以及基于COCO的图像分割。实际上就是说深度学习算法目前已经取得了超越传统算法的成绩。

  那么,说安了计算机视觉,下面再分享一下语音以后,我们可以看到语音技术发展也分成四个阶段,包括最开始的技术萌芽,到基于传统技术的技术突破,到产业化阶段,以及快速应用阶段。

  我们也看到,实际上这里面从技术角度来看,在20世纪80年代提出的隐马尔科夫模型(HMM),以及在2011年微软率先提出的基于深度模型的语音识别技术,实际上是这两个阶段比较主要的技术突破。

  尤其在2011年微软提出的深度学习网络模型以后,语音识别的错误算也降低了30%,取得了突破性的进展。

  深度学习的算法实际上在语音识别当中也有一些非常具体的应用,我们可以看到实际上语音识别有两个关键步骤:

  步骤一:我们需要构建一个状态网络,这个状态网络其实也是由单次级的网络,展开成一个因素网络,然后再展开成一个状态网络。

  那么,语音识别想要做的东西实际上也是从这个状态网络中来寻找与声音最匹配的路径。

  下图是一个数学模型,上面是一个输入音频的这么因素网络的分解,而对应的,下面这个实际上是一个隐马尔可夫模型,那么语音识别的过程实际上就是说在状态网络中,我们来搜索一条最佳路径,语音识别实际上就是找出来这条路径对应的最大概率。

  说到这个的话,如果大家对通信有了解的话,实际上路径搜索规划用到最后的,而且就是编解码用到最多的,实际上就是维特比算法,维特比算法实际上就是在语音识别当中用的最多,而基于LN的深度学习算法,实际上现在也是在语音识别当中取得了非常好的效果。

  另外一个可以提到的就是自然语言处理,在自然语言处理里面,我简单梳理一下NLP的发展历史,我们可以看到其实自然语言处理技术发展也分成了这么两个阶段:

  阶段一:走弯路阶段。

  阶段二:统计语言模型和引入了通信系统概念。

  我们可以看到20世纪70年代,实际上是一个主要的分割点,在这个之前,大家主要在探索的是用电脑模拟人脑,对于自然语言的理解,并且试图总结出来人类对于语言使用的规则,从这个方面发力。

  实际上,从目前来看,它的成果微乎其微,几乎为零。

  在20世纪70年代以后,大家从对于规则的概括转化成为了引入统计语言模型的阶段,因此在引入统计语言模型的阶段以后,我才取得了一些技术上的的突破。

  现在其实我们很多的深度学习算法,其实也是在基于统计语言模型,以及利用通信系统概念模型的相关基础上,也取得了一些相关的突破。

  具体探讨到深度学习在NLP当中的应用,实际上就是说我个人认为最关键的点在于解决了计算的问题,我们可以看到即十年来,自然语言处理的问题机器学习算法,实际上都是基于浅层的模型,也就是说传统的机器学习算法。

  比如说,SVM、逻辑斯蒂回归,实际上它都是在非常高为稀疏的特征上进行的,同时如果更方便理解的话,也是一个浅层的计算,而实际上这个层越浅的话,对于算力以及数学模型的复杂度要求越高。

  因此虽然说我们可以提出这个模型,但是我们无法实现这个模型。

  在过去的几十年以来,实际上基于密集向量表中的神经网络,在多种的自然语言处理任务上,都产生了非常优秀的成果。

  这里面其实有一个阶段性的成果,就是说2011年的Colbor等人的论文,简单的证明了深度学习的框架能够在多种的NLP任务上超越传统最顶尖的方法。

  这里面举例,包括实体命名识别、语义角色标注、雌性标注等等,也就是在2011年以后,各种基于深度学习的复杂算法才被提出来,来解决NLP方面相关的问题。

  总结来看,实际上NLP在深度学习方法主要有五个方面的应用:

  第一方面:对传统模型进行一个替代。

  第二方面:我们基于RAN的这种序列到序列的输入、输出,我们可以生成新的NLP模型。

  第三方面:特征学习,也就是说深度学习实际上把专家提取的特征更加具有完备性,而且具有代表性,因为在传统的算法中,整个基于NLP的特性是由人工参与提取的,而深度学习实际上是由机器提取的,减少了人工的参与,更加具有中立性和准确性。

  第四方面:使用了深度学习的模型以后,我们可以看到持续可见的这么一个性能提升,而且实际上我们目前来看,收集到这种真实的数据量越大,我们这个深度学习模型的性能提升就越能够持续下去。

  第五方面:这也是最开始提到的,实际上深度学习模型提供了一个端到端的模型,那么端到端,对于整个的NLP模型来说,也是最容易接受的,而且也是非常容易实现的,同时也是非常直观的。

  从工程实践上来讲,深度学习有四大优势:

  优势一:精准度非常高。

  我们可以看到无论是计算机视觉,还是智能语音,深度学习都可以做到传统方法无法企及的这么一个精度。

  优势二:通用性非常强。

  相比传统的算法,深度学习的法更具有通用性,我们可以使用一个模型在不同的实际应用场景当中,都可以取得很好的效果。

  优势三:迁移模型。

  深度学习这个模型,我们在提取了它的这些特征以后,具有很强的迁移能力。

  比如说我识别,它是一个苹果的网络结构,我可以进行一个微调,仅在最后一层输出的概率模型上进行一个微调以后,我们就可以让它识别梨、葡萄。

  基于这三个特点,其实对于工程实践来说,基于深度学习的这么一个模型实现,也是具有成本较低的特性的,深度学习的的功能开发、优化、维护的成本,相对来说较低,因为深度学习网络实际上是基于Calution、Culin、Fnicekty的这些基础算子来实现的。

  因此,我们只要在底层硬件上,对这些基础算子进行一个优化,我们就可以实现对整个模型的一个非常高的性能优化提升。

  刚才简单介绍了一下深度学习技术方面带来的提升,刚才也说到了除了感知以后,搜索也是目前人工智能应用的主要点,提到搜索,这里面简单介绍一下知识图谱。

  实际上知识图谱也是为整个机器的知识智慧,也就是说如果说之前的深度学习只是为了从海量数据当中收集出让机器自动学习的这么一个鲜艳知识和规律,实际上知识图谱是人类在提取了相关知识,用图的这么一个结构,来把这些知识进行归类,输入给计算机,让计算机也同时能够拥有人类拥有的这些鲜艳知识。

  实际上知识图谱最早也应用于搜索领域,2012年时由Google最先提出,实际上它在使用知识图谱时,其实也是为了更好的处理信息。

  我不知道大家注意到没有,其实最开始的时候,我们在搜索Google的时候,它是没有右边的这个边栏的,右边这个边栏实际上就是对知识图谱最开始的应用。

  另外,随着人工智能的兴起,知识图谱又被广泛的应用于聊天机器人和问答系统当中,因为实际上聊天机器人和问答系统也是对鲜艳知识有着一个非常严酷的考核的,因此实践也证明,知识图谱技术在这两个领域方面的应具有非常好的应用前景。

  知识图谱刚才也提到了,我们是想用计算机能够理解的方式,来表达知识,实际上这就需要我们完成一件事情,我们需要把人类能够理解的知识表达为计算机能够理解的知识。

  其实这其中有一个映射的关系,我们知道人类的知识都是用语言表达的,大多数是用语言表达的,如何用语言表达呢?其实我们的语言学家早已经给出了这么一个答案,也就是说我们用主谓宾做,就是Subject、Prject、Object,对应的分别就是说人类语言主谓宾三个成分。

  实际上通过这种主谓宾,对人的知识进行一个有效的提炼,对于机器来说,实际上它是不认识这个主谓宾的,经过专家的思考以后,在机器的语言主谓宾里边,实际上它对应的是RDF这么一个表示。

  实际上里面三个对应的IRI、Ltroll、Blanklod,IRI实际上是整个知识图谱里面的一个网页定制,它实际上对整个所有的每个单条知识体系表示的唯一类似于地址的定义,如果更好的理解,可以理解成为每个人自己的身份证号码。

  Ltroll是一个自变量,我们就可以把它看成所有的数据,以及纯文本的存储,我们都可以把它看成Ltroll的实体会。

  Blanklod实际上只要它不是一个IRI,它也无法定义成一个Ltroll的话,其它的东西都可以归结为Blanklod这么一个实体。

  那么主谓宾和这三者其实有这么一个对应关系,就是说我们的主语主要在IRI和Blanklod,有一个对应,我们谓语的话主要体现在IRI的定义上,宾语实际上是针对RDF的三种,我们都会有这个体现。

  这个是知识图谱整体的简单基础基础架构,我们可以看到知识图谱的技术对结构化的数据、半结构化的数据、非结构化的数据,都能有一个非常好的处理能力,同时也会包括信息抽取、数据整合,我们就可以生成一个图结构的形式,让机器更好的实现语句查询、模式挖掘等等的工作任务。

  上面其实介绍的是一些比较枯燥的技术,实际上目前我们看到了很多的应用场景,包括很多企业,都已经使用了人工智能技术,其实大家看到的更多的是一些图形、展示的视频Demo。

  第二个问题就是我们使用了人工智能技术以后,我们到底有哪些看得到的提升?其实这里面的这些案例收集,因为数字实际上最具有说服力,因为后续我举的这些例子,都是有具体数据进行支撑的。

  首先,人脸识别,人工智能应用在公安的人脸识别上的应用,实际上已经非常成熟了。

  举个例子,2017年某市的刑警在使用人工智能技术以后,降低了14.5%,其中32起命案全破,抢夺、抢劫的情况降低了55%和45%,破案数上升了9.5%,破案率的比例也提高了11.7%,抓获犯罪嫌疑人的比例也上升了13.2%。

  实际上这些数字背后的支撑技术是公安自己搭建的,包括静态人像库检索,以及动态人像识别系统,这两个系统的建立,实际上为人工智能应用在公安里面之提供了非常好的支撑。

  第二,医学影像,实际上在医学影像方面,主要的应用模式也有种:

  1、在分析识别影像的非结构化数据上面做一个相关处理。

  2、推动大量的影像数据和诊断数据,来促使神经网络掌握判断的能力。

  另外,针对影像癌细胞的识别率,在以色列的医学中心实际上已经达到了99.5%这么一个水平,第二个实际上就是大家耳熟能详的智能肺结节,对于肺结节的诊断率,已经达到了96.7%的水平,相当于比高年制的副主治医生的水平还高。

  第三,智慧教育,这里面举了两个简单的例子,一个是合肥一中的,一个是北师大二中的。

  合肥一中的参与智慧教育实验的五个班级,它的平均成绩也提高了5个名次,18班和22班提升到了第一和第二,北师大二中的语文成绩也提高了15%。

  在智慧教育当中,主要的五个应用方面有:

  1、精准教学。

  2、个性学习。

  3、语音评测。

  4、智能推荐。

  5、数据分析。

  实际上我们智慧教育的这些系统相关企业,已经为1500万的师生提供了这么一个相关服务。

  第四,智慧城市,实际上智慧城市是智慧化应用的非常好的案例,目前我们从已经收集到的案例总结来看的话,智慧城市的应用已经覆盖了市政的21个部门,包含了133个大类,其中已收集到的数据是34.4亿条,覆盖的业务也达到了4585项,达到了99%的办结率,产生的效率是柜台减少了70%,人员减少了50%,时间减少了60%。

  智能客服现在也是一个非常成熟的应用,结合深度学习算法,机器人的准确率提高到了95%,而且已经为数千的客服规模大型公司节约了50%以上的人力成本,美国、中国、印度的客服规模也达到了2000万的数量级,为企业创造了更大的价值。

  在智能环保环节,某电信运营商为了从基站节能的角度出发,通过机器学习的算法实现网络中的这么一个补偿小区,来实现业务尖峰和业务低符合状态下基站能源之间的智能切换。

  节能效果上,已经在国内多个地市进行实验应用,预计全网应用可以实现年节电1.5亿度的水平。

  最后一个是智能供应链,也就是说基于历史数据和统计学习模型,对商品未来的销量预测、仓储的单量预测,以及促销期间的促销预测,我们可以实现对整个物流有一个更精准的把控。

  实践证明,基于人工智能的这么一个实践以后,我们的补货时间由原来的5-8天降低为2-3天,线上有货率也由73%提升到了95%,实现了非常大的一个提升。

  以上实际上就是从技术和应用两个角度来介绍了一下人工智能和实体经济的融合创新。

  第三个方面,想分享一下我们除了技术以外,我们还需要做一些什么事情。

  我们可以看到产业的发展离不开优质平台建设,其实除了技术和协议以外,我们还需要整个的产业链形成一个协同,其中生态建设也是重要的一环。

  因此,我们有一个优质的平台,包括标准化的平台,包括生态建设的平台,也是十分重要的。

  中国信通院作为政府智库和行业平台,也是在平台建设方面做了很多工作,其中最主要的一项就是成立了中国人工智能产业发展联盟。

  这个联盟的简要情况这里就简单介绍一下,联盟是去年成立的,截止到去年年底,目前已经有241家单位了,其实也囊括了我们国家主要的人工智能企业。那么,到目前来看,递交申请的企业已经达到300余家的规模。

  联盟成立以来,我们已经召开及指导了多次会议,值得强调的是在去年12月4号时,联盟承办了第四届世界互联网大会人工智能分论坛,也取得落非常好的效果。

  从开展工作来看,联盟已经在评测业务、国际交流方面开展了相关业务,评测业务实际上已经召开了人工智能芯片、智能语音、智能音箱、计算服务平台等等方面的评估评测会议。

  在国际交流方面,我们和国际电信联盟进行了密切合作,在未来网络机器学习教练组方面已经开展了相关工作。

  实际上联盟的一个主要任务就是实现标准链条的打通,目前我们已经开展工作,依托于联盟,评估认证工作组已经开展了,包括标准评估规范的起草编写,包括中国通信化协会、国际电信联盟等组织做一个输出。

  并且在电里、金融、医疗健康领域中,都开展了相关的工作,实际上已经实现了从联盟标准-行业标准-国家标准-国际标准的标准链条的打通。

  下一个的话,针对我们这个评估和认证工作组进行一个简要的介绍,实际上目前我们已经基于从底到的……包括基础设施评估认证、服务平台的评估认证、产品的自动化分级,都已经开展了相关工作。

  基础设施包括人工智能计算服务集群、人工智能数据集等方面,都已经开展了相关的建设评估工作,对于服务平台的话,主要开展是计算机视觉、智能语音、语义方面,来进行相关的工作。

  在产品的自动化分级中,我们主要开展智能音箱的分级、语音翻译、智能客服,都已经开展了相关工作,下一步也会针对智能投顾、舆情分析等等进行开展。

  上面介绍联盟在做的事情,实际上中国信通院也依托与产业联盟、地方政府开展相关的工作,实际上我们现在已经成功的进行了人工智能关键技术和应用的工信部重点实验室的建设,同时我们也借助于地方政府,以及联盟的平台,在规范和标准制定方面,开展了很多工作,具体在做的工作也包括对于地方政府的本地化自群测试,以及活动的服务,目前在南京、江苏、青岛、西安等等也开展了相关的业务。

  谢谢大家!

0