>>返回主页
华为2012实验室数据中心产业标准总监孙黎阳:无损网络产业标准、测试验证及新技术孵化

2018-10-17 10:35

孙梨杨.jpg

  各位专家上午好!无损网络从去年到今年我们做了很多工作,今天有幸来做分享,我一开始起的名字叫无损网络的昨天、今天、明天,后来想了一下,还是叫现在这个题目,与工作组的名字更贴切一点。下面给大家做一下相关的分享。

  无损网络的标准产业工作,无损网络这一年来在国内国际上的标准工作中做了很多很实在的工作。第一,我们在IEEE做了无损网络的标准化立项,发布了无损网络白皮书。第二,我们和ODCC的很多伙伴一起、包括OTT、政府、运营商、设备商,联合开展了无损网络测试局,我们也做了标准的推动工作。第三我们在ODCC以及CCSA发布了若干份无损网络相关白皮书及行业标准。

  对于无损网络的国际标准化工作,在IEEE发布了《无损网络白皮书》,里面百度、信通院、电信、移动等等小伙伴们一起在里面做了很多贡献,与此同时在技术点的关键项目立项上,相关小伙伴到了海外现场做了技术分享,让全球的业界能感知到我们中国的数据中心市场需要无损网络,应该说这个效果还是非常好的,并且得到了国际上的普遍认可。最终,白皮书在IEEE802发布,我们的无损网络关键技术立项也顺利通过,立项最终成功。

  国内标准方面,与OCDD、厂商小伙伴一起完成三份白皮书:无损网络技术与应用白皮书、数据中心典型场景测试方法、无损网络总体技术要求三份白皮书,在我演讲之后信通院王少鹏工程师会给大家详细介绍技术应用白皮书。今年CCSC立了无损网络行业标准,目前标准讨论稿获得通过,下一步报送行标批复。

  借助ODCC展开无损网络的联合验证,测试内容还是很广泛的,涵盖了HPC目前热门的应用,这些测试内容以及刚才介绍的测试规范,里面的测试项实际不是我们厂家自己提出来的,是我们客户提出来的实际业务需要,他们对这些应用比较感兴趣,所以我们才针对这些业务提出不同的测试方法和测试案例,希望感兴趣的朋友们可以去了解一下。

  目前测完之后感觉到测试效果还是很好的,无损网络肯定是实现网络零丢包的,第一时间高吞吐。测试过程当中针对HPC的系统有一个任务完成时间30%多的提升,任务完成时间减少,HPC的操作性能加速。另外云存储业务,有25%的提升。

  无损网络除了在ODCC平台测试,我们还和很多客户进行效果测试,华为采用无损网络的技术方案提出解决方案AI Fabric,和客户的数据中心测试,性能有了明显提升。和客户交流当中发现,IOPS是未来云应用的关键指标,决定客户公有云的收费情况,就是一个成本问题。华为采用无损网络的技术,AI Fabric解决方案最高提升25%分布式云存储性能,这个数据和OCDD联合测试的数据是一致的。

  给大家介绍一个测试Use Case,这是我们跟国内某大型的商业银行基于AI网络性能测试,客户的应用场景,客户采用人工智能算法,引入深度学习平台,希望大数据和AI技术能够帮助银行进行人脸识别。目前采用540台GPU服务器进行AI机器人脸部识别,华为的无损网络在AI场景下实现零丢包,并且任务完成时间,也就是超算任务的花费时间相对传统有很大优势。同时华为通过欧洲第三方平台对AI Fabric进行测试,网络时延最高可降低到44.3%,今年在日本一次数据中心峰会上,我们的AI Fabric解决方案获得了金奖。

  无损网络除了在网络中做了一些技术以外,我们还有一些新的想法,我们提出来无损网络实现数据中心网络三网合一的概念。传统DC中的计算、存储、互联使用三张网络,这三张网络需要三种不同的设备、三种不同的拓扑,三种不同的连接,最终传在一起实现客户的业务。现在希望基于无损网络创新,业务是可以迁移到一张无损网络上面,也就是说用户不用再care计算、存储和互联之间的关系,他只要通过一张以太网就可以实现所有业务的连接,这是用户成本以及运维成本显而易见极大的优势。

  目前华为2012实验室对于三网合一技术进行初步探讨,也跟大家分享一下。我们提出几个有挑战的问题,第一个技术Single QoS,客户希望在业务场景中实现流量混跑,减少网卡的消耗量,实际测试和应用过程中发现,由于相对TCP机制而言,TCP不知不觉抢占RoCe流量越来越少,通过我们的Single QoS技术,可以保证流量公平在通道中传输,更加体现流量的公平性。对于用户的信用是非常好的。

  Single Routing,网络当中出现多打一导致拥塞,整网死锁。常见场景下整网死锁之后,节点出现拥塞,pfc传播,等每个节点向上反压的时候,这个网络一定概率出现死锁环,这种pfc而环形成,就会整网壅塞,对应的网络流量为0,业务上是非常大的风险。Single Routing技术可以自动选取网络的位置,切换队列,从而避免pfc不成环,确保网络链路的畅通。当网络出现成环的时候,我们会自动选取一个破坏点对应切换,切换之后整个链路就会相应畅通,相当于整个交通拥堵重新打开一条道让车过去,整个交通拥堵情况得到缓解。

  Single Tune,目前机制下有一个现实的问题,线网应用中参数过多,网卡和交换机侧相关的参数以DCQC为例,有20多个。每次华为公司跟客户进行测试情况下,由于参数需要配置调优,每次派两到三个工程师,针对客户的应用场景进行数据分析和调优,相当耗人力,对于客户而言也相当麻烦,他们的业务都耽搁在那儿,需要把参数配置好之后才能展开下一步的工作。Single Tune技术希望把网络的参数调优做成像空调一样的感觉,如果说客户需要时延优先一点,我们可以智能化把时延优先放在优先级最高地方。如果客户在乎吞吐,我们滚动条点到右边的吞吐,有点像空调,如果温度高了,客户只要把温度调低点,至于空调之间内部怎么实现的,不用太在意。最后的结果是温度低下来了。

  华为在外面展台,针对这三个关键技术有一个demo展示,欢迎有兴趣的同志现场看一下。

  最后说一下有情怀的话,无损网络游今天的成绩感谢ODCC平台以及各位小伙伴的一起努力,未来华为公司的心态还是很open的,无论是数据中心领域新的架构、算法,甚至是新的设备形态,都非常愿意与各位共同探讨,联合研究。

  谢谢大家。

  

0