>>返回主页
华为数据中心领域副总裁张白:AI时代的数据中心网络架构转型

2019-09-03 11:05

张白.jpg

  各位来宾大家好,我是华为的张白,今天在这里与大家分享AI时代数据中心网络的一些思考。

  现在各行各业的数字化转型正在加速,数据显示,我们有64%的企业都在进行着数字化转型的探索和实践。数字化转型的过程会产生大量的数据,这些数据慢慢正在成为企业的一个核心资产。

  Gartner预测到2025年,全球新增数据将达到180ZB,数据量是通过人脑完全无法识别分析的,更别说从里面提取价值。AI智能的方法就成为了唯一的选择,这些数据本身不是目的,从这些数据里提取出来的知识和智慧才是永恒的价值。现在各行各业的AI都已经在应用,比如我们今天在坐高铁,刷身份证,身份证在门口的时候也会有一个人脸识别,通过人脸识别与你的身份证相对应,这样你才能进得去。在2025年时,有86%的企业或者机构会采用AI的技术,AI的时代已经到来了。

  与传统的云计算时代相比,AI时代,我们即将从聚焦业务的快速发展到更加聚焦于数据的高效处理,在云时代,以应用为中心的云数据中心架构就要慢慢转变为以数据为中心的AI数据中心架构。通过专用的硬件实现数据的高效、使能、处理和存储。

  数据中心面向AI时代,数据中心的架构正在重塑。我们都知道算法、算力和算据是AI发展的三大要素,这几年AI的发展日新月异,各种各样的物件通过与网络的互联,成为AI成千上万的触角,共同构成了万物互联的世界,就产生了海量的数据。

  海量数据的分析和处理,这些数据根据效率和精度的算法,都需要越来越多的计算资源,这些计算资源就促使了大规模并行计算的产生。以一个例子,汽车行业的无人驾驶,以它的训练为例,一天产生的数据量,如果使用传统的硬盘存储和通用的CPU来处理,可能需要一年时间。

  现在面对AI数据处理的效果要求,存储从HDD,到SSD,再到SCM,降低时延,计算从CPU到GPU,再到专用的AI芯片,大大提升了效率,计算和存储都发生了巨大的变化,网络应该怎么办,面对存储和计算介质的不断提升,通信时延就成为了通信端到端时延从10%提升到60%,这里面就成为一个巨大的瓶颈,通信的时延有包含了协议栈时延和网络时延,协议栈时延我们通常都使用TCP/IP的时延,但是现在业界基本都会使用RDMA。

  网络时延,通常我们认为有99%的网络时延是因为丢包而引起的,为什么会产生,因为在大规模的AI计算和存储中多打一这样的流量的产生是必不可少的,多打一的产生就会造成网络带宽的局部不足,造成网络的拥塞丢包,频繁的网络拥塞丢包就会造成整体AI业务性能的下降,也成为了AI业务性能的瓶颈。

  网络上的突发流量有可能造成静态配置水线粗暴反压,导致整体网络带宽下降,吞吐下降,从而让网络的效率急剧下降。华为提出了智能无损以太网络,通过AI芯片,全局调整,动态设计调整水线,精准反压,保证在最大发送速度下零丢包,百分之百释放GPU算力。

  华为使用了内嵌AI芯片,AI芯片是华为自研的,构建了AI

  Fabric智能无损解决方案,在解决方案里,我们让计算与网络智能结合,在网络的全局和局部、本地有一个动态的协作,共同构建了一个业界唯一的AI智能无损网络。今年上半年,AI Fabric经过了Tolly认证。

  华为在AI时代数据中心网络变革中,我们组建了一个上百人的研究团队,团队共同打造了现在AI Fabric智能无损的解决方案,去年的时候我们已经实现了本地网络性能最优,未来我们希望结合各行各业不同的应用种类,通过网络调优调速,来形成一个最优的应用体验。

  当前的数据中心有三张网,LAN/SAN/HPC网络,未来AI

  Fabric希望通过开放的以太网技术,同时承载SAN网络和HPC网络的流量,实现无人运维,并且能够支持SDN云网自动化的能力,最终实现100%推土下零丢包。要实现三网合一的能力,我们必须要有支持基于RDMA的大规模部署能力,大规模部署有两个难题,第一个是PFC死锁,我们为了获得网络无丢包,需要向前端进行控速,就需要用到PFC技术,但是一旦网络上的某个节点出现故障,PFC就会出现死锁,有一个数据,在差不多1万台服务器的数据中心,平均每40天就有可能发生1次PFC死锁。华为提出Deadlock Free技术,彻底避免PFC死锁。ETS+,动确保不同业务的网络诉求,使这些业务之间的误差小于5%,同时确保时延在微秒级。AI Fabric现在正在支持领先的互联网和金融企业应对AI时代到来。

  今天我们在ODCC的展台上也有相关AI

  Fabric一些效果和实物的展示,欢迎大家参观,谢谢大家。

0