>>返回主页
阿里巴巴技术专家张欢:阿里巴巴开放光传输网络设计与实践

2018-10-17 15:40

张欢_副本.jpg

  大家好,时维九月,序属三秋,今天很高兴给各位介绍一下我们阿里巴巴的开放光传输网络里面的一些设计和实践;我在阿里巴巴主要负责网络架构设计和开发方面的部分工作。

  数据中心光互联又叫DCI,这个是我们光互联的示意图,典型的一个大城市会有几个大的数据中心。由于业务对时延的要求,我们的数据中心之间的距离是要求在80km以内的。也就是说光互联的绝大部分应用场景是针对传输距离80km以内的设计。但是,考虑到目前我们城网光纤的质量比较差,所以即使是80km,这个跨段损耗也是挺大的,可能会到30dB以上。而且光纤质量差也导致了我们不能用RAMAN来做线路的放大,这个在一定程度上也限制了性能。

  每个数据中心里面最下面是服务器集群,上面通过一层层的交换机互联,每一层交换机都有一定的收敛比,到了最上面需要出机房的其实是整个数据流量的一小部分。但随着这几年数据中心的规模越来越大出口带宽逐渐从一开始的100G到了现在的200G,马上400G也会用了。现阶段我们城域网的传输距离不长,系统的余量还是比较足,但是到了400G再往后,这个传输的性能就需要终点考虑了。

  传输网络里面的硬件,包括终端和线路我们是采用盒式的DCI pizza box。好处是什么呢?一个是前面提到的更容易实现标准规模化部署,另外相对于传统的框式设备,盒式更适合增量的建设,这个增量,包括了带宽是逐渐建设增加的,空间、功耗也是逐渐根据需求增加的。 盒式的容量和集成度相对于框式也更高,比如现在1U盒式支持到2T以上出口带宽,那么线路加上终端一个rack就足够能装下一个方向满配的设备,甚至还有结余,同时DCI设备按照1RU的颗粒度比较小,我们都可以分散到几个机架,这样也提高了机架空间的利用率。

  另外使用这种DCI盒式设备的好处是:相比于穿通框式设备,盒式设备更适合我们目前使用的异构的架构,也就是说线路和终端,以及终端和终端可以是不通厂家的设备。这样在我扩容,和新厂家,新技术引入的时候就没必要绑定在一家上面了---不同厂家的技术能力和发展路线是不一样的。这个对整体的成本的降低和新技术的快速引入都是很有帮助的。带来的一个问题是我们需要同时管理多家的设备。这个就是代价。但后面会介绍到我们会统一接口然后各个厂家求同存异来实现我们的传输网络。

  这个就是我们开放的DCI架构,底层的就是各家的光传输设备,两端和网络设备路由器或者交换机互联。传输设备分为线路设备和终端设备,可以来自不同厂家,这其实是一个部分解耦的系统,同一个OCH的终端是需要同一家的,同一个线路系统也是来自于同一家。采用部分解耦的原因是因为,对于传输终端设备来说,比如FEC,很多厂商有自己私有的实现方式,这些实现对性能提升比较大,技术上也是领先通用FEC的。我们需要保留即使的先进性。此外一个端到端线路系统,应该说OMS,我们也还是采用同一家的设备,因为线路设备本身不同站点间也涉及到特定格式和特定协议信号的互通。比较复杂,一个厂家自己做好比较好,如果要开放出来需要定义的东西太多。

  解耦系统会有很多厂商引入,很明显会造成麻烦,每一家厂商的具体实现都不一样,一个厂商走过的坑,另外一个厂商又要走一次,这是需要注意的点,相当于是新架构的代价。我们有什么办法呢?我们会给厂商、线路、终端定义统一的模型。这里我们要求所有的传输设备提供标准的Yang 数据模型和统一的netconf 接口,上层有个控制器将NETconf转成rest,这样网管的软件直接通过翻译过来的接口做设备的配置管理,同时在控制器这一层我们还会对性能进行采集,提供给上层分析。对告警的上报进行管理。

  控制器上层就是我们自己的网管软件,主要是实现对网络设备和拓扑的管理,性能,告警的收集,也可以基于性能做大数据分析,知道链路状况什么样,变化了多少。对于穿通传输设备的厂商来说可能到这就结束了,但对于我们来说传输网管是自己开发的,网络设备和整个应用平台也都是我们自己开发,所以可以很好的把两者结合起来,实现网络灵活的配置。传输相当于一层,可以跟二层,三层,跨层做优化。最终实现存量的管理,业务的建立,网络的优化,故障的排查等动态,灵活的应用。快速满足资源、建设、运维的一些定制化需求。

  后面大概介绍一下设计的实践,如果把整个网络按照这张图分层,一共是三层:网络设备、终端设备、线路设备。网络设备包括三层IP和二层以太网,以太网接口以下就到了传输终端设备,传输OTN中包括了一个个OCH,属于1层,再往下我们通常说是0层光层。主要是指的我们的线路系统。数据中心的光传输系统说复杂也挺复杂,但简单来看主要就是这几个层之间的接口功能定义清除,实现出来就行。不同于传统的OTN设备,数据中心用到的光传输需要做许多的减法。

  对传输设备来说,所有网络设备过来的都是需要传输的业务。以太网有FCS,可以提供给我们一定的运维手段。封装到OTN里,会加上OTN的开销,还有FEC可以检查到整个链路的情况,再往下是线路系统,这个图里面所示的是简单的点到点带OMSP线路系统。

  从网络设计角度来看,主要就是定义图中蓝色的三类界面,网络设备到终端设备的界面,终端设备到线路设备的界面,线路设备之间的功能。

  首先是网络设备到传输终端设备这个点,这个接口是以太网的。我们把这个图简化一下就是这样子。这个地方我们对设备有什么要求呢?首先从上层应用来说,OTN是一个管道,以太网所有的包必须要透过来。网络设备可能会拿到收到的包做检测,如果中间有一些错传或者有一些报被丢弃的话是有一些影响的。另外需要支持以太网维护信号的传递,传输毕竟是在中间的设备,如果出现了问题,需要有个信号告诉以太网端这个链路是有问题的。

  另外必须支持LLDP,这跟我们运维的习惯是强相关的。我们需要从线上获取传输设备的连接,从传输设备口可以读取对端网络设备端口信息,这样在建设和排故障的时候,可以很快的知道影响业务是哪些。

  再往下是传输的终端设备和传输线路之间的互联,这里有个以太网到OTN的映射,我们倾向的应用是以太网到OTN用GMP封装,时延会比较低。我们也没有一个可以交叉时隙配置的要求,这里其实是做减法的事情,不用兼容运营商各种各样的业务。我们很简单,就是以太网业务。所以相应的业务处理逻辑也可以简化。

  OTN是用来传输的,我需要知道链路的告警情况和性能的情况,这样我们能对业务做一些优化,如果线路有故障我们也能提前预知,把链路隔离掉。这里头会用到告警的处理和性能的统计。

  对于超过100G的OTN速率,以后的OTNCn标准是以100G 颗粒度的。我们线路侧速率目前是200G,400G马上要上了,后面还会有更高的出现,当线路速率小于400G,对城网来说OSNR的余量还是比较足够的,但从400G再往后我们就需要重新考虑是否有足够的OSNR支持大损耗跨段传输了。

  传输线路系统本身的互联,对于数据中心来说,大部分是点到点的互联。我们会采用OMSP的保护,OMS层的保护相对于OTS来说余量会多一点,不用在线路OTS上增加额外的插损。

  像前面终端一样要考虑有足够的OSNR,线路系统设计也是同样的。另外对于单跨段的应用,单波功率可以比较高,加上光纤复用的波长数也比较多,典型的系统里我们要求有96个,所以EDFA输出饱和功率会比较高,这个功率通常会超过3B危害等级。这时候必须要支持线路侧EDFA自动功率下降功能,否则的话这是比较危险的事情。

  DWDM系统目前尽可能支持后面的演进,目前支持200G、400G混传。线路支持最大容量20T,未来支持ROADM、FlxGrid。这里要注意一下FlexGrid的架构对原来固定栅格的架构改变比较大,对我们的网络管理会有一些挑战。此外以后数据中心多了,如果有穿通和调度的应用,可能会有ROADM的支持。

  作为互联网公司,我们需要管理多层的网络,路由器是我们的,交换机是我们的,传输网络也是我们的,中间有很多优化是可以做。以链路的隔离保护为例。我们的传输线路系统有OMSP保护,当一条光缆路由发生中断,线路系统也能在50ms以内切换到保护路由,不会对业务有影响,那如果工作保护全部断掉了怎么办呢?我们会设计几个传输平面,三层网络设备到传输设备的流量负载均衡到多个传输平面,这样即使一个平面全部中断,业务也能分到其他的平面上面。从网络设备往下看实际上是通过资源堆叠的方式实现网络的可靠稳定。

  最后也谈一下我们对开放光传输系统中光层的控制的一些思考,光层传输系统的各个设备之间信息交互,传输光功率的调整优化实际上是非常复杂的过程,这就是为什么我们看到同传统封闭的传输系统相比一个开放系统的性能会差一些,因为里面有一些调整、功率点的设置,都不是最优的算法。当我们网络裕量充足的情况下这些调整不重要。但随着更高线路速率的引入,往后性能越来越吃紧。这些功率控制的优化就变得重要的。

  所有的控制我大概列了一下,按照控制的性能是可以分类的,可以分成毫秒级、秒级、分钟级的。总体来说,秒级的控制,比如AGC控制,EDFA瞬态效应的控制,EDFA斜度控制,保护切换等这些东西我的要求是几十毫秒或者百毫秒的量级,就需要设备的Firmware支持。再往上APR的控制和Laser safety的控制,业界的标准水平是秒级,1—2秒,这个希望在设备的控制层上实现。

  再往上就是网络的优化,包括链路衰减大了以后来调整,怎么匹配光纤的劣化,这些调整时间会比较长,有的是几十秒,有的是分钟级的。我们希望是在集中式的控制里面做一些算法的计算。这个好处就是能够更快的实现网络的优化。

  这些就是我分享的内容,谢谢大家。

0